nova服务及云主机异常分析处理

阿凡达2018-08-14 10:28

nova 进程卡死

  • compute进程处理rpc请求的 thread pool用满, 有可能libvirt卡塞,
      grep "GreenPool free size" /data/log/nova/nova-compute.log
    
  • 生成vm系统盘过程中,qemu-img进程卡死。
      ps -ef|grep qemu-img
    


云主机异常

  • 云主机心跳上报不及时,或者操作云主机异常。有可能是libvirtd并发请求太多,处理不过来导致的阻塞
      grep -r "Timed out during operation: cannot acquire state change lock" /var/log/libvirt/libvirtd.log
    
  • 创建卡在scheduler 查看nova-scheduler日志,如果已经选择好计算节点,但计算节点没收到任何请求,一般是rabbitmq异常,联系sa查看。


云主机卡死异常

  • nova console-log $uuid ,或者产品管理页面中查看云主机的控制台日志。
  • sudo virsh dump $uuid,导致内存,用crash工具分析
      crash /usr/lib/debug/vmlinux-3.14.23-openstack-amd64 dump.201601201446
    
  • perf kvm分析qemu进程堆栈

      # ssh guest  "cat /proc/kallsyms" > /tmp/guest.kallsyms
      # ssh guest  "cat /proc/modules" > /tmp/guest.modules
    
      perf kvm --host --guest --guestkallsyms=./guest.kallsyms --guestmodules=./guest.modules record -p 41659-o perf.data
      perf kvm --host --guest --guestkallsyms=./guest.kallsyms --guestmodules=./guest.modules report -i perf.data
    


网易云新用户大礼包:https://www.163yun.com/gift

本文来自网易实践者社区,经作者管强授权发布。