KVM半虚拟化设备virtio及性能调优最佳实践

叁叁肆2018-11-06 14:33

此文已由作者刘超授权网易云社区发布。

欢迎访问网易云社区,了解更多网易技术产品运营经验。


为了提高硬盘,网络的性能,需要支持半虚拟化


在全虚拟化状态下,Guest OS不知道自己是虚拟机,于是像发送普通的IO一样发送数据,被Hypervisor拦截,转发给真正的硬件


在半虚拟化状态下,Guest需要安装半虚拟化驱动,Guest OS知道自己是虚拟机,所以数据直接发送给半虚拟化设备,经过特殊处理,发送给真正的硬件


半虚拟化驱动的例子:virtio, Vmware Tools



然而要虚拟的设备多种多样,要支持的硬件多种多样,需要统一的接口,这就是virtio的使命


不同的虚拟设备和不同的虚拟机可以有不同的前端驱动


不同的硬件设备可以有不同的后端驱动


两者之间的交互遵循virtio的标准


virtio层是虚拟队列接口,virtio-net网络驱动程序使用两个虚拟队列(一个用于接收,另一个用于发送),而virtio-blk块驱动程序仅使用一个虚拟队列。


Transport(virtio-ring)实现了环形缓冲区(ring buffer),用于保存前端驱动和后端处理程序执行的信息,并且它可以一次性保存前端驱动的多次I/O请求,并且交由后端去动去批量处理。





我们首先来看硬盘虚拟化virtio_blk


qemu-system-x86_64 -enable-kvm -name ubuntutest -m 2048 -balloon virtio -drive file=ubuntutest.qcow2,if=virtio -vnc :19 -net nic,model=virtio -net tap,ifname=tap0,script=no,downscript=n -monitor stdio


使用virtio_blk驱动的硬盘显示为/dev/vda,使用IDE硬盘显示为/dev/had,使用SATA硬盘显示/dev/sda


virtio-blk->


我们再来看网络设备虚拟化virtio_net


ethtool -i eth0


TSO是通过网络设备进行TCP段的分割,从而来提高网络性能的一种技术


GSO(Generic Segmentation Offload) 应用于其他的传输层协议,如TCPv6,UDP


应用层可以使用ethtool -K eth0 tso off|on命令对支持TSO特性的网络设备进行TSO功能的关闭和启用


使用virtio_net性能低,可尝试关闭这两个选项




使用Virtio的性能比较如下:


有了virtio性能会好很多。


所以性能优化的第一个最佳实践是:使用半虚拟化驱动virtio,对于block storage,使用virtio_blk,对于network,使用virtio_net


在CPU方面


每个Guest相当于一个进程,Guest中的每个vcpu相当于一个线程


Host CPU支持进程间切换,SMP可以并行执行多个进程,从而可以进行CPU超配


CPU的超配增加了进程上下文切换,从而可能带来性能问题


为了保证Guest进行能够得到足够的时间片,常常使用cgroup的cpu.cfs_period_us和cpu.cfs_quota_us来控制


Cfs全称Completely Fair Scheduler是Linux Kernel的调度策略


cfs_period_us的意思是cgroup对CPU的调度的干预周期,cfs_quota_us是指则一个周期内这个进程得到的时间片长度。比如cfs_period_us=100000说明100毫秒cgroup进行一次干预,cfs_quota_us=25000表示在100毫秒里面,这个进程能够得到25毫秒的时间片,如果对cgroup进行的修改,则要等到下个100毫秒才起作用


Processor Pin: 可以讲vCPU pin到一个或者一组共享cache的物理CPU上,由于cache共享,则很多命令和数据都被缓存,从而提高性能。缺点是即便其他物理CPU空闲,由于绑定到了这个CPU,也得不到运行


CPU和Cache拓扑模型/sys/devices/system/cpu


virsh vcpupin guest# vproc# pproc#,pproc#





在内存方面


KSM全称Kernel Same Page Merging


Qemu向KSM注册内存,KSM对内存进行扫描,将相同的内存区域设为共享,并且copy on write


# cat /boot/config-3.13.0-27-generic | grep KSM CONFIG_KSM=y


共享内存节约内存空间,但是内存扫描同时影响性能


使用virtio_balloon


尽量不要使用swap,/proc/sys/vm/swappiness设为0


多核的两种方式:SMP和NUMA


SMP的问题主要在CPU和内存之间的通信延迟较大、通信带宽受限于系统总线带宽,同时总线带宽会成为整个系统的瓶颈


NUMA(Non-Uniform Memory Access):每个处理器有其可以直接访问其自身的“本地”内存池,使CPU和这块儿内存之间拥有更小的延迟和更大的带宽。而且整个内存仍然可做为一个整体,可以接受来自任何CPU的访问。


禁止zone_reclaim_mode:/proc/sys/vm/zone_reclaim_mode


当操作系统分配内存时,发现CPU本节点的内存已满,如果reclaim=true,则将会回收一部分本地内存,否则将分配其他节点的内存


使用KSM和Huge Page都会造成reclaim


建议开启大页Huge pages,从而提高地址转换的效率


普通页:PDPT -> PD -> Page Table -> In Page Offset


Translation Lookaside Buffer (TLB)是一个从虚拟地址到物理地址转换的一个Cache


Huge Page不但使得每次地址转换比较快,而且使得TLB每个记录较小,相同的内存的情况下,保存的记录较多,Cache命中率较高


大页:PDPT -> PD -> In Page Offset



在网络方面


使用tap作为网卡配置


使用virtio_net


使用PCI passthough可以提高性能,但是影响虚拟机迁移


可以使用DPDK或者SR-IOV





在存储方面


尽量使用block device,性能更好,无需管理HOST文件系统,无需管理稀疏文件,I/O Cache以4K为边界。


如果不能使用block device,则只好使用Image File。易管理,易移动,但需要HOST文件系统,需要管理稀疏文件


Partition问题:标准分区软件分区是以512byte一个Cylinder为边界的,Linux系统的I/O Cache是以4K为边界的,所以Linux下的标准文件系统将分区format的时候,会将文件以4k为边界进行存储,从而每次缓存正好缓存整个page(大小4k)


Image File作为一个文件,在Host文件系统中一定是以4k为边界的,然而一个Image File对于Guest来讲是整块硬盘,对其分区的时候往往不是以4K为边界的,从而Guest上读取文件的时候,本来是读取缓存的4K一个page,映射到Host文件系统上,变成了两个Page。写入也要更新两个页。



Host使用ext3文件系统,因为ext4的barrier会影响性能


使用raw image,比qcow2性能要好


选择正确的cache策略:


Page Cache: Host和Guest在FS和Block层都有自己的Page Cache,我们无法控制Guest里面的设置,但是可以配置Host Page Cache


Disk Write Cache在Hypervisor层


Cache Mode有以下四种,推荐使用none


I/O Scheduler推荐使用Deadline I/O scheduler


免费体验云安全(易盾)内容安全、验证码等服务

更多网易技术、产品、运营经验分享请点击