linux内核对网络包的接收过程大致分为:硬中断处理、接收数据到RingBuffer、ksoftirqd软中断处理几个过程。在软中断处理中,将数据包从RingBuffer中获取送到协议栈进行处理,之后再送到用户进程socket的接收队列中。
几个工具
监控网卡的工具:
ethtool
该工具用来查看和设置网卡参数。这个工具其实本身只是提供几个通用接口,真正的实现是都是在网卡驱动中。几个选项:
-i
显示网卡驱动的信息,如驱动的名称、版本等-S
查看网卡收发包的统计情况-g/-G
查看或者修改RingBuffer的大小-l/-L
查看或者修改网卡队列数-c/-C
查看或者修改硬中断合并策略
1 | # 查看网卡驱动: |
ifconfig
网络管理工具ifconfig不只是可以为网卡配置ip,启动或者禁用网卡,也包含了一些网卡的统计信息。
1 | eno1 Link encap:以太网 硬件地址 98:90:96:a5:4c:a7 |
伪文件系统/proc
Linux内核提供了/proc
伪文件系统,通过/proc
可以查看内核内部数据结构、改变内核设置。
主要内容:
/proc/sys
目录可以查看或修改内核参数/proc/cpuinfo
可以查看CPU信息/proc/meminfo
可以查看内存信息/proc/interrupts
统计所有的硬中断/proc/softirqs
统计的所有的软中断信息/proc/slabinfo
统计了内核数据结构的slab内存使用情况/proc/net/dev
可以看到一些网卡统计数据
关注伪文件 /proc/net/dev
查看内核中对网卡的相关统计,包含的主要信息:
- bytes: 发送或接收的数据的总字节数
- packets: 接口发送或接收的数据包总数
- errs: 由设备驱动程序检测到的发送或接收错误的总数
- drop: 设备驱动程序丢弃的数据包总数
- fifo: FIFO缓冲区错误的数量
- frame: The number of packet framing errors.(分组帧错误的数量)
- colls: 接口上检测到的冲突数
伪文件系统sysfs
sysfs
和/proc
类似,也是一个伪文件系统,但是比proc
更新,结构更清晰。其中的/sys/class/net/eno1/statistics/
也包含了网卡的统计信息。
1 | # cd /sys/class/net/eno1/statistics/ |
RingBuffer监控和调优
当网线中的数据帧到达网卡后,第一站就是RingBuffer(网卡通过DMA机制将数据帧送到RingBuffer中)。
使用ethtool
查看RingBuffer:
1 | # ethtool -g eno1 |
本机器的网卡设置RingBuffer最大允许到4096,实际设置为256。
注意:ethtool查看到的是实际是Rx bd
的大小。Rx bd
位于网卡中,相当于一个指针。RingBuffer
在内存中,Rx bd
指向RingBuffer
。Rx bd
和RingBuffer
中的元素是一一对应的关系。在网卡启动的时候,内核会为网卡的Rx bd
在内存中分配RingBuffer
,并设置好对应关系。
在Linux的整个网络栈中,RingBuffer
起到一个任务的收发中转站的角色。对于接收过程来讲,网卡负责往RingBuffer
中写入收到的数据帧,ksoftirqd
内核线程负责从中取走处理。只要ksoftirqd
线程工作的足够快,RingBuffer
这个中转站就不会出现问题。但是设想一下,假如某一时刻,瞬间来了特别多的包,而ksoftirqd
处理不过来了,会发生什么?这时RingBuffer
可能瞬间就被填满了,后面再来的包网卡直接就会丢弃,不做任何处理!
查看机器上是否有因为RingBuffer设置导致的丢包:
1 | # ethtool -S eno1 |
rx_fifo_errors
如果不为0的话(在 ifconfig
中体现为overruns
指标增长),就表示有包因为RingBuffer
装不下而被丢弃了。那么怎么解决这个问题呢?很自然首先想到的是,加大RingBuffer
这个“中转仓库”的大小。通过ethtool
就可以修改:
1 | # ethtool -G eth1 rx 512 tx 512 |
这样网卡会被分配更大一点的”中转站“,可以解决偶发的瞬时的丢包。不过这种方法有个小副作用,那就是排队的包过多会增加处理网络包的延时。所以另外一种解决思路更好,那就是让内核处理网络包的速度更快一些,而不是让网络包傻傻地在RingBuffer
中排队。怎么加快内核消费RingBuffer中任务的速度?
硬中断监控与调优
监控部分
硬中断可以通过内核提供的伪文件/proc/interrupts
来查看:
1 | $ cat /proc/interrupts |
分析:
- 网卡的输入队列
eno1
的中断号是31 - 31号中断由CPU5和CPU7来处理
注意:
- 为什么输入队列的中断在CPU5和CPU7上?
这是因为内核的一个配置,在伪文件系统中可以查看到:
1 | #cat /proc/irq/31/smp_affinity |
smp_affinity
里是CPU的亲和性的绑定,80是二进制的01010000
,第5位和第7位都为1,代表的就是第5和第7个CPU核心CPU5和CPU7。
- 对于收包来过程来讲,硬中断的总次数表示的是Linux收包总数吗?
不是,硬件中断次数不代表总的网络包数。第一网卡可以设置中断合并,多个网络帧可以只发起一次中断。第二NAPI 运行的时候会关闭硬中断,通过poll来收包。
多队列网络调优
现在的主流网卡基本上都是支持多队列的,可以通过将不同的队列分给不同的CPU核心来处理,从而加快Linux内核处理网络包的速度。这是最为有用的一个优化手段。
每一个队列都有一个中断号,可以独立向某个CPU核心发起硬中断请求,让CPU来poll
包。通过将接收进来的包被放到不同的内存队列里,多个CPU就可以同时分别向不同的队列发起消费了。这个特性叫做RSS(Receive Side Scaling,接收端扩展)。通过ethtool
工具可以查看网卡的队列情况。
1 | # ethtool -l eth0 # 本人网卡不支持该操作,参考开发内功修炼 |
上述结果表示当前网卡支持的最大队列数是63,当前开启的队列数是8。对于这个配置来讲,最多同时可以有8个核心来参与网络收包。如果想提高内核收包的能力,直接简单加大队列数就可以了,这比加大RingBuffer更为有用。因为加大RingBuffer只是给个更大的空间让网络帧能继续排队,而加大队列数则能让包更早地被内核处理。ethtool
修改队列数量方法如下:
1 | #ethtool -L eth0 combined 32 |
硬中断发生在哪一个核上,它发出的软中断就由哪个核来处理。所有通过加大网卡队列数,这样硬中断工作、软中断工作都会有更多的核心参与进来。
每一个队列都有一个中断号,每一个中断号都是绑定在特定的CPU上。如果不满意某一个中断的CPU绑定,可以通过修改/proc/irq/{中断号}/smp_affinity
来实现。
硬中断合并
一个实际中的例子,假如你是一位开发同学,和你对口的产品经理一天有10个小需求需要让你帮忙来处理。她对你有两种中断方式:
- 第一种:产品经理想到一个需求,就过来找你,和你描述需求细节,然后让你帮你来改
- 第二种:产品经理想到需求后,不来打扰你,等攒够5个来找你一次,你集中处理
现在不考虑及时性,只考虑工作整体效率,哪种方案下你的工作效率会高呢?或者换句话说,你更喜欢哪一种工作状态呢?很明显,只要你是一个正常的开发,都会觉得第二种方案更好。对人脑来讲,频繁的中断会打乱你的计划,你脑子里刚才刚想到一半技术方案可能也就废了。当产品经理走了以后,你再想捡起来刚被中断之的工作的时候,很可能得花点时间回忆一会儿才能继续工作。
对于CPU来讲也是一样,CPU要做一件新的事情之前,要加载该进程的地址空间,load进程代码,读取进程数据,各级别cache要慢慢热身。因此如果能适当降低中断的频率,多攒几个包一起发出中断,对提升CPU的工作效率是有帮助的。所以,网卡允许我们对硬中断进行合并。
现在看一下网卡的硬中断合并配置:
1 | # ethtool -c eno1 |
参数的含义:
- Adaptive RX: 自适应中断合并,网卡驱动自己判断啥时候该合并啥时候不合并
- rx-usecs:当过这么长时间过后,一个RX interrupt就会被产生
- rx-frames:当累计接收到这么多个帧后,一个RX interrupt就会被产生
修改相关参数:接使用ethtool -C
就可以
1 | # ethtool -C eno1 adaptive-rx on |
需要注意的是,减少中断数量虽然能使得Linux整体吞吐更高,不过一些包的延迟也会增大,所以用的时候得适当注意。
软中断监控和调优
软中断和它对应的硬中断是在同一个核心上处理的。因此,前面硬中断分散到多核上处理的时候,软中断的优化其实也就跟着做了,也会被多核处理。不过软中断也还有自己的可优化选项。
监控
软中断的信息可以从/proc/softirqs
读取:
1 | $ cat /proc/softirqs |
软中断budget调整
番茄工作法:大致意思就是要有一整段的不被打扰的时间,集中精力处理某一项作业。这一整段时间时长被建议是25分钟。对于Linux的处理软中断的ksoftirqd来说,它也和番茄工作法思路类似。一旦它被硬中断触发开始了工作,它会集中精力处理一波网络包(绝不只是1个),然后再去做别的事情。
处理一波是多少呢,策略略复杂。只说其中一个比较容易理解的,那就是net.core.netdev_budget
内核参数:
1 | # sysctl -a | grep core.netdev_budget |
这里的意思说的是,ksoftirqd一次最多处理300个包,处理够了就会把CPU主动让出来,以便Linux上其它的任务可以得到处理。那么假如说,现在想提高内核处理网络包的效率。那就可以让ksoftirqd进程多干一会儿网络包的接收,再让出CPU。至于怎么提高,直接修改不这个参数的值就行。
1 | # sysctl -w net.core.netdev_budget=600 |
如果要保证重启仍然生效,需要将这个配置写到/etc/sysctl.conf
软中断GRO合并
GRO和硬中断合并的思想很类似,不过阶段不同。硬中断合并是在中断发起之前,而GRO已经到了软中断上下文中了。
如果应用中是大文件的传输,大部分包都是一段数据,不用GRO的话,会每次都将一个小包传送到协议栈(IP接收函数、TCP接收)函数中进行处理。开启GRO的话,Linux就会智能进行包的合并,之后将一个大包传给协议处理函数。这样CPU的效率也是就提高了。
1 | # ethtool -k eno1 | grep generic-receive-offload |
如果网卡驱动没有打开GRO的话,可以通过如下方式打开。
1 | # ethtool -K eno1 gro on |
GRO说的仅仅只是包的接收阶段的优化方式,对于发送来说是GSO。