零拷贝
来源:https://mp.weixin.qq.com/s/c01E7NJv9MLIGkS5PdmLUg 作者:占小狼
从一个文件中读出数据并将数据传到另一台服务器上:
伪代码如下:
File.read(file, buf, len);
Socket.send(socket, buf, len);
这种方式一共涉及了4次数据拷贝:
1、应用程序中调用 read()
方法,这里会涉及到一次上下文切换(用户态->内核态),底层采用DMA(direct memory access)读取磁盘的文件,并把内容存储到内核地址空间的读取缓存区。
2、由于应用程序无法访问内核地址空间的数据,如果应用程序要操作这些数据,得把这些内容从读取缓冲区拷贝到用户缓冲区。 read()
调用的返回引发一次上下文切换(内核态->用户态),现在数据已经被拷贝到了用户地址空间缓冲区,如果有需要,可以操作修改这些内容。
3、我们最终目的是把这个文件内容通过Socket传到另一个服务中,调用Socket的 send()
方法,又涉及到一次上下文切换(用户态->内核态),同时,文件内容被进行第三次拷贝,这次的缓冲区与目标套接字相关联,与读取缓冲区无关。
这里相当于程序把接收的数据写到缓冲区
4、 send()
调用返回,引发第四次的上下文切换,同时进行第四次拷贝,DMA把数据从目标套接字相关的缓存区传到协议引擎进行发送。
"整个过程中,过程1和4是由DMA负责,并不会消耗CPU,只有过程2和3的拷贝需要CPU参与"
以上过程中好几次的拷贝都是多余的,十分影响性能。
于是,零拷贝出现。
直接把内核态读取缓存冲区数据直接拷贝到套接字相关的缓存区:
这样改进之后,其优点是:
- 拷贝次数从四次减少到了三次(其中DMA copy 2次,CPU copy 1次)。
- 上下文切换的次数从四次减少到了两次
如何实现:
在Java中,FileChannel的transferTo() 方法可以实现这个过程,该方法将数据从文件通道传输到给定的可写字节通道, 上面的 file.read()
和 socket.send()
调用动作可以替换为 transferTo()
调用
其中还需要一次的CPU参与,其实零拷贝还可以进行优化。
如果底层网络接口卡支持收集操作的话,就可以进一步的优化:
具体过程:
1、transferTo() 方法使用 DMA 将文件内容拷贝到内核读取缓冲区。
2、避免了内容的整体拷贝,只把包含数据位置和长度信息的描述符追加到套接字缓冲区,DMA 引擎直接把数据从内核缓冲区传到协议引擎,从而消除了最后一次 CPU参与的拷贝动作。