TCP 三次握手和四次挥手的问题在面试中是最为常见的考点之一。很多读者都知道三次和四次,但是如果问深入一点,他们往往都无法作出准确回答。本篇尝试使用动画来对这个知识点进行讲解,期望读者们可以更加简单地地理解 TCP 交互的本质。
# TCP 三次握手
TCP 三次握手就好比两个人在街上隔着 50 米看见了对方,但是因为雾霾等原因不能 100% 确认,所以要通过招手的方式相互确定对方是否认识自己。
张三首先向李四招手 (syn),李四看到张三向自己招手后,向对方点了点头挤出了一个微笑 (ack)。张三看到李四微笑后确认了李四成功辨认出了自己 (进入 estalished 状态)。
但是李四还有点狐疑,向四周看了一看,有没有可能张三是在看别人呢,他也需要确认一下。所以李四也向张三招了招手 (syn),张三看到李四向自己招手后知道对方是在寻求自己的确认,于是也点了点头挤出了微笑 (ack),李四看到对方的微笑后确认了张三就是在向自己打招呼 (进入 established 状态)。
于是两人加快步伐,走到了一起,相互拥抱。
我们看到这个过程中一共是四个动作,张三招手 -- 李四点头微笑 -- 李四招手 -- 张三点头微笑。其中李四连续进行了 2 个动作,先是点头微笑 (回复对方),然后再次招手 (寻求确认),实际上可以将这两个动作合一,招手的同时点头和微笑 (syn+ack)。于是四个动作就简化成了三个动作,张三招手 -- 李四点头微笑并招手 -- 张三点头微笑。这就是三次握手的本质,中间的一次动作是两个动作的合并。
我们看到有两个中间状态,synsent 和 synrcvd,这两个状态叫着「半打开」状态,就是向对方招手了,但是还没来得及看到对方的点头微笑。synsent 是主动打开方的「半打开」状态,synrcvd 是被动打开方的「半打开」状态。客户端是主动打开方,服务器是被动打开方。
syn_sent: syn package has been sent
syn_rcvd: syn package has been received
# TCP 数据传输
TCP 数据传输就是两个人隔空对话,差了一点距离,所以需要对方反复确认听见了自己的话。
张三喊了一句话 (data),李四听见了之后要向张三回复自己听见了 (ack)。
如果张三喊了一句,半天没听到李四回复,张三就认为自己的话被大风吹走了,李四没听见,所以需要重新喊话,这就是 tcp 重传。
也有可能是李四听到了张三的话,但是李四向张三的回复被大风吹走了,以至于张三没听见李四的回复。张三并不能判断究竟是自己的话被大风吹走了还是李四的回复被大风吹走了,张三也不用管,重传一下就是。
既然会重传,李四就有可能同一句话听见了两次,这就是「去重」。「重传」和「去重」工作操作系统的网络内核模块都已经帮我们处理好了,用户层是不用关心的。
张三可以向李四喊话,同样李四也可以向张三喊话,因为 tcp 链接是「双工的」,双方都可以主动发起数据传输。不过无论是哪方喊话,都需要收到对方的确认才能认为对方收到了自己的喊话。
张三可能是个高射炮,一说连说了八句话,这时候李四可以不用一句一句回复,而是连续听了这八句话之后,一起向对方回复说前面你说的八句话我都听见了,这就是批量 ack。但是张三也不能一次性说了太多话,李四的脑子短时间可能无法消化太多,两人之间需要有协商好的合适的发送和接受速率,这个就是「TCP 窗口大小」。
网络环境的数据交互同人类之间的对话还要复杂一些,它存在数据包乱序的现象。同一个来源发出来的不同数据包在「网际路由」上可能会走过不同的路径,最终达到同一个地方时,顺序就不一样了。操作系统的网络内核模块会负责对数据包进行排序,到用户层时顺序就已经完全一致了。
# TCP 四次挥手
TCP 断开链接的过程和建立链接的过程比较类似,只不过中间的两部并不总是会合成一步走,所以它分成了 4 个动作,张三挥手 (fin)—— 李四伤感地微笑 (ack)—— 李四挥手 (fin)—— 张三伤感地微笑 (ack)。
之所以中间的两个动作没有合并,是因为 tcp 存在「半关闭」状态,也就是单向关闭。张三已经挥了手,可是人还没有走,只是不再说话,但是耳朵还是可以继续听,李四呢继续喊话。等待李四累了,也不再说话了,超张三挥了挥手,张三伤感地微笑了一下,才彻底结束了。
上面有一个非常特殊的状态 time_wait,它是主动关闭的一方在回复完对方的挥手后进入的一个长期状态,这个状态标准的持续时间是 4 分钟,4 分钟后才会进入到 closed 状态,释放套接字资源。不过在具体实现上这个时间是可以调整的。
它就好比主动分手方要承担的责任,是你提出的要分手,你得付出代价。这个后果就是持续 4 分钟的 time_wait 状态,不能释放套接字资源 (端口),就好比守寡期,这段时间内套接字资源 (端口) 不得回收利用。
它的作用是重传最后一个 ack 报文,确保对方可以收到。因为如果对方没有收到 ack 的话,会重传 fin 报文,处于 time_wait 状态的套接字会立即向对方重发 ack 报文。
同时在这段时间内,该链接在对话期间于网际路由上产生的残留报文 (因为路径过于崎岖,数据报文走的时间太长,重传的报文都收到了,原始报文还在路上) 传过来时,都会被立即丢弃掉。4 分钟的时间足以使得这些残留报文彻底消逝。不然当新的端口被重复利用时,这些残留报文可能会干扰新的链接。
4 分钟就是 2 个 MSL,每个 MSL 是 2 分钟。MSL 就是 maximium segment lifetime—— 最长报文寿命。这个时间是由官方 RFC 协议规定的。至于为什么是 2 个 MSL 而不是 1 个 MSL,我还没有看到一个非常满意的解释。四次挥手也并不总是四次挥手,中间的两个动作有时候是可以合并一起进行的,这个时候就成了三次挥手,主动关闭方就会从 finwait1 状态直接进入到 timewait 状态,跳过了 finwait_2 状态。
# 总结
TCP 状态转换是一个非常复杂的过程,本文仅对一些简单的基础知识点进行了类比讲解。关于 TCP 的更多知识还需要读者去搜寻相关技术文章进入深入学习。如果读者对 TCP 的基础知识掌握得比较牢固,高级的知识理解起来就不会太过于吃力。