Docker作為目前最火的輕量級(jí)容器技術(shù),有很多令人稱道的功能,如Docker的鏡像管理。然而,Docker同樣有著很多不完善的地方,網(wǎng)絡(luò)方面就是Docker比較薄弱的部分。因此,我們有必要深入了解Docker的網(wǎng)絡(luò)知識(shí),以滿足更高的網(wǎng)絡(luò)需求。本文首先介紹了Docker自身的4種網(wǎng)絡(luò)工作方式,然后通過(guò)3個(gè)樣例 —— 將Docker容器配置到本地網(wǎng)絡(luò)環(huán)境中、單主機(jī)Docker容器的VLAN劃分、多主機(jī)Docker容器的VLAN劃分,演示了如何使用pipework幫助我們進(jìn)行復(fù)雜的網(wǎng)絡(luò)設(shè)置,以及pipework是如何工作的。
我們?cè)谑褂胐ocker run創(chuàng)建Docker容器時(shí),可以用--net選項(xiàng)指定容器的網(wǎng)絡(luò)模式,Docker有以下4種網(wǎng)絡(luò)模式:
下面分別介紹一下Docker的各個(gè)網(wǎng)絡(luò)模式。
眾所周知,Docker使用了Linux的Namespaces技術(shù)來(lái)進(jìn)行資源隔離,如PID Namespace隔離進(jìn)程,Mount Namespace隔離文件系統(tǒng),Network Namespace隔離網(wǎng)絡(luò)等。一個(gè)Network Namespace提供了一份獨(dú)立的網(wǎng)絡(luò)環(huán)境,包括網(wǎng)卡、路由、Iptable規(guī)則等都與其他的Network Namespace隔離。一個(gè)Docker容器一般會(huì)分配一個(gè)獨(dú)立的Network Namespace。但如果啟動(dòng)容器的時(shí)候使用host模式,那么這個(gè)容器將不會(huì)獲得一個(gè)獨(dú)立的Network Namespace,而是和宿主機(jī)共用一個(gè)Network Namespace。容器將不會(huì)虛擬出自己的網(wǎng)卡,配置自己的IP等,而是使用宿主機(jī)的IP和端口。
例如,我們?cè)?0.10.101.105/24的機(jī)器上用host模式啟動(dòng)一個(gè)含有web應(yīng)用的Docker容器,監(jiān)聽tcp80端口。當(dāng)我們?cè)谌萜髦袌?zhí)行任何類似ifconfig命令查看網(wǎng)絡(luò)環(huán)境時(shí),看到的都是宿主機(jī)上的信息。而外界訪問(wèn)容器中的應(yīng)用,則直接使用10.10.101.105:80即可,不用任何NAT轉(zhuǎn)換,就如直接跑在宿主機(jī)中一樣。但是,容器的其他方面,如文件系統(tǒng)、進(jìn)程列表等還是和宿主機(jī)隔離的。
在理解了host模式后,這個(gè)模式也就好理解了。這個(gè)模式指定新創(chuàng)建的容器和已經(jīng)存在的一個(gè)容器共享一個(gè)Network Namespace,而不是和宿主機(jī)共享。新創(chuàng)建的容器不會(huì)創(chuàng)建自己的網(wǎng)卡,配置自己的IP,而是和一個(gè)指定的容器共享IP、端口范圍等。同樣,兩個(gè)容器除了網(wǎng)絡(luò)方面,其他的如文件系統(tǒng)、進(jìn)程列表等還是隔離的。兩個(gè)容器的進(jìn)程可以通過(guò)lo網(wǎng)卡設(shè)備通信。
這個(gè)模式和前兩個(gè)不同。在這種模式下,Docker容器擁有自己的Network Namespace,但是,并不為Docker容器進(jìn)行任何網(wǎng)絡(luò)配置。也就是說(shuō),這個(gè)Docker容器沒(méi)有網(wǎng)卡、IP、路由等信息。需要我們自己為Docker容器添加網(wǎng)卡、配置IP等。
bridge模式是Docker默認(rèn)的網(wǎng)絡(luò)設(shè)置,此模式會(huì)為每一個(gè)容器分配Network Namespace、設(shè)置IP等,并將一個(gè)主機(jī)上的Docker容器連接到一個(gè)虛擬網(wǎng)橋上。下面著重介紹一下此模式。
當(dāng)Docker server啟動(dòng)時(shí),會(huì)在主機(jī)上創(chuàng)建一個(gè)名為docker0的虛擬網(wǎng)橋,此主機(jī)上啟動(dòng)的Docker容器會(huì)連接到這個(gè)虛擬網(wǎng)橋上。虛擬網(wǎng)橋的工作方式和物理交換機(jī)類似,這樣主機(jī)上的所有容器就通過(guò)交換機(jī)連在了一個(gè)二層網(wǎng)絡(luò)中。接下來(lái)就要為容器分配IP了,Docker會(huì)從RFC1918所定義的私有IP網(wǎng)段中,選擇一個(gè)和宿主機(jī)不同的IP地址和子網(wǎng)分配給docker0,連接到docker0的容器就從這個(gè)子網(wǎng)中選擇一個(gè)未占用的IP使用。如一般Docker會(huì)使用172.17.0.0/16這個(gè)網(wǎng)段,并將172.17.42.1/16分配給docker0網(wǎng)橋(在主機(jī)上使用ifconfig命令是可以看到docker0的,可以認(rèn)為它是網(wǎng)橋的管理接口,在宿主機(jī)上作為一塊虛擬網(wǎng)卡使用)。單機(jī)環(huán)境下的網(wǎng)絡(luò)拓?fù)淙缦?,主機(jī)地址為10.10.101.105/24。
Docker完成以上網(wǎng)絡(luò)配置的過(guò)程大致是這樣的:
Docker將veth pair設(shè)備的一端放在新創(chuàng)建的容器中,并命名為eth0。另一端放在主機(jī)中,以veth65f9這樣類似的名字命名,并將這個(gè)網(wǎng)絡(luò)設(shè)備加入到docker0網(wǎng)橋中,可以通過(guò)brctl show命令查看。
從docker0子網(wǎng)中分配一個(gè)IP給容器使用,并設(shè)置docker0的IP地址為容器的默認(rèn)網(wǎng)關(guān)。
網(wǎng)絡(luò)拓?fù)浣榻B完后,接著介紹一下bridge模式下容器是如何通信的。
在bridge模式下,連在同一網(wǎng)橋上的容器可以相互通信(若出于安全考慮,也可以禁止它們之間通信,方法是在DOCKER_OPTS變量中設(shè)置--icc=false,這樣只有使用--link才能使兩個(gè)容器通信)。
容器也可以與外部通信,我們看一下主機(jī)上的Iptable規(guī)則,可以看到這么一條
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE
這條規(guī)則會(huì)將源地址為172.17.0.0/16的包(也就是從Docker容器產(chǎn)生的包),并且不是從docker0網(wǎng)卡發(fā)出的,進(jìn)行源地址轉(zhuǎn)換,轉(zhuǎn)換成主機(jī)網(wǎng)卡的地址。這么說(shuō)可能不太好理解,舉一個(gè)例子說(shuō)明一下。假設(shè)主機(jī)有一塊網(wǎng)卡為eth0,IP地址為10.10.101.105/24,網(wǎng)關(guān)為10.10.101.254。從主機(jī)上一個(gè)IP為172.17.0.1/16的容器中ping百度(180.76.3.151)。IP包首先從容器發(fā)往自己的默認(rèn)網(wǎng)關(guān)docker0,包到達(dá)docker0后,也就到達(dá)了主機(jī)上。然后會(huì)查詢主機(jī)的路由表,發(fā)現(xiàn)包應(yīng)該從主機(jī)的eth0發(fā)往主機(jī)的網(wǎng)關(guān)10.10.105.254/24。接著包會(huì)轉(zhuǎn)發(fā)給eth0,并從eth0發(fā)出去(主機(jī)的ip_forward轉(zhuǎn)發(fā)應(yīng)該已經(jīng)打開)。這時(shí)候,上面的Iptable規(guī)則就會(huì)起作用,對(duì)包做SNAT轉(zhuǎn)換,將源地址換為eth0的地址。這樣,在外界看來(lái),這個(gè)包就是從10.10.101.105上發(fā)出來(lái)的,Docker容器對(duì)外是不可見(jiàn)的。
那么,外面的機(jī)器是如何訪問(wèn)Docker容器的服務(wù)呢?我們首先用下面命令創(chuàng)建一個(gè)含有web應(yīng)用的容器,將容器的80端口映射到主機(jī)的80端口。
docker run -d --name web -p 80:80 fmzhen/simpleweb
然后查看Iptable規(guī)則的變化,發(fā)現(xiàn)多了這樣一條規(guī)則:
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 80 -j DNAT --to-destination 172.17.0.5:80
此條規(guī)則就是對(duì)主機(jī)eth0收到的目的端口為80的tcp流量進(jìn)行DNAT轉(zhuǎn)換,將流量發(fā)往172.17.0.5:80,也就是我們上面創(chuàng)建的Docker容器。所以,外界只需訪問(wèn)10.10.101.105:80就可以訪問(wèn)到容器中得服務(wù)。
除此之外,我們還可以自定義Docker使用的IP地址、DNS等信息,甚至使用自己定義的網(wǎng)橋,但是其工作方式還是一樣的。
Docker自身的網(wǎng)絡(luò)功能比較簡(jiǎn)單,不能滿足很多復(fù)雜的應(yīng)用場(chǎng)景。因此,有很多開源項(xiàng)目用來(lái)改善Docker的網(wǎng)絡(luò)功能,如pipework、weave、flannel等。這里,就先介紹一下pipework的使用和工作原理。
pipework是由Docker的工程師Jér?me Petazzoni開發(fā)的一個(gè)Docker網(wǎng)絡(luò)配置工具,由200多行shell實(shí)現(xiàn),方便易用。下面用三個(gè)場(chǎng)景來(lái)演示pipework的使用和工作原理。
為了使本地網(wǎng)絡(luò)中的機(jī)器和Docker容器更方便的通信,我們經(jīng)常會(huì)有將Docker容器配置到和主機(jī)同一網(wǎng)段的需求。這個(gè)需求其實(shí)很容易實(shí)現(xiàn),我們只要將Docker容器和主機(jī)的網(wǎng)卡橋接起來(lái),再給Docker容器配上IP就可以了。
下面我們來(lái)操作一下,我主機(jī)A地址為10.10.101.105/24,網(wǎng)關(guān)為10.10.101.254,需要給Docker容器的地址配置為10.10.101.150/24。在主機(jī)A上做如下操作:
#安裝pipeworkgit clone https://github.com/jpetazzo/pipeworkcp ~/pipework/pipework /usr/local/bin/#啟動(dòng)Docker容器。docker run -itd --name test1 ubuntu /bin/bash#配置容器網(wǎng)絡(luò),并連到網(wǎng)橋br0上。網(wǎng)關(guān)在IP地址后面加@指定。#若主機(jī)環(huán)境中存在dhcp服務(wù)器,也可以通過(guò)dhcp的方式獲取IP#pipework br0 test1 dhcppipework br0 test1 10.10.101.150/24@10.10.101.254#將主機(jī)eth0橋接到br0上,并把eth0的IP配置在br0上。這里由于是遠(yuǎn)程操作,中間網(wǎng)絡(luò)會(huì)斷掉,所以放在一條命令中執(zhí)行。ip addr add 10.10.101.105/24 dev br0; ip addr del 10.10.101.105/24 dev eth0; brctl addif br0 eth0; ip route del default; ip route add default gw 10.10.101.254 dev br0
完成上述步驟后,我們發(fā)現(xiàn)Docker容器已經(jīng)可以使用新的IP和主機(jī)網(wǎng)絡(luò)里的機(jī)器相互通信了。
那么容器到底發(fā)生了哪些變化呢?我們docker attach到test1上,發(fā)現(xiàn)容器中多了一塊eth1的網(wǎng)卡,并且配置了10.10.101.150/24的IP,而且默認(rèn)路由也改為了10.10.101.254。這些都是pipework幫我們配置的。通過(guò)查看源代碼,可以發(fā)現(xiàn)pipework br0 test1 10.10.101.150/24@10.10.101.254是由以下命令完成的(這里只列出了具體執(zhí)行操作的代碼)。
#創(chuàng)建br0網(wǎng)橋#若ovs開頭,則創(chuàng)建OVS網(wǎng)橋 ovs-vsctl add-br ovs*brctl addbr $IFNAME#創(chuàng)建veth pair,用于連接容器和br0ip link add name $LOCAL_IFNAME mtu $MTU type veth peer name $GUEST_IFNAME mtu $MTU#找到Docker容器test1在主機(jī)上的PID,創(chuàng)建容器網(wǎng)絡(luò)命名空間的軟連接DOCKERPID=$(docker inspect --format='{{ .State.Pid }}' $GUESTNAME)ln -s /proc/$NSPID/ns/net /var/run/netns/$NSPID#將veth pair一端放入Docker容器中,并設(shè)置正確的名字eth1ip link set $GUEST_IFNAME netns $NSPIDip netns exec $NSPID ip link set $GUEST_IFNAME name $CONTAINER_IFNAME#將veth pair另一端加入網(wǎng)橋#若為OVS網(wǎng)橋則為 ovs-vsctl add-port $IFNAME $LOCAL_IFNAME ${VLAN:+"tag=$VLAN"}brctl addif $IFNAME $LOCAL_IFNAME#為新增加的容器配置IP和路由ip netns exec $NSPID ip addr add $IPADDR dev $CONTAINER_IFNAMEip netns exec $NSPID ip link set $CONTAINER_IFNAME upip netns exec $NSPID ip route delete defaultip netns exec $NSPID ip route add $GATEWAY/32 dev $CONTAINER_IFNAME
以上就是pipework配置Docker網(wǎng)絡(luò)的過(guò)程,這和Docker的bridge模式有著相似的步驟。事實(shí)上,Docker在實(shí)現(xiàn)上也采用了相同的底層機(jī)制。
通過(guò)源代碼,可以看出,pipework通過(guò)封裝Linux上的ip、brctl等命令,簡(jiǎn)化了在復(fù)雜場(chǎng)景下對(duì)容器連接的操作命令,為我們配置復(fù)雜的網(wǎng)絡(luò)拓?fù)涮峁┝艘粋€(gè)強(qiáng)有力的工具。當(dāng)然,如果想了解底層的操作,我們也可以直接使用這些Linux命令來(lái)完成工作,甚至可以根據(jù)自己的需求,添加額外的功能。
pipework不僅可以使用Linux bridge連接Docker容器,還可以與OpenVswitch結(jié)合,實(shí)現(xiàn)Docker容器的VLAN劃分。下面,就來(lái)簡(jiǎn)單演示一下,在單機(jī)環(huán)境下,如何實(shí)現(xiàn)Docker容器間的二層隔離。
為了演示隔離效果,我們將4個(gè)容器放在了同一個(gè)IP網(wǎng)段中。但實(shí)際他們是二層隔離的兩個(gè)網(wǎng)絡(luò),有不同的廣播域。
#在主機(jī)A上創(chuàng)建4個(gè)Docker容器,test1、test2、test3、test4docker run -itd --name test1 ubuntu /bin/bashdocker run -itd --name test2 ubuntu /bin/bashdocker run -itd --name test3 ubuntu /bin/bashdocker run -itd --name test4 ubuntu /bin/bash#將test1,test2劃分到一個(gè)vlan中,vlan在mac地址后加@指定,此處mac地址省略。pipework ovs0 test1 192.168.0.1/24 @100pipework ovs0 test2 192.168.0.2/24 @100#將test3,test4劃分到另一個(gè)vlan中pipework ovs0 test3 192.168.0.3/24 @200pipework ovs0 test4 192.168.0.4/24 @200
完成上述操作后,使用docker attach連到容器中,然后用ping命令測(cè)試連通性,發(fā)現(xiàn)test1和test2可以相互通信,但與test3和test4隔離。這樣,一個(gè)簡(jiǎn)單的VLAN隔離容器網(wǎng)絡(luò)就已經(jīng)完成。
由于OpenVswitch本身支持VLAN功能,所以這里pipework所做的工作和之前介紹的基本一樣,只不過(guò)將Linux bridge替換成了OpenVswitch,在將veth pair的一端加入ovs0網(wǎng)橋時(shí),指定了tag。底層操作如下:
ovs-vsctl add-port ovs0 veth* tag=100
上面介紹完了單主機(jī)上VLAN的隔離,下面我們將情況延伸到多主機(jī)的情況。有了前面兩個(gè)例子做鋪墊,這個(gè)也就不難了。為了實(shí)現(xiàn)這個(gè)目的,我們把宿主機(jī)上的網(wǎng)卡橋接到各自的OVS網(wǎng)橋上,然后再為容器配置IP和VLAN就可以了。我們實(shí)驗(yàn)環(huán)境如下,主機(jī)A和B各有一塊網(wǎng)卡eth0,IP地址分別為10.10.101.105/24、10.10.101.106/24。在主機(jī)A上創(chuàng)建兩個(gè)容器test1、test2,分別在VLAN 100和VLAN 200上。在主機(jī)B上創(chuàng)建test3、test4,分別在VLAN 100和VLAN 200 上。最終,test1可以和test3通信,test2可以和test4通信。
#在主機(jī)A上#創(chuàng)建Docker容器docker run -itd --name test1 ubuntu /bin/bashdocker run -itd --name test2 ubuntu /bin/bash#劃分VLANpipework ovs0 test1 192.168.0.1/24 @100pipework ovs0 test2 192.168.0.2/24 @200#將eth0橋接到ovs0上ip addr add 10.10.101.105/24 dev ovs0; ip addr del 10.10.101.105/24 dev eth0; ovs-vsctl add-port ovs0 eth0; ip route del default; ip route add default gw 10.10.101.254 dev ovs0 #在主機(jī)B上#創(chuàng)建Docker容器docker run -itd --name test3 ubuntu /bin/bashdocker run -itd --name test4 ubuntu /bin/bash#劃分VLANpipework ovs0 test1 192.168.0.3/24 @100pipework ovs0 test2 192.168.0.4/24 @200#將eth0橋接到ovs0上ip addr add 10.10.101.106/24 dev ovs0; ip addr del 10.10.101.106/24 dev eth0; ovs-vsctl add-port ovs0 eth0; ip route del default; ip route add default gw 10.10.101.254 dev ovs0
完成上面的步驟后,主機(jī)A上的test1和主機(jī)B上的test3容器就劃分到了一個(gè)VLAN中,并且與主機(jī)A上的test2和主機(jī)B上的test4隔離(主機(jī)eth0網(wǎng)卡需要設(shè)置為混雜模式,連接主機(jī)的交換機(jī)端口應(yīng)設(shè)置為trunk模式,即允許VLAN 100和VLAN 200的包通過(guò))。拓?fù)鋱D如下所示(省去了Docker默認(rèn)的eth0網(wǎng)卡和主機(jī)上的docker0網(wǎng)橋):
除此之外,pipework還支持使用macvlan設(shè)備、設(shè)置網(wǎng)卡MAC地址等功能。不過(guò),pipework有一個(gè)缺陷,就是配置的容器在關(guān)掉重啟后,之前的設(shè)置會(huì)丟失。
通過(guò)上面的介紹,我相信大家對(duì)Docker的網(wǎng)絡(luò)已經(jīng)有了一定的了解。對(duì)于一個(gè)基本應(yīng)用而言,Docker的網(wǎng)絡(luò)模型已經(jīng)很不錯(cuò)了。然而,隨著云計(jì)算和微服務(wù)的興起,我們不能永遠(yuǎn)停留在使用基本應(yīng)用的級(jí)別上,我們需要性能更好且更靈活的網(wǎng)絡(luò)功能。pipework正好滿足了我們這樣的需求,從上面的樣例中,我們可以看到pipework的方便之處。但是,同時(shí)也應(yīng)注意到,pipework并不是一套解決方案,它只是一個(gè)網(wǎng)絡(luò)配置工具,我們可以利用它提供的強(qiáng)大功能,幫助我們構(gòu)建自己的解決方案。
馮明振,浙江大學(xué)SEL實(shí)驗(yàn)室碩士研究生,目前在云平臺(tái)團(tuán)隊(duì)從事科研和開發(fā)工作。浙大團(tuán)隊(duì)對(duì)PaaS,Docker,大數(shù)據(jù)和主流開源云計(jì)算技術(shù)有深入的研究和二次開發(fā)經(jīng)驗(yàn),團(tuán)隊(duì)現(xiàn)將部分技術(shù)文章貢獻(xiàn)出來(lái),希望能對(duì)讀者有所幫助。
感謝郭蕾對(duì)本文的策劃和審校。
給InfoQ中文站投稿或者參與內(nèi)容翻譯工作,請(qǐng)郵件至editors@cn.infoq.com。也歡迎大家通過(guò)新浪微博(@InfoQ)或者騰訊微博(@InfoQ)關(guān)注我們,并與我們的編輯和其他讀者朋友交流。
關(guān)于將Docker容器配置到本地網(wǎng)絡(luò)環(huán)境中的問(wèn)題 2015年3月17日 02:46 by weihua liu
聯(lián)系客服