什么是Keepalived呢,keepalived觀其名可知,保持存活,在網(wǎng)絡(luò)里面就是保持在線了,也就是所謂的高可用或熱備,用來防止單點故障(單點故障是指一旦某一點出現(xiàn)故障就會導(dǎo)致整個系統(tǒng)架構(gòu)的不可用)的發(fā)生,那說到keepalived時不得不說的一個協(xié)議就是VRRP協(xié)議,可以說這個協(xié)議就是keepalived實現(xiàn)的基礎(chǔ),那么首先我們來看看VRRP協(xié)議
注:搞運維的要有足夠的耐心哦,不理解協(xié)議就很難透徹的掌握keepalived的了
一,VRRP協(xié)議
VRRP協(xié)議
學(xué)過網(wǎng)絡(luò)的朋友都知道,網(wǎng)絡(luò)在設(shè)計的時候必須考慮到冗余容災(zāi),包括線路冗余,設(shè)備冗余等,防止網(wǎng)絡(luò)存在單點故障,那在路由器或三層交換機處實現(xiàn)冗余就顯得尤為重要,在網(wǎng)絡(luò)里面有個協(xié)議就是來做這事的,這個協(xié)議就是VRRP協(xié)議,Keepalived就是巧用VRRP協(xié)議來實現(xiàn)高可用性(HA)的
VRRP協(xié)議有一篇文章寫的非常好,大家可以直接看這里(記得認(rèn)真看看哦,后面基本都已這個為基礎(chǔ)的了)
帖子地址:
http://bbs.ywlm.net/thread-790-1-1.html只需要把服務(wù)器當(dāng)作路由器即可!
在《
VRRP協(xié)議》里講到了虛擬路由器的ID也就是VRID在這里比較重要
keepalived完全遵守VRRP協(xié)議,包括競選機制等等
二,Keepalived原理
Keepalived原理
keepalived也是模塊化設(shè)計,不同模塊復(fù)雜不同的功能,下面是keepalived的組件
core check vrrp libipfwc libipvs-2.4 libipvs-2.6
core:是keepalived的核心,復(fù)雜主進(jìn)程的啟動和維護(hù),全局配置文件的加載解析等
check:負(fù)責(zé)healthchecker(健康檢查),包括了各種健康檢查方式,以及對應(yīng)的配置的解析包括LVS的配置解析
vrrp:VRRPD子進(jìn)程,VRRPD子進(jìn)程就是來實現(xiàn)VRRP協(xié)議的
libipfwc:iptables(ipchains)庫,配置LVS會用到
libipvs*:配置LVS會用到
注意,keepalived和LVS完全是兩碼事,只不過他們各負(fù)其責(zé)相互配合而已
keepalived啟動后會有三個進(jìn)程
父進(jìn)程:內(nèi)存管理,子進(jìn)程管理等等
子進(jìn)程:VRRP子進(jìn)程
子進(jìn)程:healthchecker子進(jìn)程
有圖可知,兩個子進(jìn)程都被系統(tǒng)WatchDog看管,兩個子進(jìn)程各自復(fù)雜自己的事,healthchecker子進(jìn)程復(fù)雜檢查各自服務(wù)器的健康程度,例如HTTP,LVS等等,如果healthchecker子進(jìn)程檢查到MASTER上服務(wù)不可用了,就會通知本機上的兄弟VRRP子進(jìn)程,讓他刪除通告,并且去掉虛擬IP,轉(zhuǎn)換為BACKUP狀態(tài)
三,Keepalived配置文件詳解
keepalived配置詳解
keepalived有三類配置區(qū)域(姑且就叫區(qū)域吧),注意不是三種配置文件,是一個配置文件里面三種不同類別的配置區(qū)域
全局配置(Global Configuration)
VRRPD配置
LVS配置
一,全局配置
全局配置又包括兩個子配置:
全局定義(global definition)
靜態(tài)路由配置(static ipaddress/routes)
1,全局定義(global definition)配置范例
global_defs
{
notification_email
{
admin@example.com
}
notification_email_from admin@example.com
smtp_server 127.0.0.1
stmp_connect_timeout 30
router_id node1
}
復(fù)制代碼
全局配置解析
global_defs全局配置標(biāo)識,表面這個區(qū)域{}是全局配置
notification_email
{
admin@example.com
admin@ywlm.net
}
復(fù)制代碼
表示keepalived在發(fā)生諸如切換操作時需要發(fā)送email通知,以及email發(fā)送給哪些郵件地址,郵件地址可以多個,每行一個
notification_email_from
admin@example.com表示發(fā)送通知郵件時郵件源地址是誰
smtp_server 127.0.0.1
表示發(fā)送email時使用的smtp服務(wù)器地址,這里可以用本地的sendmail來實現(xiàn)
smtp_connect_timeout 30
連接smtp連接超時時間
router_id node1
機器標(biāo)識
2,靜態(tài)地址和路由配置范例
static_ipaddress
{
192.168.1.1/24 brd + dev eth0 scope global
192.168.1.2/24 brd + dev eth1 scope global
}
static_routes
{
src $SRC_IP to $DST_IP dev $SRC_DEVICE
src $SRC_IP to $DST_IP via $GW dev $SRC_DEVICE
}
復(fù)制代碼
這里實際上和系統(tǒng)里面命令配置IP地址和路由一樣例如:
192.168.1.1/24 brd + dev eth0 scope global 相當(dāng)于: ip addr add 192.168.1.1/24 brd + dev eth0 scope global
就是給eth0配置IP地址
路由同理
一般這個區(qū)域不需要配置
這里實際上就是給服務(wù)器配置真實的IP地址和路由的,在復(fù)雜的環(huán)境下可能需要配置,一般不會用這個來配置,我們可以直接用vi /etc/sysconfig/network-script/ifcfg-eth1來配置,切記這里可不是VIP哦,不要搞混淆了,切記切記!
二,VRRPD配置
VRRPD配置包括三個類
VRRP同步組(synchroization group)
VRRP實例(VRRP Instance)VRRP腳本
1,VRRP同步組(synchroization group)配置范例
vrrp_sync_group VG_1 {
group {
http
mysql
}
notify_master /path/to/to_master.sh
notify_backup /path_to/to_backup.sh
notify_fault "/path/fault.sh VG_1"
notify /path/to/notify.sh
smtp_alert
}
復(fù)制代碼
其中:
group {
http
mysql
}
復(fù)制代碼
http和mysql是實例名和下面的實例名一致
notify_master /path/to/to_master.sh:表示當(dāng)切換到master狀態(tài)時,要執(zhí)行的腳本
notify_backup /path_to/to_backup.sh:表示當(dāng)切換到backup狀態(tài)時,要執(zhí)行的腳本
notify_fault "/path/fault.sh VG_1"
復(fù)制代碼
notify /path/to/notify.sh:
smtp alter表示切換時給global defs中定義的郵件地址發(fā)送右鍵通知
2,VRRP實例(instance)配置范例
vrrp_instance http {
state MASTER
interface eth0
dont_track_primary
track_interface {
eth0
eth1
}
mcast_src_ip <IPADDR>
garp_master_delay 10
virtual_router_id 51
priority 100
advert_int 1
authentication {
auth_type PASS
autp_pass 1234
}
virtual_ipaddress {
#<IPADDR>/<MASK> brd <IPADDR> dev <STRING> scope <SCOPT> label <LABEL>
192.168.200.17/24 dev eth1
192.168.200.18/24 dev eth2 label eth2:1
}
virtual_routes {
# src <IPADDR> [to] <IPADDR>/<MASK> via|gw <IPADDR> dev <STRING> scope <SCOPE> tab
src 192.168.100.1 to 192.168.109.0/24 via 192.168.200.254 dev eth1
192.168.110.0/24 via 192.168.200.254 dev eth1
192.168.111.0/24 dev eth2
192.168.112.0/24 via 192.168.100.254
}
nopreempt
preemtp_delay 300
debug
}
復(fù)制代碼
state:state指定instance(Initial)的初始狀態(tài),就是說在配置好后,這臺服務(wù)器的初始狀態(tài)就是這里指定的,但這里指定的不算,還是得要通過競選通過優(yōu)先級來確定,里如果這里設(shè)置為master,但如若他的優(yōu)先級不及另外一臺,那么這臺在發(fā)送通告時,會發(fā)送自己的優(yōu)先級,另外一臺發(fā)現(xiàn)優(yōu)先級不如自己的高,那么他會就回?fù)屨紴閙aster
interface:實例綁定的網(wǎng)卡,因為在配置虛擬IP的時候必須是在已有的網(wǎng)卡上添加的
dont track primary:忽略VRRP的interface錯誤
track interface:跟蹤接口,設(shè)置額外的監(jiān)控,里面任意一塊網(wǎng)卡出現(xiàn)問題,都會進(jìn)入故障(FAULT)狀態(tài),例如,用nginx做均衡器的時候,內(nèi)網(wǎng)必須正常工作,如果內(nèi)網(wǎng)出問題了,這個均衡器也就無法運作了,所以必須對內(nèi)外網(wǎng)同時做健康檢查
mcast src ip:發(fā)送多播數(shù)據(jù)包時的源IP地址,這里注意了,這里實際上就是在那個地址上發(fā)送VRRP通告,這個非常重要,一定要選擇穩(wěn)定的網(wǎng)卡端口來發(fā)送,這里相當(dāng)于heartbeat的心跳端口,如果沒有設(shè)置那么就用默認(rèn)的綁定的網(wǎng)卡的IP,也就是interface指定的IP地址
garp master delay:在切換到master狀態(tài)后,延遲進(jìn)行免費的ARP(gratuitous ARP)請求
virtual router id:這里設(shè)置VRID,這里非常重要,相同的VRID為一個組,他將決定多播的MAC地址
priority 100:設(shè)置本節(jié)點的優(yōu)先級,優(yōu)先級高的為master
advert int:檢查間隔,默認(rèn)為1秒
virtual ipaddress:這里設(shè)置的就是VIP,也就是虛擬IP地址,他隨著state的變化而增加刪除,當(dāng)state為master的時候就添加,當(dāng)state為backup的時候刪除,這里主要是有優(yōu)先級來決定的,和state設(shè)置的值沒有多大關(guān)系,這里可以設(shè)置多個IP地址
virtual routes:原理和virtual ipaddress一樣,只不過這里是增加和刪除路由
lvs sync daemon interface:lvs syncd綁定的網(wǎng)卡
authentication:這里設(shè)置認(rèn)證
auth type:認(rèn)證方式,可以是PASS或AH兩種認(rèn)證方式
auth pass:認(rèn)證密碼
nopreempt:設(shè)置不搶占,這里只能設(shè)置在state為backup的節(jié)點上,而且這個節(jié)點的優(yōu)先級必須別另外的高
preempt delay:搶占延遲
debug:debug級別
notify master:和sync group這里設(shè)置的含義一樣,可以單獨設(shè)置,例如不同的實例通知不同的管理人員,http實例發(fā)給網(wǎng)站管理員,mysql的就發(fā)郵件給DBA
3,VRRP腳本
vrrp_script check_running {
script "/usr/local/bin/check_running"
interval 10
weight 10
}
vrrp_instance http {
state BACKUP
smtp_alert
interface eth0
virtual_router_id 101
priority 90
advert_int 3
authentication {
auth_type PASS
auth_pass whatever
}
virtual_ipaddress {
1.1.1.1
}
track_script {
check_running weight 20
}
}
復(fù)制代碼
首先在vrrp_script區(qū)域定義腳本名字和腳本執(zhí)行的間隔和腳本執(zhí)行的優(yōu)先級變更
vrrp_script check_running { script "/usr/local/bin/check_running"interval 10 #腳本執(zhí)行間隔weight 10 #腳本結(jié)果導(dǎo)致的優(yōu)先級變更:10表示優(yōu)先級+10;-10則表示優(yōu)先級-10}然后在實例(vrrp_instance)里面引用,有點類似腳本里面的函數(shù)引用一樣:先定義,后引用函數(shù)名
track_script {
check_running weight 20
}
注意:VRRP腳本(vrrp_script)和VRRP實例(vrrp_instance)屬于同一個級別
LVS配置
如果你沒有配置LVS+keepalived那么無需配置這段區(qū)域,里如果你用的是nginx來代替LVS,這無限配置這款,這里的LVS配置是專門為keepalived+LVS集成準(zhǔn)備的。
注意了,這里L(fēng)VS配置并不是指真的安裝LVS然后用ipvsadm來配置他,而是用keepalived的配置文件來代替ipvsadm來配置LVS,這樣會方便很多,一個配置文件搞定這些,維護(hù)方便,配置方便是也!
這里L(fēng)VS配置也有兩個配置
一個是虛擬主機組配置
一個是虛擬主機配置
1,虛擬主機組配置文件詳解
這個配置是可選的,根據(jù)需求來配置吧,這里配置主要是為了讓一臺realserver上的某個服務(wù)可以屬于多個Virtual Server,并且只做一次健康檢查
virtual_server_group <STRING> {
# VIP port
<IPADDR> <PORT>
<IPADDR> <PORT>
fwmark <INT>
}
2,虛擬主機配置
virtual server可以以下面三種的任意一種來配置
1. virtual server IP port
2. virtual server fwmark int
3. virtual server group string
復(fù)制代碼
下面以第一種比較常用的方式來配詳細(xì)解說一下
virtual_server 192.168.1.2 80 { #設(shè)置一個virtual server: VIP:Vport
delay_loop 3 # service polling的delay時間,即服務(wù)輪詢的時間間隔
lb_algo rr|wrr|lc|wlc|lblc|sh|dh #LVS調(diào)度算法
lb_kind NAT|DR|TUN #LVS集群模式
persistence_timeout 120 #會話保持時間(秒為單位),即以用戶在120秒內(nèi)被分配到同一個后端realserver
persistence_granularity <NETMASK> #LVS會話保持粒度,ipvsadm中的-M參數(shù),默認(rèn)是0xffffffff,即每個客戶端都做會話保持
protocol TCP #健康檢查用的是TCP還是UDP
ha_suspend #suspendhealthchecker’s activity
virtualhost <string> #HTTP_GET做健康檢查時,檢查的web服務(wù)器的虛擬主機(即host:頭)
sorry_server <IPADDR> <PORT> #備用機,就是當(dāng)所有后端realserver節(jié)點都不可用時,就用這里設(shè)置的,也就是臨時把所有的請求都發(fā)送到這里啦
real_server <IPADDR> <PORT> #后端真實節(jié)點主機的權(quán)重等設(shè)置,主要,后端有幾臺這里就要設(shè)置幾個
{
weight 1 #給每臺的權(quán)重,0表示失效(不知給他轉(zhuǎn)發(fā)請求知道他恢復(fù)正常),默認(rèn)是1
inhibit_on_failure #表示在節(jié)點失敗后,把他權(quán)重設(shè)置成0,而不是沖IPVS中刪除
notify_up <STRING> | <QUOTED-STRING> #檢查服務(wù)器正常(UP)后,要執(zhí)行的腳本
notify_down <STRING> | <QUOTED-STRING> #檢查服務(wù)器失敗(down)后,要執(zhí)行的腳本
HTTP_GET #健康檢查方式
{
url { #要堅持的URL,可以有多個
path / #具體路徑
digest <STRING>
status_code 200 #返回狀態(tài)碼
}
connect_port 80 #監(jiān)控檢查的端口
bindto <IPADD> #健康檢查的IP地址
connect_timeout 3 #連接超時時間
nb_get_retry 3 #重連次數(shù)
delay_before_retry 2 #重連間隔
} # END OF HTTP_GET|SSL_GET
#下面是常用的健康檢查方式,健康檢查方式一共有HTTP_GET|SSL_GET|TCP_CHECK|SMTP_CHECK|MISC_CHECK這些
#TCP方式
TCP_CHECK {
connect_port 80
bindto 192.168.1.1
connect_timeout 4
} # TCP_CHECK
# SMTP方式,這個可以用來給郵件服務(wù)器做集群
SMTP_CHECK
host {
connect_ip <IP ADDRESS>
connect_port <PORT> #默認(rèn)檢查25端口
14 KEEPALIVED
bindto <IP ADDRESS>
}
connect_timeout <INTEGER>
retry <INTEGER>
delay_before_retry <INTEGER>
# "smtp HELO"?|·-?ê§?à"
helo_name <STRING>|<QUOTED-STRING>
} #SMTP_CHECK
#MISC方式,這個可以用來檢查很多服務(wù)器只需要自己會些腳本即可
MISC_CHECK
{
misc_path <STRING>|<QUOTED-STRING> #外部程序或腳本
misc_timeout <INT> #腳本或程序執(zhí)行超時時間
misc_dynamic #這個就很好用了,可以非常精確的來調(diào)整權(quán)重,是后端每天服務(wù)器的壓力都能均衡調(diào)配,這個主要是通過執(zhí)行的程序或腳本返回的狀態(tài)代碼來動態(tài)調(diào)整weight值,使權(quán)重根據(jù)真實的后端壓力來適當(dāng)調(diào)整,不過這需要有過硬的腳本功夫才行哦
#返回0:健康檢查沒問題,不修改權(quán)重
#返回1:健康檢查失敗,權(quán)重設(shè)置為0
#返回2-255:健康檢查沒問題,但是權(quán)重卻要根據(jù)返回代碼修改為返回碼-2,例如如果程序或腳本執(zhí)行后返回的代碼為200,#那么權(quán)重這回被修改為 200-2
}
} # Realserver
} # Virtual Server
配置文件到此就講完了,下面是一份未加備注的完整配置文件
global_defs
{
notification_email
{
admin@example.com
}
notification_email_from admin@example.com
smtp_server 127.0.0.1
stmp_connect_timeout 30
router_id node1
}
notification_email
{
admin@example.com
admin@ywlm.net
}
static_ipaddress
{
192.168.1.1/24 brd + dev eth0 scope global
192.168.1.2/24 brd + dev eth1 scope global
}
static_routes
{
src $SRC_IP to $DST_IP dev $SRC_DEVICE
src $SRC_IP to $DST_IP via $GW dev $SRC_DEVICE
}
vrrp_sync_group VG_1 {
group {
http
mysql
}
notify_master /path/to/to_master.sh
notify_backup /path_to/to_backup.sh
notify_fault "/path/fault.sh VG_1"
notify /path/to/notify.sh
smtp_alert
}
group {
http
mysql
}
vrrp_script check_running {
script "/usr/local/bin/check_running"
interval 10
weight 10
}
vrrp_instance http {
state MASTER
interface eth0
dont_track_primary
track_interface {
eth0
eth1
}
mcast_src_ip <IPADDR>
garp_master_delay 10
virtual_router_id 51
priority 100
advert_int 1
authentication {
auth_type PASS
autp_pass 1234
}
virtual_ipaddress {
#<IPADDR>/<MASK> brd <IPADDR> dev <STRING> scope <SCOPT> label <LABEL>
192.168.200.17/24 dev eth1
192.168.200.18/24 dev eth2 label eth2:1
}
virtual_routes {
# src <IPADDR> [to] <IPADDR>/<MASK> via|gw <IPADDR> dev <STRING> scope <SCOPE> tab
src 192.168.100.1 to 192.168.109.0/24 via 192.168.200.254 dev eth1
192.168.110.0/24 via 192.168.200.254 dev eth1
192.168.111.0/24 dev eth2
192.168.112.0/24 via 192.168.100.254
}
track_script {
check_running weight 20
}
nopreempt
preemtp_delay 300
debug
}
virtual_server_group <STRING> {
# VIP port
<IPADDR> <PORT>
<IPADDR> <PORT>
fwmark <INT>
}
virtual_server 192.168.1.2 80 {
delay_loop 3
lb_algo rr|wrr|lc|wlc|lblc|sh|dh
lb_kind NAT|DR|TUN
persistence_timeout 120
persistence_granularity <NETMASK>
protocol TCP
ha_suspend
virtualhost <string>
sorry_server <IPADDR> <PORT>
real_server <IPADDR> <PORT>
{
weight 1
inhibit_on_failure
notify_up <STRING> | <QUOTED-STRING>
notify_down <STRING> | <QUOTED-STRING>
#HTTP_GET方式
HTTP_GET | SSL_GET
{
url {
path /
digest <STRING>
status_code 200
}
connect_port 80
bindto <IPADD>
connect_timeout 3
nb_get_retry 3
delay_before_retry 2
}
}
}
復(fù)制代碼
注意,這里僅僅是羅列,并不是可用的配置文件。里面需要根據(jù)自己的時間情況稍加配置才能用
在下面我會根據(jù)實際的需求給出我平時的配置案例,在二樓三樓四樓分別給出三個案例
http://bbs.ywlm.net/thread-845-1-1.html其實這篇文章應(yīng)該算不上原創(chuàng),因為這里只給大家提供一個下載地址:
最近公司要啟動負(fù)載均衡 找了很多開源的工具后發(fā)現(xiàn) keepalived +LVS 配置簡單功能強大,很適合我們的需要,而且之前也做過他的實驗,于是就采用了他。在 www.keepalived.org 官網(wǎng)上尋找?guī)椭臅r候發(fā)現(xiàn)了田逸老師寫的手冊,呵呵感覺有點驚喜。田老師說:"你怎么才發(fā)現(xiàn)啊~~"
文章寫的很詳細(xì),不過有些地方也有些疏漏,比如在編譯的時候需要編譯進(jìn)內(nèi)核才會出現(xiàn) Use IPVS Framework : Yes 編譯時候需要加一個參數(shù) --with-kernel-dir=/usr/src/kernels/2.6.18-128.el5-x86_64/ 這個目錄根據(jù)操作系統(tǒng)自定義,不過我還是弄不清楚不這樣為什么lvs會出問題,而且我即使不加他 lvs似乎也能正常使用...
好了,不多說了,直接把下載鏈接貼出來希望對大家能有所幫助
http://www.keepalived.org/sery-lvs-cluster.pdf