1.由于最近在學(xué)習(xí)springcloud的項目,現(xiàn)在互聯(lián)網(wǎng)下,分布式,微服務(wù)橫行,難免會遇到分布式下的事務(wù)問題,這是一個難點,也是面試經(jīng)常問的,別面試官一看你簡歷,都是微服務(wù)項目,問你了解啥是分布式事務(wù)不,你來句沒有,這就很尷尬了,當(dāng)然微服務(wù)下可能沒有分布式事務(wù),但是很多場景是需要分布式事務(wù)的,下面我就來介紹下什么是分布式事務(wù),和分布式事務(wù)的解決方案
在介紹分布式事務(wù)下,下面我們先來了解一個常見應(yīng)用場景,這個場景(類似慕課網(wǎng)購買付費課程)也是我后面要講的分布式事務(wù)的解決方案的案例
2用戶支付完成會將支付狀態(tài)及訂單狀態(tài)保存在訂單數(shù)據(jù)庫中,由訂單服務(wù)去維護訂單數(shù)據(jù)庫。而學(xué)生選課信息在學(xué)習(xí)中心數(shù)據(jù)庫,由學(xué)習(xí)服務(wù)去維護學(xué)習(xí)中心數(shù)據(jù)庫的信息。下圖是系統(tǒng)結(jié)構(gòu)圖:
?嘗試解決上邊的需求,在訂單服務(wù)中遠程調(diào)用選課接口,偽代碼如下:
1.更新支付表狀態(tài)為本地數(shù)據(jù)庫操作。
2.遠程調(diào)用選課接口為網(wǎng)絡(luò)遠程調(diào)用請求
3.為保存事務(wù)上邊兩步操作由spring控制事務(wù),當(dāng)遇到Exception異常則回滾本地數(shù)據(jù)庫操作。
問題如下:
1、如果更新支付表失敗則拋出異常,不再執(zhí)行遠程調(diào)用,此設(shè)想沒有問題。
2、如果更新支付表成功,網(wǎng)絡(luò)遠程調(diào)用超時會拉長本地數(shù)據(jù)庫事務(wù)時間,影響數(shù)據(jù)庫性能。(遠程調(diào)用非常耗時的哦)
3、如果更新支付表成功,遠程調(diào)用添加選課成功(選課數(shù)據(jù)庫commit成功),最后更新支付表commit失敗,此時出現(xiàn)操作不一致。
上面的問題就涉及到了分布式事務(wù)的控制
什么是分布式系統(tǒng)
部署在不同結(jié)點上的系統(tǒng)通過網(wǎng)絡(luò)交互來完成協(xié)同工作的系統(tǒng)
比如:充值加積分的業(yè)務(wù),用戶在充值系統(tǒng)向自己的賬戶充錢,在積分系統(tǒng)中自己積分相應(yīng)的增加。充值系統(tǒng)和積分系統(tǒng)是兩個不同的系統(tǒng),一次充值加積分的業(yè)務(wù)就需要這兩個系統(tǒng)協(xié)同工作來完成。什么是事務(wù)
事務(wù)是指由一組操作組成的一個工作單元,這個工作單元具有原子性(atomicity)、一致性(consistency)、隔離性(isolation)和持久性(durability)。
原子性:執(zhí)行單元中的操作要么全部執(zhí)行成功,要么全部失敗。如果有一部分成功一部分失敗那么成功的操作要全部回滾到執(zhí)行前的狀態(tài)。
一致性:執(zhí)行一次事務(wù)會使用數(shù)據(jù)從一個正確的狀態(tài)轉(zhuǎn)換到另一個正確的狀態(tài),執(zhí)行前后數(shù)據(jù)都是完整的。 隔離性:在該事務(wù)執(zhí)行的過程中,任何數(shù)據(jù)的改變只存在于該事務(wù)之中,對外界沒有影響,事務(wù)與事務(wù)之間是完全的隔離的。只有事務(wù)提交后其它事務(wù)才可以查詢到最新的數(shù)據(jù)。
持久性:事務(wù)完成后對數(shù)據(jù)的改變會永久性的存儲起來,即使發(fā)生斷電宕機數(shù)據(jù)依然在。什么是本地事務(wù)
本地事務(wù)就是用關(guān)系數(shù)據(jù)庫來控制事務(wù),關(guān)系數(shù)據(jù)庫通常都具有ACID特性,傳統(tǒng)的單體應(yīng)用通常會將數(shù)據(jù)全部存儲在一個數(shù)據(jù)庫中,會借助關(guān)系數(shù)據(jù)庫來完成事務(wù)控制。
什么是分布式事務(wù)
在分布式系統(tǒng)中一次操作由多個系統(tǒng)協(xié)同完成,這種一次事務(wù)操作涉及多個系統(tǒng)通過網(wǎng)絡(luò)協(xié)同完成的過程稱為分布式事務(wù)。這里強調(diào)的是多個系統(tǒng)通過網(wǎng)絡(luò)協(xié)同完成一個事務(wù)的過程,并不強調(diào)多個系統(tǒng)訪問了不同的數(shù)據(jù)庫,即使多個系統(tǒng)訪問的是同一個數(shù)據(jù)庫也是分布式事務(wù),如下圖:
?另外一種分布式事務(wù)的表現(xiàn)是,一個應(yīng)用程序使用了多個數(shù)據(jù)源連接了不同的數(shù)據(jù)庫,當(dāng)一次事務(wù)需要操作多個數(shù)據(jù)源,此時也屬于分布式事務(wù),當(dāng)系統(tǒng)作了數(shù)據(jù)庫拆分后會出現(xiàn)此種情況
上面兩種分布式事務(wù)表現(xiàn)形式第一種用的最多
如何進行分布式事務(wù)控制?CAP理論是分布式事務(wù)處理的理論基礎(chǔ),了解了CAP理論有助于我們研究分布式事務(wù)的處理方案。
CAP理論是:分布式系統(tǒng)在設(shè)計時只能在一致性(Consistency)、可用性(Availability)、分區(qū)容忍性(Partition Tolerance)中滿足兩種,無法兼顧三種。
通過下圖來理解CAP理論
一致性(Consistency):服務(wù)A、B、C三個結(jié)點都存儲了用戶數(shù)據(jù), 三個結(jié)點的數(shù)據(jù)需要保持同一時刻數(shù)據(jù)一致性。
可用性(Availability):服務(wù)A、B、C三個結(jié)點,其中一個結(jié)點宕機不影響整個集群對外提供服務(wù),如果只有服務(wù)A結(jié)點,當(dāng)服務(wù)A宕機整個系統(tǒng)將無法提供服務(wù),增加服務(wù)B、C是為了保證系統(tǒng)的可用性。
分區(qū)容忍性(Partition Tolerance):分區(qū)容忍性就是允許系統(tǒng)通過網(wǎng)絡(luò)協(xié)同工作,分區(qū)容忍性要解決由于網(wǎng)絡(luò)分區(qū)導(dǎo)致數(shù)據(jù)的不完整及無法訪問等問題。
分布式系統(tǒng)不可避免的出現(xiàn)了多個系統(tǒng)通過網(wǎng)絡(luò)協(xié)同工作的場景,結(jié)點之間難免會出現(xiàn)網(wǎng)絡(luò)中斷、網(wǎng)延延遲等現(xiàn)象,這種現(xiàn)象一旦出現(xiàn)就導(dǎo)致數(shù)據(jù)被分散在不同的結(jié)點上,這就是網(wǎng)絡(luò)分區(qū)
在保證分區(qū)容忍性的前提下一致性和可用性無法兼顧,如果要提高系統(tǒng)的可用性就要增加多個結(jié)點,如果要保證數(shù)據(jù)的一致性就要實現(xiàn)每個結(jié)點的數(shù)據(jù)一致,結(jié)點越多可用性越好,但是數(shù)據(jù)一致性越差。所以,在進行分布式系統(tǒng)設(shè)計時,同時滿足“一致性”、“可用性”和“分區(qū)容忍性”三者是幾乎不可能的
CAP有哪些組合方式?
1、CA:放棄分區(qū)容忍性,加強一致性和可用性,關(guān)系數(shù)據(jù)庫按照CA進行設(shè)計。
2、AP:放棄一致性,加強可用性和分區(qū)容忍性,追求最終一致性,很多NoSQL數(shù)據(jù)庫按照AP進行設(shè)計。
說明:這里放棄一致性是指放棄強一致性,強一致性就是寫入成功立刻要查詢出最新數(shù)據(jù)。追求最終一致性是指允許暫時的數(shù)據(jù)不一致,只要最終在用戶接受的時間內(nèi)數(shù)據(jù) 一致即可
3、CP:放棄可用性,加強一致性和分區(qū)容忍性,一些強一致性要求的系統(tǒng)按CP進行設(shè)計,比如跨行轉(zhuǎn)賬,一次轉(zhuǎn)賬請求要等待雙方銀行系統(tǒng)都完成整個事務(wù)才算完成。
?說明:由于網(wǎng)絡(luò)問題的存在CP系統(tǒng)可能會出現(xiàn)待等待超時,如果沒有處理超時問題則整理系統(tǒng)會出現(xiàn)阻塞
總結(jié):?在分布式系統(tǒng)設(shè)計中AP的應(yīng)用較多,即保證分區(qū)容忍性和可用性,犧牲數(shù)據(jù)的強一致性(寫操作后立刻讀取到最新數(shù)據(jù)),保證數(shù)據(jù)最終一致性。比如:訂單退款,今日退款成功,明日賬戶到賬,只要在預(yù)定的用戶可以接受的時間內(nèi)退款事務(wù)走完即可。
兩階段提交協(xié)議(2PC)
為解決分布式系統(tǒng)的數(shù)據(jù)一致性問題出現(xiàn)了兩階段提交協(xié)議(2 Phase Commitment Protocol),兩階段提交由協(xié)調(diào)者和參與者組成,共經(jīng)過兩個階段和三個操作,部分關(guān)系數(shù)據(jù)庫如Oracle、MySQL支持兩階段提交協(xié)議,本節(jié)講解關(guān)系數(shù)據(jù)庫兩階段提交協(xié)議。
參考:2PC:https://en.wikipedia.org/wiki/Two-phase_commit_protocol
1)第一階段:準(zhǔn)備階段(prepare)
協(xié)調(diào)者通知參與者準(zhǔn)備提交訂單,參與者開始投票。
協(xié)調(diào)者完成準(zhǔn)備工作向協(xié)調(diào)者回應(yīng)Yes。
2)第二階段:提交(commit)/回滾(rollback)階段
協(xié)調(diào)者根據(jù)參與者的投票結(jié)果發(fā)起最終的提交指令。
如果有參與者沒有準(zhǔn)備好則發(fā)起回滾指令。
一個下單減庫存的例子:1、應(yīng)用程序連接兩個數(shù)據(jù)源。
2、應(yīng)用程序通過事務(wù)協(xié)調(diào)器向兩個庫發(fā)起prepare,兩個數(shù)據(jù)庫收到消息分別執(zhí)行本地事務(wù)(記錄日志),但不提交,如果執(zhí)行成功則回復(fù)yes,否則回復(fù)no。
3、事務(wù)協(xié)調(diào)器收到回復(fù),只要有一方回復(fù)no則分別向參與者發(fā)起回滾事務(wù),參與者開始回滾事務(wù)。
4、事務(wù)協(xié)調(diào)器收到回復(fù),全部回復(fù)yes,此時向參與者發(fā)起提交事務(wù)。如果參與者有一方提交事務(wù)失敗則由事務(wù)協(xié)調(diào)器發(fā)起回滾事務(wù)。
2PC的優(yōu)點:實現(xiàn)強一致性,部分關(guān)系數(shù)據(jù)庫支持(Oracle、MySQL等)。
缺點:整個事務(wù)的執(zhí)行需要由協(xié)調(diào)者在多個節(jié)點之間去協(xié)調(diào),增加了事務(wù)的執(zhí)行時間,性能低下。
解決方案有:springboot+Atomikos or Bitronix
TCC事務(wù)補償是基于2PC實現(xiàn)的業(yè)務(wù)層事務(wù)控制方案,它是Try、Confirm和Cancel三個單詞的首字母,含義如下:
1、Try 檢查及預(yù)留業(yè)務(wù)資源完成提交事務(wù)前的檢查,并預(yù)留好資源。
2、Confirm 確定執(zhí)行業(yè)務(wù)操作
對try階段預(yù)留的資源正式執(zhí)行。
3、Cancel 取消執(zhí)行業(yè)務(wù)操作
對try階段預(yù)留的資源釋放。
下邊用一個下單減庫存的業(yè)務(wù)為例來說明
1、Try
下單業(yè)務(wù)由訂單服務(wù)和庫存服務(wù)協(xié)同完成,在try階段訂單服務(wù)和庫存服務(wù)完成檢查和預(yù)留資源。
訂單服務(wù)檢查當(dāng)前是否滿足提交訂單的條件(比如:當(dāng)前存在未完成訂單的不允許提交新訂單)。
庫存服務(wù)檢查當(dāng)前是否有充足的庫存,并鎖定資源。
2、Confirm
訂單服務(wù)和庫存服務(wù)成功完成Try后開始正式執(zhí)行資源操作。
訂單服務(wù)向訂單寫一條訂單信息。
庫存服務(wù)減去庫存。
3、Cancel
如果訂單服務(wù)和庫存服務(wù)有一方出現(xiàn)失敗則全部取消操作。
訂單服務(wù)需要刪除新增的訂單信息。
庫存服務(wù)將減去的庫存再還原。
優(yōu)點:最終保證數(shù)據(jù)的一致性,在業(yè)務(wù)層實現(xiàn)事務(wù)控制,靈活性好。
缺點:開發(fā)成本高,每個事務(wù)操作每個參與者都需要實現(xiàn)try/confirm/cancel三個接口。
注意:TCC的try/confirm/cancel接口都要實現(xiàn)冪等性,在為在try、confirm、cancel失敗后要不斷重試。
冪等性是指同一個操作無論請求多少次,其結(jié)果都相同。
冪等操作實現(xiàn)方式有:
1、操作之前在業(yè)務(wù)方法進行判斷如果執(zhí)行過了就不再執(zhí)行。
2、緩存所有請求和處理的結(jié)果,已經(jīng)處理的請求則直接返回結(jié)果。
3、在數(shù)據(jù)庫表中加一個狀態(tài)字段(未處理,已處理),數(shù)據(jù)操作時判斷未處理時再處理。
本方案是將分布式事務(wù)拆分成多個本地事務(wù)來完成,并且由消息隊列異步協(xié)調(diào)完成,如下圖:
下邊以下單減少庫存為例來說明:1訂單服務(wù)和庫存服務(wù)完成檢查和預(yù)留資源。
2、訂單服務(wù)在本地事務(wù)中完成添加訂單表記錄和添加“減少庫存任務(wù)消息”。
3、由定時任務(wù)根據(jù)消息表的記錄發(fā)送給MQ通知庫存服務(wù)執(zhí)行減庫存操作。
4、庫存服務(wù)執(zhí)行減少庫存,并且記錄執(zhí)行消息狀態(tài)(為避免重復(fù)執(zhí)行消息,在執(zhí)行減庫存之前查詢是否執(zhí)行過此消息)。
5、庫存服務(wù)向MQ發(fā)送完成減少庫存的消息。
6、訂單服務(wù)接收到完成庫存減少的消息后刪除原來添加的“減少庫存任務(wù)消息”。
實現(xiàn)最終事務(wù)一致要求:預(yù)留資源成功理論上要求正式執(zhí)行成功,如果執(zhí)行失敗會進行重試,要求業(yè)務(wù)執(zhí)行方法實現(xiàn)冪等。
優(yōu)點 :
由MQ按異步的方式協(xié)調(diào)完成事務(wù),性能較高。
不用實現(xiàn)try/confirm/cancel接口,開發(fā)成本比TCC低。
缺點:
此方式基于關(guān)系數(shù)據(jù)庫本地事務(wù)來實現(xiàn),會出現(xiàn)頻繁讀寫數(shù)據(jù)庫記錄,浪費數(shù)據(jù)庫資源,另外對于高并發(fā)操作不是最佳方案。
總結(jié):本文只是介紹了分布式事務(wù)的一些特性和解決方案,將會在另一篇文章上詳細(xì)介紹消息隊列實現(xiàn)最終一致性的分布式解決方案,需要了解:rabbitmq,SpringTask,springcloud