陳爽
【前言】
在工作中有時會出現(xiàn)Exchange服務(wù)器在意外重啟后藍(lán)屏并且無法直接恢復(fù)的情況,通過災(zāi)難恢復(fù)方式處理之后穩(wěn)定運行一個月該服務(wù)器又出現(xiàn)脫域的現(xiàn)象。在此我總結(jié)處理問題的過程及思路,希望能對同行有所幫助。
【正文】
環(huán)境:
操作系統(tǒng):Windows Server 2008 R2 sp1
Exchange版本:Exchange2010sp3 CU8
架構(gòu):3臺CAS+4臺MBX
現(xiàn)象:CAS服務(wù)器中的一臺(用CAS2表示)系統(tǒng)在意外重啟后無法進(jìn)入系統(tǒng)。測試同樣無法進(jìn)入安全模式和最后一次正確配置。
解決過程:
1. 確認(rèn)在原有系統(tǒng)基礎(chǔ)上恢復(fù)不可行后決定使用重裝的方式進(jìn)行還原。
根據(jù)微軟官方文檔https://technet.microsoft.com/zh-cn/library/dd876880(v=exchg.141).aspx提供的信息得知恢復(fù)操作需要滿足先決條件:
執(zhí)行恢復(fù)操作的服務(wù)器必須運行與丟失服務(wù)器相同的操作系統(tǒng);
執(zhí)行恢復(fù)操作的服務(wù)器必須與丟失服務(wù)器擁有相同的性能特征和硬件配置;
可在安裝了客戶端訪問、集線器傳輸、郵箱或統(tǒng)一消息服務(wù)器角色的 Exchange 2010 服務(wù)器上運行。
客戶處的Exchange2010環(huán)境中沒有安裝邊緣服務(wù)器的角色,完全能滿足上述條件。另外能確定的時原有Exchange服務(wù)器上安裝程序的路徑為默認(rèn)值,使得恢復(fù)過程變得更加便利,不需要指定自定義的安裝路徑。
2. 具體操作辦法:首先在AD中重置CAS2的計算機賬號>在原有實體機上安裝Server 2008 R2 sp1系統(tǒng)并更新補丁至與其他兩臺CAS一致>修改計算機名為CAS2>安裝必須的組件后在新裝服務(wù)器上執(zhí)行Setup /m:RecoverServer。
整個恢復(fù)過程還算順利,等用戶信息同步完成后測試新裝CAS2的OWA和outlook功能都能正常使用。最后將新加服務(wù)器加入NLB群集即可。如果環(huán)境中使用的是硬件負(fù)載設(shè)備,只需啟用對應(yīng)IP策略即可。
本以為事情就這樣結(jié)束了,事實觀察使用兩周的情況都還不錯,沒有出現(xiàn)批量用戶報障。大約一個月后的周一,上班時大量用戶反饋outlook彈窗需要輸入密碼,并且在輸入密碼后也不能使用。馬上分別檢查三臺CAS的owa訪問是否正常,恰好是CAS2無法正常使用:可以彈出登錄界面,輸入密碼后無法進(jìn)行進(jìn)一步跳轉(zhuǎn)。使用郵箱管理員賬號亦無法登錄至該服務(wù)器,本地管理員可登陸。登陸后立即做了基礎(chǔ)診斷:
網(wǎng)絡(luò)配置正常,與DC和其他Exchange服務(wù)器之間網(wǎng)絡(luò)暢通;
系統(tǒng)資源正常:磁盤使用情況、CPU和內(nèi)存在使用率都在正常范圍內(nèi);
切換其他域管理員賬號登錄提示無法建立信任關(guān)系。
為了進(jìn)一步確認(rèn)是脫域,我使用nltest測試了域安全通道信任關(guān)系:
nltest /server:servername /sc_query:domainname
系統(tǒng)提示Status = 1355 0x54b ERROR_NO_SUCH_DOMAIN
為了盡快恢復(fù)業(yè)務(wù),沒有深究脫域的原因而是恢復(fù)信任關(guān)系。通常客戶端脫域之后最簡單的處理辦法時退域之后重新加域即可,比較簡單的判斷是否正常的手段是檢查網(wǎng)絡(luò)適配器是否連接到了域網(wǎng)絡(luò),根據(jù)我的經(jīng)驗脫域的計算機多顯示為公用網(wǎng)絡(luò)。
郵箱服務(wù)器不便采用退域重新加域的方式處理,防止在退域的時候AD數(shù)據(jù)庫會抹除部分Exchange服務(wù)器特有的信息,需要使用netdom工具來重建信任關(guān)系。
1. 重置AD里面計算機賬戶
2. 在脫域的服務(wù)器上運行
netdom resetpwd /Server:dcname /ud:mailadminaccount /pd:password
有驚無險,重啟后郵箱恢復(fù)正常,不過整個處理的過程倒是循序漸進(jìn)。后續(xù)檢查了系統(tǒng)日志試圖確認(rèn)服務(wù)器脫域的原因,未找到有相關(guān)信息。微軟論壇求助等多方資源求助無果后便沒再深究。
造成服務(wù)器脫域的因素時多方面的,諸如計算機重名、長時間關(guān)機未與域通信或者sid沖突等都有可能。
【總結(jié)】
兩次故障都能恢復(fù)有一個很大的條件時,當(dāng)前客戶環(huán)境是3CAS提供服務(wù),配置信息可以從正常服務(wù)器上同步過來。其中藍(lán)屏和脫域的恢復(fù)都需要的一個動作是重置計算機賬號,而不是直接刪除。這是比較關(guān)鍵的點,既能保留原有信息又防止因為計算機名沖突SID不一致導(dǎo)致無法正常入域的現(xiàn)象。
再者,命令處理的方式對于問題的診斷和恢復(fù)都更有針對性,對定位問題提供了更明確的方向。