轉(zhuǎn)載于 :專知
摘要:
機(jī)器學(xué)習(xí)(ML)中的可解釋性對于高風(fēng)險(xiǎn)決策和故障排除是至關(guān)重要的。在這項(xiàng)工作中,我們提供了可解釋性ML的基本原則,并消除了淡化這一關(guān)鍵話題的重要性的常見誤解。我們還確定了可解釋機(jī)器學(xué)習(xí)的10個(gè)技術(shù)挑戰(zhàn)領(lǐng)域,并提供了每個(gè)問題的歷史和背景。這些問題中有些是典型的重要問題,有些是最近幾年才出現(xiàn)的問題。這些問題包括: (1)優(yōu)化決策樹等稀疏邏輯模型; (2)評分系統(tǒng)優(yōu)化; (3)在廣義加性模型中放置約束,以促進(jìn)稀疏性和更好的可解釋性; (4)現(xiàn)代案例推理,包括神經(jīng)網(wǎng)絡(luò)和匹配因果推理; (5)神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督解纏; (6)神經(jīng)網(wǎng)絡(luò)的完全或部分無監(jiān)督解纏; (7)數(shù)據(jù)可視化降維; (8)能夠結(jié)合物理和其他生成或因果約束的機(jī)器學(xué)習(xí)模型; (9)良好模型的“羅生門集”的刻畫; (10)可解釋強(qiáng)化學(xué)習(xí)。該綜述適合作為對可解釋機(jī)器學(xué)習(xí)感興趣的統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家的起點(diǎn)。
https://www.zhuanzhi.ai/paper/60f927568bf8ab4d8d16e48c54192246
引言
隨著機(jī)器學(xué)習(xí)(ML)的廣泛應(yīng)用,可解釋性在避免災(zāi)難性后果方面的重要性變得越來越明顯。黑箱預(yù)測模型的定義是不可思議的,它已經(jīng)導(dǎo)致嚴(yán)重的社會問題,深刻影響健康、自由、種族偏見和安全??山忉岊A(yù)測模型受到限制,因此其推理過程更容易被人類理解,也更容易進(jìn)行故障排除和在實(shí)踐中使用。人們普遍認(rèn)為,可解釋性是AI模型信任的關(guān)鍵因素(Wagstaff, 2012; Rudin and Wagstaff, 2014; Lo Piano, 2020; Ashoori and Weisz, 2019; Thiebes et al., 2020; Spiegelhalter, 2020; Brundage et al., 2020)。在這項(xiàng)綜述中,我們提供了基本原理,以及內(nèi)在可解釋機(jī)器學(xué)習(xí)模型設(shè)計(jì)中的10個(gè)技術(shù)挑戰(zhàn)。
讓我們提供一些背景資料。黑盒機(jī)器學(xué)習(xí)模型是一個(gè)公式,它要么太復(fù)雜,任何人都無法理解,要么是專有的,以至于人們無法理解其內(nèi)部工作原理。黑盒模型很難排除故障,這對于醫(yī)療數(shù)據(jù)來說尤其成問題。黑箱模型通常會在錯(cuò)誤的原因下預(yù)測正確的答案(“聰明的漢斯”現(xiàn)象),導(dǎo)致在訓(xùn)練中表現(xiàn)優(yōu)異,但在實(shí)踐中表現(xiàn)不佳(Schramowski et al., 2020; Lapuschkin et al., 2019; O’Connor, 2021; Zech et al., 2018; Badgeley et al., 2019; Hamamoto et al., 2020)。黑盒模型還有許多其他問題。在刑事司法方面,個(gè)人可能會因?yàn)楹谙淠P洼斎氲挠∷㈠e(cuò)誤而遭受多年的額外監(jiān)禁(Wexler, 2017),而設(shè)計(jì)不佳的空氣質(zhì)量專有模型在野火期間對公共安全造成了嚴(yán)重后果(McGough, 2018);這兩種情況都很容易用可解釋模型來避免。在數(shù)據(jù)的底層分布發(fā)生變化的情況下(稱為域轉(zhuǎn)移,這在實(shí)踐中經(jīng)常發(fā)生),如果用戶不能實(shí)時(shí)地對模型進(jìn)行故障排除,那么問題就會出現(xiàn),而黑盒模型比可解釋模型要困難得多。要確定一個(gè)黑箱模型在性別或種族群體方面是否公平,要比確定一個(gè)可解釋的模型是否存在這種偏見要困難得多。在醫(yī)學(xué)領(lǐng)域,黑盒模型將計(jì)算機(jī)輔助決策轉(zhuǎn)化為自動決策,正是因?yàn)獒t(yī)生無法理解黑盒模型的推理過程。解釋黑盒,而不是用可解釋的模型替代它們,可能會通過提供誤導(dǎo)性或錯(cuò)誤的描述使問題變得更糟(Rudin, 2019; Laugel et al., 2019; Lakkaraju and Bastani, 2020),或者給黑匣子增加不必要的權(quán)力(Rudin and Radin, 2019)。顯然,我們需要具有內(nèi)在可解釋性的創(chuàng)新機(jī)器學(xué)習(xí)模型。
本綜述的主要部分概述了可解釋性機(jī)器學(xué)習(xí)中一系列重要和基本的技術(shù)重大挑戰(zhàn)。這些挑戰(zhàn)既有現(xiàn)代的,也有古典的,有些挑戰(zhàn)要比其他的困難得多。它們要么很難解決,要么很難正確地表述。雖然有許多關(guān)于模型部署的社會技術(shù)挑戰(zhàn)(可能比技術(shù)挑戰(zhàn)困難得多),人機(jī)交互挑戰(zhàn),以及健壯性和公平性如何與可解釋性交互,這些話題可以留到以后討論。我們從可解釋機(jī)器學(xué)習(xí)中最經(jīng)典和最規(guī)范的問題開始: 如何為表格數(shù)據(jù)建立稀疏模型,包括決策樹(挑戰(zhàn)#1)和評分系統(tǒng)(挑戰(zhàn)#2)。然后我們研究了一個(gè)涉及加法模型的挑戰(zhàn)(挑戰(zhàn)#3),接著是另一個(gè)基于案例推理的挑戰(zhàn)(挑戰(zhàn)#4),這是可解釋人工智能中的另一個(gè)經(jīng)典主題。然后我們轉(zhuǎn)向更奇特的問題,即在神經(jīng)網(wǎng)絡(luò)中有監(jiān)督和無監(jiān)督的概念解纏(挑戰(zhàn)#5和#6)?;氐浇?jīng)典問題,我們討論降維(挑戰(zhàn)#7)。然后,如何整合物理或因果約束(挑戰(zhàn)#8)。挑戰(zhàn)#9涉及到理解、探索和衡量羅生門精確預(yù)測模型集。挑戰(zhàn)#10 討論可解釋強(qiáng)化學(xué)習(xí)。表1提供了一個(gè)指南,可以幫助用戶將數(shù)據(jù)集與合適的可解釋監(jiān)督學(xué)習(xí)技術(shù)相匹配。我們將在挑戰(zhàn)中涉及所有這些技術(shù)。
可解釋機(jī)器學(xué)習(xí)原則
原則1: 一個(gè)可解釋的機(jī)器學(xué)習(xí)模型遵循一組特定領(lǐng)域的約束,使其(或其預(yù)測或數(shù)據(jù))更容易被人類理解。這些約束會根據(jù)域的不同而有很大的不同。
原則2:盡管有常見的修辭,但可解釋的模型不一定能創(chuàng)造或促成信任——它們也可能導(dǎo)致不信任。它們只是讓用戶決定是否信任它們。換句話說,他們允許信任的決定,而不是信任本身。
原則3:重要的是,不要假設(shè)一個(gè)人需要犧牲準(zhǔn)確性來獲得可解釋性。事實(shí)上,可解釋性往往會帶來準(zhǔn)確性,而不是相反。在機(jī)器學(xué)習(xí)中,可解釋性和準(zhǔn)確性通常是一個(gè)錯(cuò)誤的二分法。
原則4:作為整個(gè)數(shù)據(jù)科學(xué)過程的一部分,性能指標(biāo)和可解釋性指標(biāo)都應(yīng)該被反復(fù)地改進(jìn)。
原則5:對于高風(fēng)險(xiǎn)的決策,如果可能的話,應(yīng)該使用可解釋的模型,而不是“解釋”的黑盒模型