【新智元導(dǎo)讀】本文總結(jié)了2018年里,學(xué)術(shù)界各大AI大咖、知名實(shí)驗(yàn)室的杰出成果,包括Hinton、LeCun、吳恩達(dá)、谷歌、MIT、UC Berkeley等。
2018年,AI的發(fā)展可謂是大步向前。
這離不開學(xué)術(shù)界的實(shí)驗(yàn)室和科研團(tuán)隊(duì)不懈的努力。本文總結(jié)了2018年,各個(gè)AI大咖、知名實(shí)驗(yàn)室的杰出成果,包括Hinton、LeCun、吳恩達(dá)、谷歌、MIT、UC Berkeley等。
涵蓋AI眾多領(lǐng)域,可謂是AI發(fā)展的風(fēng)向標(biāo)。
Geoffrey Hinton,被稱為“神經(jīng)網(wǎng)絡(luò)之父”、“深度學(xué)習(xí)鼻祖”,他曾獲得愛丁堡大學(xué)人工智能的博士學(xué)位,并且為多倫多大學(xué)的特聘教授。在2012年,Hinton還獲得了加拿大基廉獎(jiǎng)(Killam Prizes,有“加拿大諾貝爾獎(jiǎng)”之稱的國(guó)家最高科學(xué)獎(jiǎng))。2013年,Hinton 加入谷歌并帶領(lǐng)一個(gè)AI團(tuán)隊(duì),他將神經(jīng)網(wǎng)絡(luò)帶入到研究與應(yīng)用的熱潮,將“深度學(xué)習(xí)”從邊緣課題變成了谷歌等互聯(lián)網(wǎng)巨頭仰賴的核心技術(shù),并將BP算法應(yīng)用到神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)。
Hinton在2017年的NIPS會(huì)議上提出的膠囊網(wǎng)路,基于一種新的結(jié)構(gòu),通過與現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合,在一些圖像分類的數(shù)據(jù)上取得了非常優(yōu)越的性能,成為了2018年的發(fā)展新趨勢(shì)。
2018年4月,Hinton 團(tuán)隊(duì)發(fā)布
《Large Scale Distributed Neural Network Training Through Online Distillation》(https://arxiv.org/pdf/1804.03235.pdf ),通過online distillation進(jìn)行大規(guī)模分布式神經(jīng)網(wǎng)絡(luò)訓(xùn)練。該工作提出了Codistillation的概念,通過大規(guī)模實(shí)驗(yàn),發(fā)現(xiàn)codistillation方法提高了準(zhǔn)確性并加快了訓(xùn)練速度,并且易于在實(shí)踐中使用。
在11月發(fā)表的《DARCCC:Detecting Adversaries by Reconstruction from Class Conditional Capsules》(https://arxiv.org/abs/1811.06969?context=cs )中,他的團(tuán)隊(duì)提出重構(gòu)網(wǎng)絡(luò)可以視作檢測(cè)對(duì)抗性攻擊的非常有效的方法:從獲勝的頂層膠囊的身份和姿態(tài)參數(shù)中重構(gòu)輸入,以驗(yàn)證網(wǎng)絡(luò)能夠感知我們期望它從某個(gè)類的典型樣例中感知的東西。
Yann LeCun 是美國(guó)工程院院士、Facebook前人工智能研究院院長(zhǎng)、紐約大學(xué)Sliver教授,同時(shí)還兼職于科學(xué)數(shù)據(jù)中心,數(shù)學(xué)科學(xué)交流學(xué)院,神經(jīng)科學(xué)中心,以及電子工程計(jì)算機(jī)系。他于2003年加入紐約大學(xué),之后還在普林斯頓的NEC研究院短暫任職。在2012年,他創(chuàng)建了紐約大學(xué)數(shù)據(jù)科學(xué)中心,并擔(dān)任主任。2013年底,他被任命為Facebook人工智能研究總監(jiān), 并繼續(xù)在紐約大學(xué)做兼職教授。2015-2016年,他在巴黎法蘭西工學(xué)院做客座教授。Lecun創(chuàng)立的卷積網(wǎng)絡(luò)模型,被廣泛地應(yīng)用于計(jì)算機(jī)視覺和語(yǔ)音識(shí)別應(yīng)用里,也因此他被稱為卷積網(wǎng)絡(luò)之父,是公認(rèn)的世界人工智能三巨頭之一。
2018年4月,Yann LeCun 等人發(fā)表了一篇針對(duì)未來(lái)實(shí)例分割預(yù)測(cè)的論文《Predicting Future Instance Segmentation by Forecasting Convolutional Features》(https://arxiv.org/abs/1803.11496)。該論文提出了一種預(yù)測(cè)模型,可通過預(yù)測(cè)卷積特征來(lái)對(duì)未來(lái)實(shí)例分割進(jìn)行預(yù)測(cè)。
前不久,Lecun等人在論文《Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic》(http://arxiv.org/abs/1901.02705v1 )中提出通過隨多個(gè)時(shí)間步驟展開環(huán)境動(dòng)態(tài)學(xué)到的模型來(lái)訓(xùn)練一個(gè)策略的方法,同時(shí)明確地懲罰了兩個(gè)成本:優(yōu)化策略時(shí)的原始成本;表示訓(xùn)練狀態(tài)離散的不確定成本。最后,研究人員使用大規(guī)模駕駛行為數(shù)據(jù)集對(duì)此方法進(jìn)行了評(píng)估,結(jié)果顯示能夠從存粹的觀察數(shù)據(jù)中有效學(xué)習(xí)駕駛策略,不去要環(huán)境交互。
Yoshua bengio,蒙特利爾大學(xué)(Université de Montréal)的終身教授,同時(shí)是蒙特利爾大學(xué)機(jī)器學(xué)習(xí)研究所(MILA)的負(fù)責(zé)人,是CIFAR項(xiàng)目的負(fù)責(zé)人之一,負(fù)責(zé)神經(jīng)計(jì)算和自適應(yīng)感知器等方面,又是加拿大統(tǒng)計(jì)學(xué)習(xí)算法學(xué)會(huì)的主席,是ApSTAT技術(shù)的發(fā)起人與研發(fā)大牛。Bengio在蒙特利爾大學(xué)任教之前,是AT&T貝爾實(shí)驗(yàn)室&MIT的機(jī)器學(xué)習(xí)博士后。他的主要貢獻(xiàn)在于他對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, Recurrent Neural Networks)的一系列推動(dòng),包括經(jīng)典的neural language model,gradient vanishing 的細(xì)致討論,word2vec的雛形,以及machine translation。Bengio是Deep Learning一書的合著者,且Bengio的”A neural probabilistic language model”論文開創(chuàng)了神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型 language model先河,里面的思路影響了之后的很多基于神經(jīng)網(wǎng)絡(luò)做NLP的文章。
9月份,Bengio 等研究者在論文《Learning deep representations by mutual information estimation and maximization》提出了 Deep INFOMAX(DIM)(https://arxiv.org/abs/1808.06670v2 )。該方法根據(jù)信息內(nèi)容和統(tǒng)計(jì)或架構(gòu)約束來(lái)學(xué)習(xí)表示,可用于學(xué)習(xí)期望特征的表示,并且在分類任務(wù)上優(yōu)于許多流行的無(wú)監(jiān)督學(xué)習(xí)方法。他們認(rèn)為,這是學(xué)習(xí)好的和更有條理的表示的一個(gè)重要方向,有利于未來(lái)的人工智能研究。
10月份,Bengio 研究團(tuán)隊(duì)提出了一種稱為 BabyAI 的研究平臺(tái),支持將人類加入到語(yǔ)言學(xué)習(xí)的基本循環(huán)中。BabyAI 平臺(tái)由難度遞增的 19 個(gè)層級(jí)組成。支持智能體獲取具有豐富組合的合成語(yǔ)言,并提供了用于模擬人類教師的啟發(fā)式專家。
NIPS2018中,Bengio的《Dendritic cortical microcircuits approximate the backpropagation algorithm》(http://papers.nips.cc/paper/8089-dendritic-cortical-microcircuits-approximate-the-backpropagation-algorithm.pdf ),介紹了一個(gè)簡(jiǎn)化的樹突室的多層神經(jīng)元網(wǎng)絡(luò)模型,其中錯(cuò)誤驅(qū)動(dòng)(error-driven)的突觸可塑性使網(wǎng)絡(luò)適應(yīng)一個(gè)全面性的期望輸出。這個(gè)框架框架與最近觀察到的大腦區(qū)域和皮質(zhì)微電路結(jié)構(gòu)之間的學(xué)習(xí)是一致的。
Bengio 等研究者在前不久的最新論文《Quaternion Recurrent Neural Networks》中,提出了一種新的四元循環(huán)神經(jīng)網(wǎng)絡(luò)(QRNN)以及相應(yīng)的四元長(zhǎng)短期記憶網(wǎng)絡(luò)(QLSTM),將四元代數(shù)的外部關(guān)系和內(nèi)部架構(gòu)依賴性皆考慮在內(nèi)。實(shí)驗(yàn)證明,與 RNN 和 LSTM 相比,QRNN 和 QLSTM 都在自動(dòng)語(yǔ)音識(shí)別等實(shí)際應(yīng)用中達(dá)到了更好的性能。
吳恩達(dá),華裔美國(guó)人,是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和電子工程系副教授,人工智能實(shí)驗(yàn)室主任。吳恩達(dá)是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國(guó)際上最權(quán)威的學(xué)者之一。吳恩達(dá)也是在線教育平臺(tái)Coursera的聯(lián)合創(chuàng)始人(with Daphne Koller)。
2018年5月,吳恩達(dá)團(tuán)隊(duì)在MURA數(shù)據(jù)集上發(fā)起了一項(xiàng)深度學(xué)習(xí)挑戰(zhàn)賽, 這個(gè)數(shù)據(jù)集是他們團(tuán)隊(duì)在2018年1月開源的一個(gè)骨骼 X 光片的大型數(shù)據(jù)集,總共有 40561 份多視圖放射線影像。
7月的時(shí)候,該團(tuán)隊(duì)開發(fā)出了一種使用人工智能來(lái)預(yù)測(cè)病人死亡時(shí)間的系統(tǒng),該系統(tǒng)可以為病人提供更好的臨床關(guān)懷。研究人員提出了一種新的預(yù)報(bào)檢驗(yàn)方法 Survival-CRPS,通過優(yōu)化連續(xù)分級(jí)概率評(píng)分(continuous ranked probability core, CRPS)來(lái)提高預(yù)報(bào)的銳度(sharpness, 評(píng)價(jià)模式預(yù)測(cè)極值的傾向),同時(shí)保持預(yù)報(bào)的校準(zhǔn)度(calibration, 評(píng)價(jià)模型預(yù)測(cè)值的數(shù)值大小和結(jié)局事件發(fā)生概率的大小是否一致)。這是科學(xué)界首次將最大似然法之外的評(píng)分方法成功應(yīng)用于大型生存預(yù)測(cè)任務(wù)。
11月底,團(tuán)隊(duì)發(fā)布了一個(gè)名為CheXNeXt的X光診斷算法。與曾經(jīng)的肺炎檢測(cè)專門算法不同,該模型可以診斷14種疾病,包括肺炎、胸腔積液、肺腫塊等等。在其中10種疾病的診斷上,AI都與人類放射科醫(yī)生的表現(xiàn)相當(dāng),還有一種超過了人類。并且,AI的診斷速度是人類的160倍。團(tuán)隊(duì)說,這樣的算法有希望填補(bǔ)醫(yī)療資源的短缺,也可以用來(lái)減少人類醫(yī)生因?yàn)槠诙鴮?dǎo)致的診斷錯(cuò)誤。
11月28日,團(tuán)隊(duì)宣布在《公共科學(xué)圖書館》期刊發(fā)表關(guān)于膝關(guān)節(jié)磁共振成像的深度學(xué)習(xí)輔助診斷的最新研究。該團(tuán)隊(duì)表示,他們開發(fā)了一種算法來(lái)預(yù)測(cè)膝關(guān)節(jié)核磁共振檢查中的異常,并測(cè)量了在解釋過程中向放射科醫(yī)師和外科醫(yī)生提供算法預(yù)測(cè)的臨床效用。
此外在年底的時(shí)候,吳恩達(dá)又發(fā)布了《AI 轉(zhuǎn)型指南》,面向公司管理層,介紹AI產(chǎn)業(yè)轉(zhuǎn)型的一些方法。
2019年年初,也就是前不久,他們斯坦福團(tuán)隊(duì)又在Nature Medicine上發(fā)表了一項(xiàng)研究,開發(fā)了一種深度神經(jīng)網(wǎng)絡(luò),可基于單導(dǎo)程 ECG 信號(hào)分類 10 種心率不齊以及竇性心律和噪音,性能堪比心臟病醫(yī)生,準(zhǔn)確度高達(dá)83.7%,超過了人類心臟病醫(yī)生的78.0%。
Ian Goodfellow,人工智能領(lǐng)域的頂級(jí)專家,因提出了生成對(duì)抗網(wǎng)絡(luò)(GANs)而聞名,被譽(yù)為“GANs之父”。他從斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士、碩士學(xué)位以及博士學(xué)位。畢業(yè)后,Goodfellow加入Google,成為Google Brain研究團(tuán)隊(duì)的一員。然后他離開谷歌加入新成立的OpenAI研究所。Ian Goodfellow 在OpenAI短暫工作后,于2017年3月從OpenAI重回谷歌Goodfellow最出名的是發(fā)明了生成性對(duì)抗網(wǎng)絡(luò),這是Facebook經(jīng)常使用的機(jī)器學(xué)習(xí)方法。他也是Deep Learning教科書的主要作者。2017年,Goodfellow被麻省理工學(xué)院技術(shù)評(píng)論評(píng)為35位35歲以下的創(chuàng)新者之一。
2018年年初,William Fedus、Ian Goodfellow和Andrew M. Dai在ICLR 2018共同提交的論文中使用 GAN 和強(qiáng)化學(xué)習(xí)方法在 NLP 中做了自己的探索(https://arxiv.org/abs/1801.07736)
2018年7月,Ian等人提出一種新型對(duì)抗攻擊(對(duì)抗攻擊通常會(huì)使得神經(jīng)網(wǎng)絡(luò)分類錯(cuò)誤),對(duì)神經(jīng)網(wǎng)絡(luò)重新編程,誘導(dǎo)模型執(zhí)行攻擊者選定的新任務(wù)。該研究首次表明了神經(jīng)網(wǎng)絡(luò)驚人的脆弱性和靈活性。(https://arxiv.org/pdf/1806.11146.pdf )。
8月的一篇論文中,和Augustus Odena共同提出了一種新方法覆蓋引導(dǎo)模糊測(cè)試(coverage guided fuzzing,CGF),將其應(yīng)用于神經(jīng)網(wǎng)絡(luò)的測(cè)試(https://arxiv.org/pdf/1808.02822.pdf ),該方法能夠自動(dòng)Debug神經(jīng)網(wǎng)絡(luò)。Goodfellow表示,希望這將成為涉及ML的復(fù)雜軟件回歸測(cè)試的基礎(chǔ),例如,在推出新版本的網(wǎng)絡(luò)之前,使用fuzz來(lái)搜索新舊版本之間的差異。此外開源了名為TensorFuzz的CGF軟件庫(kù)。
此外,Ian與團(tuán)隊(duì)的人提出對(duì)抗正則化方法(https://arxiv.org/pdf/1807.07543v2.pdf )顯著改善了自編碼器的平滑插值能力,這不僅能提高自編碼器的泛化能力,對(duì)于后續(xù)任務(wù)的表征學(xué)習(xí)也會(huì)大有幫助。
何愷明,2003年廣東9名高考狀元之一,本科就讀于清華大學(xué)。博士畢業(yè)于香港中文大學(xué)多媒體實(shí)驗(yàn)室,研究生導(dǎo)師為湯曉鷗。 何愷明與他的同事開發(fā)了深度殘余網(wǎng)絡(luò)(ResNets),目前是計(jì)算機(jī)視覺領(lǐng)域的流行架構(gòu)。ResNet也被用于機(jī)器翻譯、語(yǔ)音合成、語(yǔ)音識(shí)別和AlphaGo的研發(fā)上。
2009年,何愷明成為首獲計(jì)算機(jī)視覺領(lǐng)域三大國(guó)際會(huì)議之一CVPR“最佳論文獎(jiǎng)”的中國(guó)學(xué)者。 何愷明作為第一作者獲得了CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)的最佳論文獎(jiǎng),并獲得了ICCV 2017最佳學(xué)生論文獎(jiǎng)。
2017年4月,何愷明獲選香港中文大學(xué)(中大)工程學(xué)院杰出校友。
進(jìn)入FAIR部門之后,何愷明的動(dòng)向一直備受關(guān)注,在3月份左右,他和FAIR 研究工程師吳育昕提出了組歸一化(Group Normalization)方法,試圖以小批尺寸實(shí)現(xiàn)快速神經(jīng)網(wǎng)絡(luò)訓(xùn)練,這種方法對(duì)于硬件的需求大大降低,并在實(shí)驗(yàn)中超過了傳統(tǒng)的批歸一化方法。這篇論文也獲得了ECCV 2018最佳論文(2018年9月13日,ECCV 2018 獲獎(jiǎng)?wù)撐墓?,吳育昕與何愷明合作的《Group Normalization》獲得了最佳論文榮譽(yù)提名獎(jiǎng)。)
6月19日,CVPR 2018獎(jiǎng)項(xiàng)出爐,何愷明獲得本屆大會(huì)的 PAMI 年輕學(xué)者獎(jiǎng)。
8月份的時(shí)候,何愷明等多名研究者發(fā)表了一項(xiàng)獨(dú)特的遷移學(xué)習(xí)研究,無(wú)需數(shù)據(jù)清洗和手工標(biāo)記數(shù)據(jù),通過訓(xùn)練大型卷積網(wǎng)絡(luò)可以預(yù)測(cè)數(shù)十億社交媒體圖像的hashtag,在圖像分類和目標(biāo)檢測(cè)任務(wù)上都得到了迄今最高的精度。
11月22日,何愷明等人在arxiv貼出一篇重磅論文,題為《Rethinking ImageNet Pre-training》,表明ImageNet 預(yù)訓(xùn)練模型并非必須,ImageNet 能做的只是加速收斂,對(duì)最終物體檢測(cè)的精度或?qū)嵗指畹男阅懿o(wú)幫助。
陳天奇,華盛頓大學(xué)計(jì)算機(jī)系博士生,研究方向?yàn)榇笠?guī)模機(jī)器學(xué)習(xí)。他曾獲得 KDD CUP 2012 Track 1 第一名,并開發(fā)了 SVDFeature,XGBoost,cxxnet 等著名機(jī)器學(xué)習(xí)工具,是 Distributed (Deep) Machine Learning Common 的發(fā)起人之一。
2018年5月份,陳天奇以及上海交通大學(xué)和復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出一個(gè)基于學(xué)習(xí)的框架(https://arxiv.org/pdf/1805.08166.pdf ),以優(yōu)化用于深度學(xué)習(xí)工作負(fù)載的張量程序。該研究使用基于機(jī)器學(xué)習(xí)的方法來(lái)自動(dòng)優(yōu)化張量運(yùn)算核心并編譯AI工作負(fù)載,從而可以將最優(yōu)的性能部署到所有硬件。實(shí)驗(yàn)結(jié)果表明,該框架能夠?yàn)榈凸腃PU,移動(dòng)GPU和服務(wù)器級(jí)GPU提供與最先進(jìn)手工調(diào)優(yōu)庫(kù)相媲美的性能。
7月12日,陳天奇團(tuán)隊(duì)推出 Versatile Tensor Accelerator(VTA),這是一種開放、通用、可定制的深度學(xué)習(xí)加速器。VTA是一種可編程加速器,提供了 RISC風(fēng)格的編程抽象來(lái)描述張量級(jí)的操作。VTA的設(shè)計(jì)體現(xiàn)了主流深度學(xué)習(xí)加速器最突出和最常見的一些特征,比如張量操作、DMA加載 /存儲(chǔ)和顯式的計(jì)算 /內(nèi)存調(diào)節(jié)。
DeepMind位于英國(guó)倫敦,是由人工智能程序師兼神經(jīng)科學(xué)家戴密斯·哈薩比斯(Demis Hassabis)等人聯(lián)合創(chuàng)立,是前沿的人工智能企業(yè),其將機(jī)器學(xué)習(xí)和系統(tǒng)神經(jīng)科學(xué)的最先進(jìn)技術(shù)結(jié)合起來(lái),建立強(qiáng)大的通用學(xué)習(xí)算法。最初成果主要應(yīng)用于模擬、電子商務(wù)、游戲開發(fā)等商業(yè)領(lǐng)域。谷歌于2014年收購(gòu)了該公司。目前,Google 旗下的 DeepMind 已經(jīng)成為 AI 領(lǐng)域的明星。
2018年2月27日,Deepmind提出了命名為“獨(dú)角獸(Unicorn)”的智能體架構(gòu),它展示出優(yōu)秀的持續(xù)學(xué)習(xí)能力,已經(jīng)勝過很多基準(zhǔn)智能體。研究人員表示,獨(dú)角獸通過利用并行的off-policy學(xué)習(xí)策略,統(tǒng)一表示和學(xué)習(xí)多種策略,才達(dá)到了這樣的表現(xiàn)。
7月28日,發(fā)表的論文《Machine Theory of Mind》中,研究人員提出了一種新型神經(jīng)網(wǎng)絡(luò) ToMnet,具備理解自己以及周圍智能體心理狀態(tài)的能力。該論文已被 ICML 2018 接收為 Oral 論文。
8月13日,與倫敦 Moorfields 眼科醫(yī)院合作,已經(jīng)訓(xùn)練其算法能夠檢測(cè)出超過 50 種威脅視力的病癥,其準(zhǔn)確度與專家臨床醫(yī)生相同。它還能夠?yàn)榛颊哒_推薦最合適的行動(dòng)方案,并優(yōu)先考慮那些最迫切需要護(hù)理的人。
10月,發(fā)表了一篇題為《Do Deep Generative Models Know What They Don't Know?》(https://arxiv.org/abs/1810.09136?context=stat.ML )的論文。該論文提出,過去學(xué)界普遍認(rèn)為神經(jīng)網(wǎng)絡(luò)在面對(duì)和訓(xùn)練數(shù)據(jù)分布不同的數(shù)據(jù)時(shí)容易產(chǎn)生錯(cuò)誤的預(yù)測(cè),而生成模型則在這個(gè)問題上魯棒性更強(qiáng)。不過他們發(fā)現(xiàn)基于流程的模型,VAE和PixelCNN的模型密度無(wú)法區(qū)分常見物體。
11月14日,宣布旗下的健康部門DeepMind Health、以及負(fù)責(zé)推進(jìn)“Streams”(幫助醫(yī)生更快識(shí)別和診斷患者病情的移動(dòng)APP)團(tuán)隊(duì)將調(diào)整合并到Google 最新成立的“Google Health”部門中。原子公司DeepMind Health將不再作為獨(dú)立品牌存在,但是,DeepMind的其他部門仍將保持獨(dú)立。
11月16日,DeepMind表示其與英國(guó)眼科醫(yī)院Moorfields合作的人工智能醫(yī)療研究項(xiàng)目已進(jìn)入下一階段。該項(xiàng)目旨在探索人工智能技術(shù)在眼部疾病診療方面的應(yīng)用。8月時(shí)DeepMind發(fā)布了該項(xiàng)目的第一批結(jié)果,該結(jié)果表明人工智能可以與專家人類醫(yī)生的表現(xiàn)相匹配,為50多種眼病的正確療程提供建議。DeepMind表示,基于這項(xiàng)研究成果,該項(xiàng)目已經(jīng)進(jìn)行到下一個(gè)研究階段,在癥狀出現(xiàn)之前預(yù)測(cè)眼病和預(yù)防嚴(yán)重疾病。
12月5日,DeepMind宣布推出全新的AlphaFold系統(tǒng),能夠預(yù)測(cè)并生成蛋白質(zhì)的3D結(jié)構(gòu)。這一系統(tǒng)在國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上擊敗了其余的參會(huì)選手。
12月,ICLR 2019 接收論文名單放出,DeepMind & Google 的唇讀技術(shù)論文《LARGE-SCALE VISUAL SPEECH RECOGNITION》(https://openreview.net/pdf?id=HJxpDiC5tX )未被接收。評(píng)審們認(rèn)為即使它在工程上和數(shù)據(jù)上都非常突出,但大模型加上大數(shù)據(jù)會(huì)提升性能是共識(shí),這類改進(jìn)不能被看作是貢獻(xiàn)。
今年年初,DeepMind和牛津大學(xué)提出了注意力神經(jīng)過程。研究者認(rèn)為,神經(jīng)過程(NP)存在著一個(gè)根本的不足——欠擬合,對(duì)其所依據(jù)的觀測(cè)數(shù)據(jù)的輸入給出了不準(zhǔn)確的預(yù)測(cè)。他們通過將注意力納入NP來(lái)解決這個(gè)問題,允許每個(gè)輸入位置關(guān)注預(yù)測(cè)的相關(guān)上下文點(diǎn)。研究表明,這大大提高了預(yù)測(cè)的準(zhǔn)確性,顯著加快了訓(xùn)練速度,并擴(kuò)大了可以建模的函數(shù)范圍。
Google Brain是谷歌的人工智能研究小組,由Jeff Dean, Greg Corrado和Andrew Ng共同成立。成立于2011年的谷歌大腦,目前有正式成員48名,團(tuán)隊(duì)負(fù)責(zé)人是傳奇人物Jeff Dean。在這個(gè)團(tuán)隊(duì)中,還包括部分供職的泰斗級(jí)人物Geoffrey E. Hinton,以及Martín Abadi、Michael Burrows等資深科學(xué)家。另外,谷歌首席科學(xué)家Vincent Vanhoucke也在谷歌大腦團(tuán)隊(duì)中。
2018年2月,Ilya Tolstikhin 等人提出了生成模型新算法:Wasserstein 自編碼器,其不僅具有VAE的一些優(yōu)點(diǎn),更結(jié)合了GAN結(jié)構(gòu)的特性,可以實(shí)現(xiàn)更好的性能。該研究的論文《Wasserstein Auto-Encoders》(https://arxiv.org/abs/1711.01558 )被在 4 月 30 日于溫哥華舉行的 ICLR 2018 大會(huì)接收。
2018年4月,谷歌架構(gòu)調(diào)整。谷歌大腦(Google Brain)聯(lián)合創(chuàng)始人杰夫·迪恩(Jeff Dean)將領(lǐng)導(dǎo)谷歌所有人工智能領(lǐng)域的項(xiàng)目。
在5月份的ICLR 2018中,和卡內(nèi)基梅隆大學(xué)的研究者提出一種新型問答模型 QANet (https://openreview.net/pdf?id=B14TlG-RW ),該模型去除了該領(lǐng)域此前常用的循環(huán)神經(jīng)網(wǎng)絡(luò)部分,僅使用卷積和自注意力機(jī)制,性能大大優(yōu)于此前最優(yōu)的模型。
來(lái)自谷歌大腦的研究者在arXiv上發(fā)表論文(https://arxiv.org/abs/1805.09501 ),提出一種自動(dòng)搜索合適數(shù)據(jù)增強(qiáng)策略的方法 AutoAugment,該方法創(chuàng)建一個(gè)數(shù)據(jù)增強(qiáng)策略的搜索空間,利用搜索算法選取適合特定數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)策略。此外,從一個(gè)數(shù)據(jù)集中學(xué)到的策略能夠很好地遷移到其它相似的數(shù)據(jù)集上。
8月初,同柏林工業(yè)大學(xué)的研究人員在最新發(fā)表的論文Backprop Evolution (https://arxiv.org/pdf/1808.02822.pdf ),提出一種自動(dòng)發(fā)現(xiàn)反向傳播方程新變體的方法。該方法發(fā)現(xiàn)了一些新的方程,訓(xùn)練速度比標(biāo)準(zhǔn)的反向傳播更快,訓(xùn)練時(shí)間也更短。
Ian等人還提出了對(duì)抗正則化方法(https://arxiv.org/pdf/1807.07543v2.pdf )顯著改善了自編碼器的平滑插值能力,這不僅能提高自編碼器的泛化能力,對(duì)于后續(xù)任務(wù)的表征學(xué)習(xí)也會(huì)大有幫助。
此外,Ian和Augustus Odena共同提出了一種新方法覆蓋引導(dǎo)模糊測(cè)試(coverage guided fuzzing,CGF),將其應(yīng)用于神經(jīng)網(wǎng)絡(luò)的測(cè)試(https://arxiv.org/pdf/1808.02822.pdf ),該方法能夠自動(dòng)Debug神經(jīng)網(wǎng)絡(luò)。Goodfellow表示,希望這將成為涉及ML的復(fù)雜軟件回歸測(cè)試的基礎(chǔ),例如,在推出新版本的網(wǎng)絡(luò)之前,使用fuzz來(lái)搜索新舊版本之間的差異。此外開源了名為TensorFuzz的CGF軟件庫(kù)。
在11月的時(shí)候公開了一篇論文“Simple, Distributed, and Accelerated Probabilistic Programming”(https://arxiv.org/pdf/1811.02091v1.pdf ),發(fā)表于NIPS 2018。論文提出了一種簡(jiǎn)單的方法,用于將概率編程嵌入到深度學(xué)習(xí)生態(tài)系統(tǒng)。這種簡(jiǎn)單分布式、加速的概率編程,可以將概率程序擴(kuò)展到512個(gè)TPUv2、1億+參數(shù)的模型。
年底的NeurIPS 2018上,密歇根大學(xué)和谷歌大腦的研究人員提出了一種新的面向NLP任務(wù)的機(jī)器學(xué)習(xí)新架構(gòu)(https://papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf ),不僅能夠根據(jù)給定的實(shí)例生成句子,而且能夠在保留句子意思的情況下,改變句子表達(dá)的感情、時(shí)態(tài)、復(fù)雜度等屬性。
今年初,CMU聯(lián)合谷歌大腦、谷歌 AI 發(fā)表了一篇論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(https://arxiv.org/pdf/1901.02860v1.pdf )。Transformer 網(wǎng)絡(luò)具有學(xué)習(xí)更長(zhǎng)期依賴性的潛力,但這種潛力往往會(huì)受到語(yǔ)言建模中上下文長(zhǎng)度固定的限制。在此論文中,研究人員提出了一種叫做 Transformer-XL 的新神經(jīng)架構(gòu)來(lái)解決這一問題,它可以在不破壞時(shí)間一致性的情況下,讓 Transformer 超越固定長(zhǎng)度學(xué)習(xí)依賴性。
五年前,Yann Lecun創(chuàng)立了 Facebook 人工智能研究院(FAIR),旨在通過開放研究推進(jìn)人工智能的發(fā)展,并惠及所有人。FAIR 的目標(biāo)是理解智能的本質(zhì),以創(chuàng)造真正的智能機(jī)器。自此以后,F(xiàn)AIR 不斷發(fā)展,并成長(zhǎng)為一個(gè)國(guó)際研究組織,在門洛帕克、紐約、巴黎、蒙特利爾、特拉維夫、西雅圖、匹茲堡、倫敦都設(shè)有實(shí)驗(yàn)室。人工智能已經(jīng)成為 Facebook 的核心,因此 FAIR 現(xiàn)在是更大的 Facebook AI 組織的組成部分,該組織致力于人工智能研發(fā)的各個(gè)方面,從基礎(chǔ)研究到應(yīng)用研究和技術(shù)開發(fā)。
FAIR團(tuán)隊(duì)經(jīng)常早早地發(fā)布前沿研究成果,并盡可能地開源研究代碼、數(shù)據(jù)集和工具(如 PyTorch、fastText、FAISS、Detectron)。這種方法也成功地推動(dòng)了人工智能的研究發(fā)展。今年,F(xiàn)AIR 的研究人員已經(jīng)獲得了廣泛認(rèn)可,在 ACL、EMNLP、CVPR、ECCV 等大會(huì)獲得了最佳論文獎(jiǎng),在 ECCV、ICML 和 NeurIPS 會(huì)議上獲得了時(shí)間檢驗(yàn)獎(jiǎng)(Test of Time award)。開放的工作可以讓每個(gè)人在人工智能領(lǐng)域取得更快的進(jìn)步。
4月初,F(xiàn)AIR 研究人員提出兩種機(jī)器翻譯模型的變體,一種是神經(jīng)模型,另一種是基于短語(yǔ)的模型。研究者結(jié)合了近期提出的兩種無(wú)監(jiān)督方法,并簡(jiǎn)化了結(jié)構(gòu)和損失函數(shù),得出的新模型性能更優(yōu),且易于訓(xùn)練和調(diào)參。
5月13日,開源了圍棋 AI ELF OpenGo訓(xùn)練模型及代碼,它基于現(xiàn)有的強(qiáng)化學(xué)習(xí)研究平臺(tái) ELF,擊敗了世界圍棋冠軍。
6月19日,F(xiàn)AIR開源了 DensePose,這是一個(gè)能將人體所有像素的 2D RGB 圖像實(shí)時(shí)映射到 3D 人體模型的應(yīng)用。這一模型利用 COCO 數(shù)據(jù)集中 50K 張密集型人體對(duì)應(yīng)關(guān)系的標(biāo)注,并在有遮擋和尺度變換等自然情況下能準(zhǔn)確實(shí)現(xiàn)密集型人體姿態(tài)估計(jì)。
11月初,F(xiàn)AIR 和紐約大學(xué)的研究者合作開發(fā)了一個(gè)新的自然語(yǔ)言推斷語(yǔ)料庫(kù) XNLI,該語(yǔ)料庫(kù)將 MultiNLI 的測(cè)試集和開發(fā)集擴(kuò)展到 15 種語(yǔ)言,包括斯瓦西里語(yǔ)和烏爾都語(yǔ)等低資源語(yǔ)言。XNLI 是跨語(yǔ)言句子理解的基準(zhǔn),實(shí)際可用且具備一定難度,有助于帶來(lái)更好的跨語(yǔ)言理解方法。
在年底,F(xiàn)AIR宣布推出 PyText 的開源版本,它是Facebook正在使用的主要自然語(yǔ)言處理(NLP)建模框架,目前每天在為 Facebook 及其應(yīng)用程序系列的用戶提供超過 10 億次 AI 任務(wù)處理;同時(shí)FAIR開源了全卷積語(yǔ)音識(shí)別工具包wav2letter++。
今年年初,F(xiàn)AIR Alexander Kirillov、何愷明等人在《Panoptic Feature Pyramid Networks》(http://cn.arxiv.org/pdf/1901.02446v1 )提出全景特征金字塔網(wǎng)絡(luò)。該論文提出的全景特征金字塔網(wǎng)絡(luò)結(jié)合了分別用于語(yǔ)義分割和實(shí)例分割的 FCN 和 Mask R-CNN,在兩種任務(wù)基線上有很好的穩(wěn)健性和準(zhǔn)確率。
MIT的CSAIL最初是兩個(gè)實(shí)驗(yàn)室:計(jì)算機(jī)實(shí)驗(yàn)室創(chuàng)辦于1963年,人工智能實(shí)驗(yàn)室創(chuàng)辦于1959年,兩個(gè)實(shí)驗(yàn)室在2003年正式合并。CSAIL是MIT最大的實(shí)驗(yàn)室,也是世界上最重要的信息技術(shù)研發(fā)中心。CSAIL的成員創(chuàng)立了多于100家知名公司,包括機(jī)器人之父科林·安格爾,iRobot公司創(chuàng)始人之一海倫·格雷納,波士頓動(dòng)力公司創(chuàng)始人馬克·雷伯特,還有卡內(nèi)基·梅隆大學(xué)機(jī)器人研究所的負(fù)責(zé)人馬特·梅森。
4月初,CSAIL研發(fā)出一種名為Pixel Player系統(tǒng)(https://arxiv.org/abs/1804.03160 ),能夠通過大量無(wú)標(biāo)簽的視頻來(lái)學(xué)習(xí)聲音定位,更強(qiáng)大的是,Pixel Player能夠把聲音與聲源的像素點(diǎn)進(jìn)行分離,并完美做到視覺與聲音的同步,“想聽哪里點(diǎn)哪里”。同時(shí),利用Pixel Player系統(tǒng),用戶能夠?qū)D像中不同的聲音分別進(jìn)行音量調(diào)節(jié),實(shí)現(xiàn)簡(jiǎn)單的音頻編輯。
此外還提出了一款名為 RoadTracer 的道路采集系統(tǒng)。針對(duì)道路交匯路段,RoadTracer 的采集準(zhǔn)確率能達(dá)到 45%,遠(yuǎn)高于傳統(tǒng)圖像分割方法的 19%。
5月初,CSAIL1的研究人員開發(fā)了一種全新的系統(tǒng) MapLite,這種系統(tǒng)允許無(wú)人車在不依賴 3D 地圖的情況下,在未知的道路上駕駛。此外,該系統(tǒng)還能將 Google 地圖上的 GPS 數(shù)據(jù)與一系列傳感器收集到的路況信息結(jié)合起來(lái)。
7月,CSAIL和電子工程與計(jì)算機(jī)科學(xué)系( EECS )的研究人員開發(fā)了一種模型用于更有效的選擇先導(dǎo)分子。該模型輸入分子結(jié)構(gòu)數(shù)據(jù),創(chuàng)建分子圖片,詳細(xì)展示分子結(jié)構(gòu),節(jié)點(diǎn)代表原子,邊線代表化學(xué)鍵。這些圖又被分解成更小的有效官能團(tuán)簇,成為“構(gòu)件”,用于實(shí)現(xiàn)更精確的分子重構(gòu)和修飾。
8月,CSAIL正式發(fā)布編程語(yǔ)言Julia 1.0,這門由MIT CSAIL 實(shí)驗(yàn)室開發(fā)的編程語(yǔ)言結(jié)合了 C 語(yǔ)言的速度、Ruby 的靈活、Python 的通用性,以及其他各種語(yǔ)言的優(yōu)勢(shì)于一身,并且具有開源、簡(jiǎn)單易掌握的特點(diǎn)。
10月4日,CSAIL和QRCI(卡塔爾計(jì)算研究所)宣布研究出一種可以識(shí)別虛假新聞在傳播前的來(lái)源和個(gè)人政治偏見的AI系統(tǒng)。他們所使用的機(jī)器學(xué)習(xí)算法利用現(xiàn)有文章集合來(lái)衡量給定出口的準(zhǔn)確性和偏差,該系統(tǒng)或可將不可信賴的新聞信息自動(dòng)分類。
在12月發(fā)表的論文《Deep sequential models for sampling-based planning》(https://arxiv.org/abs/1810.00804 )中,研究人員展示了他們的模型在兩個(gè)環(huán)境中的優(yōu)勢(shì):通過具有陷阱和狹窄通道的具有挑戰(zhàn)性的房間導(dǎo)航,以及在避免與其他Agent碰撞的區(qū)域?qū)Ш?。一個(gè)有前途的現(xiàn)實(shí)世界應(yīng)用程序正在幫助自動(dòng)駕駛汽車在十字路口行駛,在那里他們必須在并入交通之前快速評(píng)估其他汽車將做什么。目前,研究人員正通過豐田凱撒爾聯(lián)合研究中心來(lái)研究這些應(yīng)用。
NeurIPS 2018中,CSAIL和谷歌的研究人員發(fā)表了一篇論文,描述了一個(gè)能夠生成具有逼真紋理的人工智能系統(tǒng)——視覺對(duì)象網(wǎng)絡(luò)(Visual Object Networks,VON),不僅生成的圖像比當(dāng)前最先進(jìn)的方法還要逼真,還可以進(jìn)行形狀和紋理編輯、視角轉(zhuǎn)換以及其它3D調(diào)整。
加州大學(xué)伯克利分校的人工智能研究室(Berkeley Artificial Intelligence Research)主要研究領(lǐng)域涵蓋計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、規(guī)劃和機(jī)器人等(computer vision,machine learning,natural language processing, planning, and robotics)。其中的機(jī)器人和智能機(jī)器實(shí)驗(yàn)室,致力于用機(jī)器人復(fù)制動(dòng)物的行為。其自動(dòng)化科學(xué)和工程實(shí)驗(yàn)室從事更廣泛的機(jī)器人功能的研究,如機(jī)器人輔助外科手術(shù)和自動(dòng)化制造。還有計(jì)算機(jī)可視化小組,學(xué)生可以學(xué)到如何幫助機(jī)器人能“看得見”。
4月的時(shí)候,BAIR介紹了他們對(duì)于運(yùn)動(dòng)建模的最新研究成果DeepMimic模型,他們使用動(dòng)作捕捉片段訓(xùn)練自己的模型。訓(xùn)練中著力減小跟蹤誤差并采用提前終止的方法來(lái)優(yōu)化訓(xùn)練結(jié)果。訓(xùn)練模型最終表現(xiàn)優(yōu)秀。
6月,BAIR發(fā)表博客論文《Delayed Impact of Fair Machine Learning》,討論了靜態(tài)公平性準(zhǔn)則的長(zhǎng)期影響,發(fā)現(xiàn)結(jié)果和人們的期望相差甚遠(yuǎn)。相關(guān)論文被 ICML 2018 大會(huì)接收(https://arxiv.org/pdf/1803.04383.pdf )。
6月的時(shí)候還發(fā)布了迄今為止規(guī)模最大、最多樣化的開放駕駛視頻數(shù)據(jù)集BDD100K。該數(shù)據(jù)集共包含 10 萬(wàn)個(gè)視頻,BAIR 研究者在視頻上采樣關(guān)鍵幀,并為這些關(guān)鍵幀提供注釋。此外,BAIR 還將在 CVPR 2018 自動(dòng)駕駛 Workshop 上基于其數(shù)據(jù)舉辦三項(xiàng)挑戰(zhàn)賽。
10月18日,BAIR開源了DeepMimic(https://xbpeng.github.io/projects/DeepMimic/index.html )。DeepMimic使用強(qiáng)化學(xué)習(xí)技術(shù),用動(dòng)作捕捉片段訓(xùn)練模型,教會(huì)了AI智能體完成24種動(dòng)作,包括翻跟斗、側(cè)翻跳、投球、高踢腿等等,動(dòng)作非常流暢自然。
BAIR的研究人員還提出了一種從視頻中學(xué)習(xí)技能的框架(skills from videos,SFV),結(jié)合了前沿的計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建的系統(tǒng)可以從視頻中學(xué)習(xí)種類繁多的技能,包括后空翻和很滾翻等高難度動(dòng)作。同時(shí)智能體還學(xué)會(huì)了在仿真物理環(huán)境中復(fù)現(xiàn)這些技能的策略,而無(wú)需任何的手工位姿標(biāo)記。
BAIR年末的一篇《Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control》(https://arxiv.org/abs/1812.00568 )論文中,提出了一種自我監(jiān)督的基于模型的方法,在這種方法中,預(yù)測(cè)模型學(xué)習(xí)直接從原始感官讀數(shù)(如攝像機(jī)圖像)預(yù)測(cè)未來(lái),證明了可視化MPC可以概括為從未見過的對(duì)象并使用相同的模型解決一系列用戶定義的對(duì)象操作任務(wù)。
加拿大蒙特利爾現(xiàn)在被媒體稱作是人工智能的“新硅谷”。加拿大廣播公司報(bào)道說,這個(gè)功勞,主要?dú)w功于“深度學(xué)習(xí)三巨頭”之一的Yoshua Bengio。他是MILA(Montreal Institute for Learning Algorithms)的創(chuàng)始人,帶領(lǐng)團(tuán)隊(duì)進(jìn)行人工智能研究已經(jīng)有超過10年的時(shí)間。由蒙特利爾大學(xué) (University of Montreal )的計(jì)算機(jī)學(xué)教授Yoshua Bengio帶領(lǐng),MILA在深度學(xué)習(xí)(deep learning)和深度神經(jīng)網(wǎng)絡(luò)(辨別型和生成型)(deep neural networks, both discriminative and generative)等領(lǐng)域都有開創(chuàng)性研究,并應(yīng)用到視覺、語(yǔ)音和語(yǔ)言方面等領(lǐng)域。
4月,MILA提出了一種有助于提升深度網(wǎng)絡(luò)在應(yīng)對(duì)對(duì)抗攻擊方面的穩(wěn)健性的模型:防御增強(qiáng)型網(wǎng)絡(luò)(Fortified Networks)。該研究已提交 ICML 2018 (https://arxiv.org/abs/1804.02485v1 )。
10月,Yoshua Bengio及其小組提出了一個(gè)叫做「BabyAI」的研究平臺(tái)用來(lái)訓(xùn)練人工智能從頭學(xué)習(xí)和理解人類語(yǔ)言,每個(gè)單詞背后的意思到底是什么。該平臺(tái)包括一個(gè)有效模擬的網(wǎng)格世界環(huán)境(MiniGrid)和一些被稱之為L(zhǎng)evel的指令跟隨任務(wù),全部由合成語(yǔ)言的子集(嬰兒語(yǔ)言)形成。平臺(tái)還提供了一個(gè)模擬人類的啟發(fā)式專家,用于模擬人類教師。
去年一年里,SAIL所獲得的最佳論文:
Yuanzhi Li, Tengyu Ma, Hongyang Zhang. Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations. Best paper award at COLT 2018.
在論文中探討了了梯度下降法為訓(xùn)練過參數(shù)化的矩陣分解模型,以及使用二次函數(shù)作為激活函數(shù) 的單隱含層神經(jīng)網(wǎng)絡(luò)提供了隱式的正則化效果。
Pranav Rajpurkar, Robin Jia, Percy Liang. Know What You Don’t Know : Unanswerable Questions for SQuAD.. Best short paper ACL 2018.
在這篇論文中,SAIL提供了SQuAD 2.0,這是斯坦福問答數(shù)據(jù)集(SQuAD)的最新版本。SQuAD 2.0將現(xiàn)有的SQuAD數(shù)據(jù)與5萬(wàn)多個(gè)無(wú)法回答的問題結(jié)合在一起,這些問題由眾包人員以相反的方式撰寫,看起來(lái)與可回答問題類似。為了在SQuAD 2.0上取得好成績(jī),系統(tǒng)不僅必須盡可能回答問題,還要確定何時(shí)段落不支持答案并且不回答問題。SQuAD 2.0對(duì)于現(xiàn)有模型來(lái)說是一個(gè)具有挑戰(zhàn)性的自然語(yǔ)言理解任務(wù):在SQuAD 1.1上獲得86% F1的強(qiáng)大的神經(jīng)系統(tǒng)在SQuAD 2.0上僅獲得66%F1。
Rob Voigt, Nicholas P. Camp, Vinodkumar Prabhakaran, William L. Hamilton, Rebecca C. Hetey, Camilla M. Griffiths, David Jurgens, Dan Jurafsky, and Jennifer L. Eberhardt. Language from police body camera footage shows racial disparities in officer respect. Cozzarrelli Prize (best paper in PNAS).
這篇論文利用隨身攜帶的攝像機(jī)拍攝的錄像,分析了警察語(yǔ)言在日常交通中對(duì)白人和黑人社區(qū)成員的尊重程度,發(fā)現(xiàn)即使在控制了警察的種族、違法行為的嚴(yán)重程度、停車地點(diǎn)和停車結(jié)果之后,警察對(duì)黑人和白人社區(qū)成員的尊重程度也一直較低。
Amir Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese. Taskonomy:Disentangling Task Transfer Learning. Best paper award at CVPR 2018.
這篇論文提出了一種計(jì)算不同任務(wù)相似性的方法,以及利用不同任務(wù)相似性,在少量訓(xùn)練數(shù)據(jù)條件下進(jìn)行多任務(wù)組合學(xué)習(xí)的分配方法。文章的最終目標(biāo)是通過計(jì)算任務(wù)相似性,進(jìn)一步計(jì)算選取針對(duì)目標(biāo)任務(wù)的多任務(wù)組合進(jìn)行訓(xùn)練,并實(shí)現(xiàn)以少量數(shù)據(jù)盡可能接近全監(jiān)督學(xué)習(xí)的性能。
Zi Ye, Olga Diamanti, Chengcheng Tang, Leonidas Guibas, Tim Hoffmann. A unified discrete framework for intrinsic and extrinsic Dirac operators for geometry processing. 1st Place best paper award at SGP 2018.
本文考慮了一對(duì)離散的Dirac算子,后者對(duì)應(yīng)于每個(gè)面上定義了多邊形面和正態(tài)線的離散面,并證明了光滑理論的許多關(guān)鍵性質(zhì)。特別地,討論了相應(yīng)的自旋變換、它們的保角不變量以及這一算符與其內(nèi)在對(duì)應(yīng)算符之間的關(guān)系。
Jingwei Huang, Yichao Zhou, Matthias Nie?ner, Jonathan Shewchuk, Leonidas Guibas. QuadriFlow: A Scalable and Robust Method for Quadrangulation. 2nd Place best paper award at SGP 2018.
本文提出的算法是在Instant Field-Aligned Meshes 這篇文章的基礎(chǔ)提出的。本文提出了一種有效的方法,通過將實(shí)時(shí)網(wǎng)絡(luò)目標(biāo)與線性和二次約束系統(tǒng)相結(jié)合來(lái)最小化奇點(diǎn)。通過解決全局最小成本網(wǎng)絡(luò)流問題和本地布爾滿意度問題來(lái)實(shí)施這些約束。利用本文算法生成的四邊形質(zhì)量與其他方法一樣好,而且運(yùn)行速度較快。其他的外部算法產(chǎn)生的奇點(diǎn)比較慢,本文的算法花費(fèi)不到10秒鐘來(lái)處理每個(gè)模型。
Hongseok Namkoong, John Duchi. Variance-based Regularization with Convex Objectives. Best paper award at NIPS 2017.
這篇文章研究了一種風(fēng)險(xiǎn)最小化和隨機(jī)優(yōu)化的方法,該方法可以為方差提供一個(gè)凸屬性的替代項(xiàng),并允許在逼近和估計(jì)誤差間實(shí)現(xiàn)近似最優(yōu)與高效計(jì)算間的權(quán)衡。
卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)一直是眾所周知的計(jì)算機(jī)領(lǐng)域大牛。自人工智能(Artifical Intelligence)領(lǐng)域創(chuàng)建以來(lái),卡內(nèi)基梅隆大學(xué)一直在全球引領(lǐng)AI的研究、教育和創(chuàng)新。在18年秋季,其計(jì)算機(jī)學(xué)院開設(shè)全美第一個(gè)人工智能本科專業(yè)。
CMU團(tuán)隊(duì)最新的主要研究成果如下:
CMU的陳鑫磊(現(xiàn)Facebook 研究科學(xué)家)、Abhinav Gupta,谷歌的李佳、李飛飛等人提出的一種新型推理框架《Iterative Visual Reasoning Beyond Convolutions》(https://arxiv.org/abs/1803.11189 ),其探索空間和語(yǔ)義關(guān)系的推理性能大大超過了普通卷積神經(jīng)網(wǎng)絡(luò),被評(píng)為 CVPR 2018 大會(huì) Spotlight 論文。
年中時(shí)候,在讀博士劉寒驍、DeepMind 研究員 Karen Simonyan 以及 CMU 教授楊一鳴提出的「可微架構(gòu)搜索」DARTS 方法基于連續(xù)搜索空間的梯度下降,可讓計(jì)算機(jī)更高效地搜索神經(jīng)網(wǎng)絡(luò)架構(gòu)。該研究的論文《DARTS: Differentiable Architecture Search》(https://arxiv.org/abs/1806.09055 )一經(jīng)發(fā)出便引起了 Andrew Karpathy、Oriol Vinyals 等學(xué)者的關(guān)注。研究者稱,該方法已被證明在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)上都可以獲得業(yè)內(nèi)最優(yōu)的效果,而所用 GPU 算力有時(shí)甚至僅為此前搜索方法的 700 分之 1,這意味著單塊 GPU 也可以完成任務(wù)。
10月份的時(shí)候,來(lái)自英特爾實(shí)驗(yàn)室和卡內(nèi)基梅隆大學(xué)的研究員提出了一種用于序列建模的新架構(gòu)Trellis Network。研究員聲稱,Trellis Network吸收了循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)和算法元素。實(shí)驗(yàn)證明,Trellis Network在各種具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中表現(xiàn)都優(yōu)于當(dāng)前的技術(shù)水平,包括Penn Treebank和WikiText-103。
在今年年底,NIPS 2018 對(duì)抗視覺挑戰(zhàn)賽中, CMU 邢波團(tuán)隊(duì)包攬兩項(xiàng)冠軍,另一項(xiàng)冠軍則由來(lái)自加拿大的 LIVIA 團(tuán)隊(duì)斬獲,清華 TSAIL 團(tuán)隊(duì)獲得“無(wú)針對(duì)性攻擊”的亞軍。本次比賽共分為三個(gè)單元:防御、無(wú)針對(duì)性攻擊和有針對(duì)性攻擊。
CMU、北大和 MIT 的研究者在年底發(fā)表了論文《Gradient Descent Finds Global Minima of Deep Neural Networks》(https://arxiv.org/abs/1811.03804v1 ),該論文證明了對(duì)于具有殘差連接的深度超參數(shù)神經(jīng)網(wǎng)絡(luò)(ResNet),梯度下降可以在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)零訓(xùn)練損失。研究者的分析依賴于神經(jīng)網(wǎng)絡(luò)架構(gòu)引入的格拉姆矩陣的多項(xiàng)式結(jié)構(gòu)。這種結(jié)構(gòu)幫助研究者證明格拉姆矩陣在訓(xùn)練過程中的穩(wěn)定性,而且這種穩(wěn)定性意味著梯度下降算法的全局最優(yōu)性。
伊利諾伊大學(xué)厄巴納-香檳分校(University of Illinoisat Urbana-Champaign,縮寫為UIUC),建立于1867年,是一所享有世界聲望的一流研究型大學(xué)。該大學(xué)從美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)獲得研究經(jīng)費(fèi)量年年在全美名列第一。位於該大學(xué)的美國(guó)國(guó)家超級(jí)計(jì)算應(yīng)用中心(NCSA)在高性能計(jì)算、網(wǎng)路和資訊技術(shù)的研究和部署領(lǐng)域,一直處于世界領(lǐng)先的地位。
UIUC的最新研究成果如下:
來(lái)自北京郵電大學(xué)和UIUC的研究者們提出一種適用于密集人群計(jì)數(shù)的空洞卷積神經(jīng)網(wǎng)絡(luò)模型 CSRNet,論文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》(https://arxiv.org/pdf/1802.10062.pdf )。該網(wǎng)絡(luò)模型擺脫以往廣泛應(yīng)用于人群計(jì)數(shù)的多通道卷積網(wǎng)絡(luò)方案,在大幅削減網(wǎng)絡(luò)參數(shù)量和網(wǎng)絡(luò)訓(xùn)練難度的同時(shí),顯著提升了人群計(jì)數(shù)的精度和人群分布密度圖的還原度。該研究已被 CVPR 2018 接收。
UIUC 和 Zillow 的研究者發(fā)表《LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image》(https://arxiv.org/abs/1803.08999 )論文提出了 LayoutNet,它是一個(gè)僅通過單張透視圖或全景圖就能估算室內(nèi)場(chǎng)景 3D 布局的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)。該方法在全景圖上的運(yùn)行速度和預(yù)測(cè)精度比較好,在透視圖上的性能是最好的方案之一。該方法也能夠推廣到非長(zhǎng)方體的曼哈頓布局中,例如“L”形的房間。
極低照明度下,傳統(tǒng)增加亮度的方法會(huì)放大噪點(diǎn)和色彩失真。而 UIUC 和英特爾的研究者在《Learning to See in the Dark》(https://arxiv.org/abs/1805.01934 )中通過全卷積網(wǎng)絡(luò)處理這一類黑黑的照明度圖像,并在抑噪和保真的條件下將它們恢復(fù)到正常亮度。這種端到端的方法將為機(jī)器賦予強(qiáng)大的夜視能力,且還不需要額外的硬件。
聯(lián)系客服