李杉維金編譯自 Google Blog

量子位出品 | 公眾號 QbitAI

谷歌AI Senior Fellow、谷歌大腦負(fù)責(zé)人Jeff Dean，按照慣例，今天開始發(fā)布2017年度的谷歌大腦年度總結(jié)。

在這份已經(jīng)發(fā)布的總結(jié)中，Jeff Dean回顧了谷歌大腦團(tuán)隊過去一年的核心研究，以及在多個AI領(lǐng)域的研究進(jìn)展。

Jeff Dean還把相關(guān)研究的論文等一并附上，堪稱良心之作，值得收藏。

以下是最新發(fā)布的總結(jié)全文：

作為谷歌整體人工智能計劃的一部分，谷歌大腦團(tuán)隊致力于通過研究和系統(tǒng)工程，提升人工智能的技術(shù)水平。我們?nèi)ツ攴窒砹?016年的工作總結(jié)。從那以后，我們在提升機(jī)器智能這個長期研究項目上繼續(xù)取得進(jìn)展，并與谷歌和Alphabet的多個團(tuán)隊合作，使用我們的研究成果來改善人們的生活。

我們將為2017年撰寫兩篇總結(jié)文章，這是第一篇，包括我們的一些基礎(chǔ)研究工作，以及關(guān)于開源軟件、數(shù)據(jù)集和機(jī)器學(xué)習(xí)的新硬件的更新。第二篇文章的重點(diǎn)是探討我們針對機(jī)器學(xué)習(xí)能產(chǎn)生巨大影響的領(lǐng)域展開的深入研究，如醫(yī)療、機(jī)器人和一些基礎(chǔ)科學(xué)領(lǐng)域，以及我們在創(chuàng)造性、公平和包容等方面所作的工作，并讓你更加深入地了解我們。

核心研究

我們團(tuán)隊的一個研究重點(diǎn)是促進(jìn)我們的理解力和提高我們解決機(jī)器學(xué)習(xí)領(lǐng)域新問題的能力。以下是我們?nèi)ツ暄芯康膸状笾黝}。

AutoML

自動化機(jī)器學(xué)習(xí)的目標(biāo)是開發(fā)各種技術(shù)，讓計算機(jī)自動解決新的機(jī)器學(xué)習(xí)問題，而不需要人類機(jī)器學(xué)習(xí)專家逐一干預(yù)。如果我們有朝一日真的能有真正的智能系統(tǒng)，這就是我們所需的基本能力。

我們開發(fā)了利用強(qiáng)化學(xué)習(xí)和進(jìn)化算法設(shè)計神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的新方法。

AutoML在去年5月的2017 Google I/O開發(fā)者大會上首次正式發(fā)布。這個新方法意在讓讓神經(jīng)網(wǎng)絡(luò)去設(shè)計神經(jīng)網(wǎng)絡(luò)，谷歌希望能借AutoML來促進(jìn)深度學(xué)習(xí)開發(fā)者規(guī)模的擴(kuò)張，讓設(shè)計神經(jīng)網(wǎng)絡(luò)的人，從供不應(yīng)求的PhD，變成成千上萬的普通工程師。

在AutoML中，一個主控的神經(jīng)網(wǎng)絡(luò)可以提出一個“子”模型架構(gòu)，并用特定的任務(wù)來訓(xùn)練這個子模型，評估它的性能，然后，主控收到反饋，并根據(jù)反饋來改進(jìn)下一個提出的子模型。

這個過程，簡單來說就是：生成新架構(gòu)-測試-提供反饋供主控網(wǎng)絡(luò)學(xué)習(xí)。在重復(fù)上千次后，主控網(wǎng)絡(luò)學(xué)會了哪些架構(gòu)能夠在已知驗證集上得到更高的準(zhǔn)確率。

將此項工作擴(kuò)展到ImageNet最新分類和檢測結(jié)果中，并展示了如何自動學(xué)習(xí)新的優(yōu)化算法和有效的激活函數(shù)。我們正積極與我們的云人工智能團(tuán)隊合作，將這項技術(shù)提供給谷歌客戶使用，并繼續(xù)在多方面推動該研究。

去年11月，谷歌對AutoML進(jìn)行了升級。此前AutoML能設(shè)計出與人類設(shè)計的神經(jīng)網(wǎng)絡(luò)同等水平的小型神經(jīng)網(wǎng)絡(luò)，但始終被限制在CIFAR-10和Penn Treebank等小型數(shù)據(jù)集上。

為了讓這種方法應(yīng)用到ImageNet中，研究人員對AutoML做了兩點(diǎn)調(diào)整，方便更容易地處理大型數(shù)據(jù)集。

相關(guān)論文：

Neural Optimizer Search with Reinforcement Learning
https://arxiv.org/abs/1709.07417
Searching for Activation Functions
https://arxiv.org/abs/1709.07417

語音理解和生成

另一個主題是開發(fā)新技術(shù)，提高我們的計算系統(tǒng)在理解和生成人類語音方面的能力，包括我們與谷歌語音團(tuán)隊合作為一個端到端語音識別方法開發(fā)了一系列改進(jìn)措施，把谷歌語音識別系統(tǒng)的相對詞錯誤率降低了16%。這項工作有一個好處，那就是需要融合很多獨(dú)立的研究線索。

相關(guān)論文：

State-of-the-art Speech Recognition With Sequence-to-Sequence Models
https://arxiv.org/abs/1712.01769
Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models
https://arxiv.org/abs/1712.01818
Multi-Dialect Speech Recognition With A Single Sequence-To-Sequence Model
https://arxiv.org/abs/1712.01541
Multilingual Speech Recognition With A Single End-To-End Model
https://arxiv.org/abs/1711.01694
Improving the Performance of Online Neural Transducer Modele
https://arxiv.org/abs/1712.01807
Monotonic Chunkwise Attention
https://arxiv.org/abs/1712.05382
Learning Hard Alignments with Variational Inference
https://arxiv.org/abs/1705.05524
No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models
https://arxiv.org/abs/1712.01864
An analysis of incorporating an external language model into a sequence-to-sequence model
https://arxiv.org/abs/1712.01996

△Listen-Attend-Spell端到端語音識別模型的部件

我們還和谷歌機(jī)器感知團(tuán)隊合作，開發(fā)了一種進(jìn)行文字到語音生成的新方法：Tacotron 2。這種新方法極大地改進(jìn)了所生成語音的效果，模型達(dá)到的平均意見分（MOS）達(dá)到4.53，而你在有聲書里聽到的那些專業(yè)人類播音員，MOS也只有4.58，以前，計算機(jī)合成語音的最佳成績是4.34。

Tacotron 2合成音頻試聽：

https://google.github.io/tacotron/publications/tacotron2/index.html

△Tacotron 2模型架構(gòu)

新的機(jī)器學(xué)習(xí)算法和方法

我們繼續(xù)開發(fā)新穎的機(jī)器學(xué)習(xí)算法和方法，包括對capsules的研究（在執(zhí)行視覺任務(wù)時，明確地尋找激活功能協(xié)議，以此作為一種評估不同噪聲假設(shè)的方法）。

相關(guān)報道：Hinton的Capsule論文終于公開

相關(guān)論文：

Dynamic Routing between Capsules
https://research.google.com/pubs/pub46351.html

sparsely-gated mixtures of experts （這能實現(xiàn)仍然具有計算效率的大型模型）。

在這個研究中，新的神經(jīng)網(wǎng)絡(luò)層只需要很小的計算能力提升，便能高效地提升模型的能力。

相關(guān)論文：

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
https://arxiv.org/abs/1701.06538

hypernetworks（使用一個模型的權(quán)重來生成另一個模型的權(quán)重）。

相關(guān)論文：

HYPERNETWORKS
https://openreview.net/pdf?id=rkpACe1lx

新型多模模型（使用相同模型執(zhí)行音頻、視覺和文本輸入等多任務(wù)學(xué)習(xí)）。

相關(guān)報道：一個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一切！

相關(guān)論文：

One Model To Learn Them All
https://arxiv.org/abs/1706.05137

基于注意力的機(jī)制（代替卷積和循環(huán)模型）。

相關(guān)論文：

Attention is All You Need
https://arxiv.org/pdf/1706.03762.pdf

符號和非符號學(xué)習(xí)優(yōu)化方法。

相關(guān)論文：

Neural Optimizer Search with Reinforcement Learning
http://proceedings.mlr.press/v70/bello17a/bello17a.pdf
Learned Optimizers that Scale and Generalize
https://arxiv.org/abs/1703.04813

一項通過離散變量反向傳播的技術(shù)。

相關(guān)論文：

Categorical Reparameterization with Gumbel-Softmax
https://arxiv.org/abs/1611.01144

以及對強(qiáng)化學(xué)習(xí)算法的一些改進(jìn)。

相關(guān)論文：

Bridging the Gap Between Value and Policy Based Reinforcement Learning
https://arxiv.org/pdf/1702.08892.pdf

計算機(jī)系統(tǒng)的機(jī)器學(xué)習(xí)

在計算機(jī)系統(tǒng)中用機(jī)器學(xué)習(xí)取代傳統(tǒng)的啟發(fā)式應(yīng)用也是我們非常感興趣的方向。我們已經(jīng)展示了如何使用強(qiáng)化學(xué)習(xí)在把計算機(jī)圖像映射到一組計算設(shè)備上的時候制定位置決策，效果比人類專家還好。

相關(guān)論文：

Bridging the Gap Between Value and Policy Based Reinforcement Learning
https://arxiv.org/pdf/1702.08892.pdf

我們與谷歌研究院的其他同事共同在“The Case for Learned Index Structures”中展示，神經(jīng)網(wǎng)絡(luò)不僅比傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)（B-樹、哈希表和Bloom過濾器）更快，而且也小得多。我們認(rèn)為，我們只是掌握了在核心計算系統(tǒng)中使用機(jī)器學(xué)習(xí)的皮毛。

相關(guān)報道：如何構(gòu)建未來的機(jī)器學(xué)習(xí)芯片

相關(guān)論文：

The Case for Learned Index Structures
https://arxiv.org/abs/1712.01208

隱私和安全

機(jī)器學(xué)習(xí)及其與安全與隱私的交互仍是我們研究的重點(diǎn)。在ICLR 2017的一篇得獎?wù)撐闹?，我們展示了機(jī)器學(xué)習(xí)技術(shù)可以用于提供不同的隱私保障方式。

相關(guān)論文：

Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data
https://arxiv.org/abs/1610.05755

我們還繼續(xù)調(diào)查了對抗樣例的特性，包括在現(xiàn)實世界中展示對抗樣例，以及如何在訓(xùn)練過程中規(guī)?；褂脤箻永?，使模型更適用于對抗樣例。

相關(guān)論文：

Adversarial examples in the physical world
https://research.google.com/pubs/pub45818.html
Adversarial Machine Learning at Scale
https://arxiv.org/abs/1611.01236

理解機(jī)器學(xué)習(xí)系統(tǒng)

雖然通過機(jī)器學(xué)習(xí)技術(shù)得到了漂亮的結(jié)果，但更重要的是理解機(jī)器學(xué)習(xí)在什么時候能發(fā)揮作用，什么時候無效。

在另一篇ICLR 2017最佳論文中，我們展示了，當(dāng)前機(jī)器學(xué)習(xí)理論框架無法解釋深度學(xué)習(xí)方法取得的出色結(jié)果。

相關(guān)論文：

Understanding deep learning requires rethinking generalization
https://openreview.net/forum?id=Sy8gdB9xx&noteId=Sy8gdB9xx

我們還展示了，通過優(yōu)化方法發(fā)現(xiàn)的最小值“平坦度”并不像最初想象中與良好的泛化方法密切相關(guān)。為了更好地理解深度框架中訓(xùn)練如何推進(jìn)，我們發(fā)布了一系列分析隨機(jī)矩陣的論文，因為這是大多數(shù)訓(xùn)練方法的出發(fā)點(diǎn)。

相關(guān)論文：

Nonlinear random matrix theory for deep learning
https://research.google.com/pubs/pub46342.html

理解深度學(xué)習(xí)的另一個重要途徑是更好地衡量性能。我們在最近一項研究中比較了多種GAN方法，展示了良好的實驗設(shè)計和統(tǒng)計嚴(yán)格性的重要性。許多GAN方法很熱門，被用于增強(qiáng)生成模型，但實際上并沒有帶來性能優(yōu)化。我們希望這項研究能給其他研究員帶來范例，幫助他們展開健壯性更好的實驗性研究。

我們正在開發(fā)能對機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行更好表達(dá)的方法。去年3月，通過與OpenAI、DeepMind和YC Research等公司和機(jī)構(gòu)合作，我們推出了新的開放科學(xué)在線雜志Distill，致力于支持人類對機(jī)器學(xué)習(xí)的理解。這份在線雜志的文章提供了清晰的機(jī)器學(xué)習(xí)概念，以及出色的交互式可視化工具。在推出第一年中，Distill發(fā)布了多篇有啟發(fā)性的文章，旨在幫助人們了解機(jī)器學(xué)習(xí)的各種內(nèi)部原理。我們期待2018年能帶來更多內(nèi)容。

△特征可視化

https://distill.pub/2017/feature-visualization/

△如何有效地使用t-SNE

用于機(jī)器學(xué)習(xí)研究的開放數(shù)據(jù)集

MNIST、CIFAR-10、ImageNet、SVHN和WMD等開放數(shù)據(jù)集快速推動了機(jī)器學(xué)習(xí)的研究進(jìn)展。我們團(tuán)隊和谷歌研究院一起，在過去一年里一直積極探索開放有趣的新數(shù)據(jù)集，用于開源機(jī)器學(xué)習(xí)領(lǐng)域的研究。我們提供了規(guī)模更大的有標(biāo)簽數(shù)據(jù)集，其中包括：

YouTube-8M：大于700萬個YouTube視頻，被標(biāo)注為4716個不同類別
https://research.google.com/youtube8m/
YouTube-Bounding Boxes：來自21萬個YouTube視頻的500萬個邊界框
https://research.google.com/youtube-bb/
Speech Commands Dataset：數(shù)千名講話者說出的簡短命令
https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html
AudioSet：200萬個10秒鐘YouTube短視頻，用527個不同聲音事件去標(biāo)記
https://research.google.com/audioset/
Atomic Visual Actions（AVA）：5.7萬個視頻片段中的21萬個動作標(biāo)簽
https://research.google.com/ava/
Open Images：900萬張獲得知識共享許可的圖片，被標(biāo)記為6000個類別
https://github.com/openimages/dataset
Open Images with Bounding Boxes：600個類別的120萬邊界框

△YouTube-Bounding Boxes數(shù)據(jù)集示例

TensorFlow和開源軟件

△TensorFlow全球用戶分布

http://jrvis.com/red-dwarf/?user=tensorflow&repo=tensorflow

在團(tuán)隊歷史上，我們開發(fā)了一些工具，幫助我們在谷歌的多種產(chǎn)品中開展機(jī)器學(xué)習(xí)研究，部署機(jī)器學(xué)習(xí)系統(tǒng)。

2015年11月，我們開源了第二代機(jī)器學(xué)習(xí)框架TensorFlow，希望讓機(jī)器學(xué)習(xí)界從我們的投入中受益。2月份，我們發(fā)布了TensorFlow 1.0。11月份，我們又發(fā)布了1.4版本，加入了以下重要內(nèi)容：用于交互式非典型編程的Eager Execution、針對TensorFlow程序優(yōu)化的編譯器XLA，以及用于移動和嵌入式設(shè)備的輕量級解決方案TensorFlow Lite。

預(yù)編譯的TensorFlow二進(jìn)制文件已在180多個國家被下載了1000多萬次，GitHub上的源代碼已有超過1200名貢獻(xiàn)者。

2月份，我們舉辦了首屆TensorFlow開發(fā)者峰會，超過450人來到山景城現(xiàn)場參會，全球有6500多人觀看了在線直播，包括35個國家的超過85場本地觀看活動。所有演講記錄了下來，主題包括新特性，使用TensorFlow的新技術(shù)，以及對低級TensorFlow抽象的詳細(xì)描述。

TensorFlow開發(fā)者峰會2017演講視頻：

https://www.youtube.com/playlist?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv

我們將于2018年3月30日在舊金山灣區(qū)舉行另一場TensorFlow開發(fā)者峰會?，F(xiàn)在你可以注冊，保存日期，追蹤最新消息。

TensorFlow開發(fā)者峰會2017注冊地址：

https://services.google.com/fb/forms/tfds-2018-save-the-date/

△一個用TensorFlow玩石頭剪刀布的實驗

我們很高興看見，2017年TensorFlow得到了廣泛應(yīng)用，包括黃瓜分揀的自動化，在航拍照片中尋找海牛，對土豆進(jìn)行分揀確保兒童食品安全，協(xié)助翻譯新西蘭鳥類保護(hù)區(qū)的鳥叫聲，以及對坦桑尼亞最受歡迎根莖作物的病害進(jìn)行識別。

11月，TensorFlow作為開源項目慶祝了兩周歲生日。我們很高興看到TensorFlow開發(fā)者和用戶社區(qū)的興起和繁榮。TensorFlow目前是GitHub上排名第一的機(jī)器學(xué)習(xí)平臺，也是GitHub上的最火的五大代碼庫之一，被許多大大小小的企業(yè)和組織使用。

此外，GitHub上已有2.45萬個與TensorFlow有關(guān)的不同代碼庫。目前的許多研究論文關(guān)于開源代碼的TensorFlow實現(xiàn)，并提供了研究成果，幫助整個社區(qū)更容易地理解確切的研究方法，模仿或拓展相關(guān)工作。

Google Research其他團(tuán)隊的相關(guān)開源工作也令TensorFlow受益，其中包括TF-GAN。這是個輕量級庫，用于TensorFlow、TensorFlow Lattice（一組用于晶格模型的估計工具），以及TensorFlow對象檢測API中的生成對抗模型。隨著模型數(shù)量的不斷增長，TensorFlow模型庫也在繼續(xù)壯大。

TF-GAN
https://research.googleblog.com/2017/12/tfgan-lightweight-library-for.html

除TensorFlow之外，我們還發(fā)布了deeplearn.js，提供了一種在瀏覽器中配置深度學(xué)習(xí)API的開源、硬件加速的方法（無需下載或安裝任何東西）。deeplearn.js的主頁提供了許多很好的范例，包括Teachable Machine（一種計算機(jī)視覺模型，可以用自己的攝像頭去訓(xùn)練）和Performance RNN（實現(xiàn)了基于實時神經(jīng)網(wǎng)絡(luò)的鋼琴作曲和表演）。2018年，我們將在此基礎(chǔ)上進(jìn)一步推進(jìn)，協(xié)助將TensorFlow模型直接部署至deeplearn.js環(huán)境。

相關(guān)鏈接：

Teachable Machine
https://teachablemachine.withgoogle.com/
Performance RNN
https://deeplearnjs.org/demos/performance_rnn

TPU

大約5年前，我們意識到，深度學(xué)習(xí)將極大地改變我們對硬件的需求。深度學(xué)習(xí)計算將帶來計算密集型任務(wù)，同時具備兩個特點(diǎn)：

一方面，它們主要由繁重的線性代數(shù)運(yùn)算（矩陣乘法、向量運(yùn)算等）組成；另一方面，它們對精度降低寬容度很高。

我們意識到，可以基于這兩大特點(diǎn)來構(gòu)建專用硬件，從而更高效地運(yùn)行神經(jīng)網(wǎng)絡(luò)計算。因此，我們向谷歌的平臺團(tuán)隊提供了設(shè)計輸入，而他們設(shè)計并開發(fā)了第一代的“張量處理單元（TPU）”。這是一種單芯片ASIC，用于加速深度學(xué)習(xí)推理（與訓(xùn)練不同，推理用于已經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)）。

第一代TPU在數(shù)據(jù)中心的部署已有3年時間，谷歌搜索、谷歌翻譯、谷歌照片，以及AlphaGo中的深度學(xué)習(xí)模型就使用了這種芯片，同時也給許多其他研究項目和產(chǎn)品提供了計算能力。去年6月，我們在ISCA 2017上發(fā)表了一篇論文，表明第一代TPU要比同時代GPU或CPU快15到30倍，而性能功耗比則提升了30倍到80倍。

△用ImageNet訓(xùn)練ResNet-50的實驗表明，隨著TPU數(shù)量的增長，神經(jīng)網(wǎng)絡(luò)訓(xùn)練加速

推理很重要，但訓(xùn)練的加速是個更重要的問題，同時也更困難。如果研究人員可以更快地嘗試新想法，那么我們就可以取得更多突破。

我們的第二代TPU于去年5月在谷歌I/O大會上發(fā)布，提供了完整的系統(tǒng)（包括訂制的ASIC芯片、電路板和連接方式），可以同時加速訓(xùn)練和推理。我們展示了單個設(shè)備的配置，以及包含多個機(jī)架的深度學(xué)習(xí)超級計算機(jī)配置，即TPU艙。我們宣布將通過谷歌云計算平臺提供第二代設(shè)備，即云TPU。我們還啟動了TensorFlow研究云（TFRC）項目，向愿意將工作成果分享給全世界的頂級機(jī)器學(xué)習(xí)研究員提供包含1000個云TPU的計算集群。

12月，我們又展示了一項成果：用TPU艙去訓(xùn)練ResNet-50 ImageNet模型，并在22分鐘內(nèi)取得了高水平的精確度。而傳統(tǒng)工作站達(dá)到這樣的效果需要幾天甚至更長時間。我們認(rèn)為，縮短研究周期將大大提高谷歌機(jī)器學(xué)習(xí)團(tuán)隊，以及所有使用云TPU的組織的效率。

如果你對云TPU、TPU艙和TensorFlow研究云感興趣，那么可以在 g.co/tpusignup 注冊，了解更多信息。我們很高興，2018年能讓更多工程師和研究員用上TPU。

原文：

https://research.googleblog.com/2018/01/the-google-brain-team-looking-back-on.html

這是Jeff Dean總結(jié)Google Brain 2017成就的上篇，他還會再寫個下篇，談一談他們對機(jī)器學(xué)習(xí)應(yīng)用于醫(yī)療、機(jī)器人、各種科學(xué)研究、創(chuàng)造等領(lǐng)域的研究，也會談到Google Brain在公平性和包容性方面所做的工作。

See you later~

— 完 —

誠摯招聘

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

核心研究

用于機(jī)器學(xué)習(xí)研究的開放數(shù)據(jù)集

TensorFlow和開源軟件

TPU