智能
可能會(huì)讓歷史悠久的標(biāo)本館們重?zé)ㄉ鷻C(jī)。
對(duì)世界各地的標(biāo)本館來(lái)說(shuō),整理倉(cāng)庫(kù)里的積壓館藏都不是一件容易的事。
數(shù)百年來(lái)一次次的標(biāo)本采集,加上下次整理的拖延心態(tài),形成了一棟又一棟的積灰館藏。但在這塵封已久的故紙堆中,幾個(gè)世紀(jì)的標(biāo)本積累往往是研究歷史的絕佳材料,甚至從中還能發(fā)掘出新的植物種類。
一個(gè)來(lái)自哥斯達(dá)黎加和法國(guó)的團(tuán)隊(duì)就想到用深度學(xué)習(xí)技術(shù)來(lái)分析標(biāo)本,識(shí)別標(biāo)本的掃描圖片,判斷它是否是未記錄的新物種,論文上周發(fā)表在《BMC 進(jìn)化生物學(xué)》上。
得克薩斯植物研究所樣品準(zhǔn)備室 / 來(lái)自 Pierre Bonnet
植物標(biāo)本可以記錄很多信息,比如同位素含量能夠模擬當(dāng)時(shí)的氣候、卷須的觸感給予的直接感受。如果沒有數(shù)字化的索引,標(biāo)本館的生命力將逐漸衰弱。根據(jù)統(tǒng)計(jì),全球儲(chǔ)存標(biāo)本的機(jī)構(gòu)數(shù)量約為 3000 個(gè),標(biāo)本量超過(guò) 3.5 億個(gè),其中只有少部分得到數(shù)字化。哥斯達(dá)黎加理工學(xué)院、CIRAD 和 INRIA 的研究人員的新研究結(jié)合深度學(xué)習(xí)技術(shù),解決了植物標(biāo)本圖像自動(dòng)識(shí)別的問(wèn)題,并且訓(xùn)練的結(jié)果是館間通用的。
研究人員用數(shù)千種植物的幾十萬(wàn)份標(biāo)本圖像訓(xùn)練了識(shí)別算法,目前的算法專注于葉片的識(shí)別。不同數(shù)據(jù)集的識(shí)別中,算法的準(zhǔn)確率多為 80% 左右。在植物分類學(xué)中,依據(jù)分類方式的不同,不同的分類學(xué)家對(duì)同一個(gè)物種會(huì)有不同的看法。在這項(xiàng)研究中,大部分結(jié)果與專家的結(jié)論吻合,異常的結(jié)果就表明可能是未知物種,會(huì)被標(biāo)記以便進(jìn)一步研究。
研究人員還發(fā)現(xiàn),經(jīng)過(guò)法國(guó)的標(biāo)本館圖像訓(xùn)練的算法,識(shí)別巴西標(biāo)本館的樣品仍然有效。這意味著在不同館藏應(yīng)用時(shí),算法無(wú)需重新訓(xùn)練,植物標(biāo)本的樣式也無(wú)需調(diào)整。
但在目前,這個(gè)算法只學(xué)會(huì)了識(shí)別干燥的標(biāo)本葉片。它學(xué)到的識(shí)別經(jīng)驗(yàn)僅限壓扁的、褪色的陳舊葉片,面對(duì)新鮮植物的識(shí)別結(jié)果不盡人意。
論文合著者 Pierre Bonnet 告訴《自然》,這種技術(shù)并不會(huì)降低植物學(xué)知識(shí)的價(jià)值,因?yàn)檫@種方法只能基于人類的專長(zhǎng)實(shí)現(xiàn),結(jié)果還需要人為的驗(yàn)證。
現(xiàn)在系統(tǒng)的基礎(chǔ)已經(jīng)建立,研究者們正計(jì)劃研究植物標(biāo)本的其它數(shù)據(jù),比如收集的時(shí)間和地點(diǎn)、開花和生長(zhǎng)的階段等等,系統(tǒng)比較不同年代同一物種的葉片尺寸來(lái)推斷氣候變化的影響。面向化石或動(dòng)物標(biāo)本的類似系統(tǒng)的開發(fā)也在團(tuán)隊(duì)的計(jì)劃當(dāng)中。
聯(lián)系客服