识别浩如烟海的植物标本,人工智能看上去非常合适

  • 时间:
  • 浏览:7

可能会让历史悠久的标本馆们重焕生机。

对世界各地的标本馆来说,整理仓库里的积压馆藏都不是一件容易的事。

数百年来一次次的标本采集,加上下次整理的拖延心态,形成了一栋又一栋的积灰馆藏。但在这尘封已久的故纸堆中,几个世纪的标本积累往往是研究历史的绝佳材料,甚至从中还能发掘出新的植物种类。

一个来自哥斯达黎加和法国的团队就想到用深度学习技术来分析标本,识别标本的扫描图片,判断它是否是未记录的新物种,论文上周发表在《BMC 进化生物学》上。

植物标本可以记录很多信息,比如同位素含量能够模拟当时的气候、卷须的触感给予的直接感受。如果没有数字化的索引,标本馆的生命力将逐渐衰弱。根据统计,全球储存标本的机构数量约为 3000 个,标本量超过 3.5 亿个,其中只有少部分得到数字化。哥斯达黎加理工学院、CIRAD 和 INRIA 的研究人员的新研究结合深度学习技术,解决了植物标本图像自动识别的问题,并且训练的结果是馆间通用的。

研究人员用数千种植物的几十万份标本图像训练了识别算法,目前的算法专注于叶片的识别。不同数据集的识别中,算法的准确率多为 80% 左右。在植物分类学中,依据分类方式的不同,不同的分类学家对同一个物种会有不同的看法。在这项研究中,大部分结果与专家的结论吻合,异常的结果就表明可能是未知物种,会被标记以便进一步研究。

研究人员还发现,经过法国的标本馆图像训练的算法,识别巴西标本馆的样品仍然有效。这意味着在不同馆藏应用时,算法无需重新训练,植物标本的样式也无需调整。

但在目前,这个算法只学会了识别干燥的标本叶片。它学到的识别经验仅限压扁的、褪色的陈旧叶片,面对新鲜植物的识别结果不尽人意。

论文合著者 Pierre Bonnet 告诉《自然》,这种技术并不会降低植物学知识的价值,因为这种方法只能基于人类的专长实现,结果还需要人为的验证。

现在系统的基础已经建立,研究者们正计划研究植物标本的其它数据,比如收集的时间和地点、开花和生长的阶段等等,系统比较不同年代同一物种的叶片尺寸来推断气候变化的影响。面向化石或动物标本的类似系统的开发也在团队的计划当中。

题图和文中图片来自论文 DOI 10.1186/s12862-017-1014-z

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。