谷歌发布人工智能工具帮助基因组数据解读

2017-12-11 10:05:41 来源:TechWeb 热度:
如果你曾经看过《犯罪现场》这样的罪案剧,你可能会想起一个场景:法医通过电脑对数千个DNA片段进行搜索,从而匹配出犯罪现场和犯罪嫌疑人。
 
虽然这个过程在现实生活并不像电视剧那样,但是主要思路是一样的。
 
遗传学本质上是一门比较科学。无论你是想确认一名嫌疑犯、一种基因疾病还是一名失散已久的亲属,都需要将一个基因组与另一个基因组进行比较,从而在数十亿个DNA中发现相似和不同。
 
 
虽然确认失踪人员或者犯罪嫌疑人的过程通常只会涉及到一个人的几个遗传片段,但是像识别某种疾病的基因变异这样的问题,往往需要大量的数据处理。尽管目前很多前沿的研究都是为了帮助科学家们做到这一点,但对所有这些数据都做到充分的定义还面临着巨大的挑战。
 
这也正是人工智能所要解决的问题。
 
本周,谷歌推出了一款名为DeepVariant的程序,可以通过深度学习来拼凑一个人的基因组并且更准确地识别出DNA序列中的突变。
 
这个技术在谷歌中曾经用来识别一张照片是猫还是狗,在这里DeepVarient利用了相同的技术解决了DNA分析领域的一个重要问题。
 
现代DNA测序仪可以执行高通量测序,读取出的不是完整的DNA序列,而是重叠的短片段。然后将这些片段与另一个基因组进行比较,从而将它们拼凑在一起,进行变异识别。
 
但是这项技术很容易出错,科学家也很难排查出这些错误以及小突变。这些小突变非常重要,它们可以提供重要的证据,比如说,疾病的根本原因。区分哪些碱基对是错误的,哪些是正确的,这被称为“变量调用”。
 
其实已经有一些工具可以帮助科学家做到这一点。最广泛使用的是GATK,这是一种人工设计的算法,可以将统计数据应用到测序机器最常出错的地方。
 
然而,DeepVariant利用神经网络技术来构建比以往任何技术都更精确的程序。去年,这项技术在FDA大赛中获得了第一名。
 
神经网络之所以如此命名,是因为它们的工作方式有点类似于神经元在大脑中的方式,每一层网络都逐级处理着更为复杂的工作。
 
为了利用图像识别技术来建立一个精确的DNA序列,谷歌团队将DNA测序数据转化为了一个图像。例如,构成遗传密码的As、Ts、c和Gs,就会以红色的形式出现。研究人员随后对数百万份基因组测序和高通量读取技术进行了研究,并教会了这个程序哪些东西更重要,哪些可以忽略。
 
由此产生的算法可以比以往任何系统都更准确地对错误进行排查。最初,这些图像仅由三种颜色组成,或三层数据。不过,本周发布的最新版本包含了7种,使其可以更加精确地表达。这个程序目前是作为开源软件发布的,外部研究人员可以使用以及继续进行程序强化。
 
DeepVariant绝不是100%准确的。但它的成功代表了机器学习对基因学的影响。基因组数据的规模和复杂性是巨大的。机器可能正是我们需要弄明白的东西。

责任编辑:黄焱林

相关推荐

ARM产品路线图,如何看待英特尔携手谷歌?

在微软宣布下一代操作系统Windows8开始支持ARM架构后,昔日的盟友英特尔也开始携手谷歌,认真的做起了Android系统优化。这对亲密兄弟在移动互联时代的渐行渐远,从一个侧面印证了目前该行业正经历着前所未有的巨变。而作为在移动和嵌入式领域占据压倒性优势的ARM,是如何看待整个业界的现状和发展趋势的。日前,本刊记者就相关热点话题采访了ARM中国区移动业务市场经理王骏超。最近移动互联领域发生了很多变化,众多软件厂商、互联网服务商纷纷进军该领域,最具代表性的就是谷歌宣布收购MOTO。ARM怎么看待这些变化?这些变化给ARM的整体战略带来哪些机遇?的确如此。传统的互联网厂商,现在越来越看好移动互联

美满电子助力全球首款集成IPTV机顶盒的谷歌电视

全球整合式芯片解决方案的领导厂商美满电子科技近日宣布,韩国LG集团子公司、电信服务提供商LGU+选择屡获殊荣的MarvellARMADA1500系统芯片平台(88DE3100),用于其新一代IPTV谷歌电视机顶盒。LGU+机顶盒能提供卓越的在线流媒体播放性能,为韩国的LGU+消费者开启了互联家庭娱乐的全新时代。Marvell联合创始人戴伟立女士表示:“Marvell公司与谷歌和其他关键合作伙伴在广播和云内容交付领域成绩斐然的合作,以及进驻韩国服务提供商LGU+的突破性机顶盒产品,再次证明了Marvell在推动谷歌电视及智能电视发展中的领导地位。我相信,LGU+机顶盒作为家庭中强大的数字控制中心

联发科将向谷歌亚马逊推新四核平板芯片

【手机中国 平板】据台湾媒体报道,业内人士透露,联发科除向笔记本和平板品牌厂商推销其基于ARM big.LITTLE架构的MT8135处理器外,还准...