新浪科技

科学大家|AI神助攻!开普勒海量数据中发现隐藏行星

科学大家

关注

出品| 新浪科技《科学大家》

撰文| Chris Shallue, Google AI高级软件工程师

太阳系中有许多行星围绕着太阳旋转,长久以来,科学家、哲学家、科幻作家们一直在探索其它恒星周围是否也存在行星的可能性,我们对太阳系中行星的观察已经经历了数千年,一直到最近30年间,人类才开始观察到其它恒星周围的行星。这些行星观察起来非常困难,因为它们很小、很黯淡,但它们的中央恒星却非常明亮、巨大,要观察这些行星,就像在聚光灯下寻找一只萤火虫一样难。

探测这些遥远的地外行星的方式之一是观察时不时发生的凌日现象,当行星从恒星前方穿过时,就会阻挡恒星发出的一部分光线,恒星光线亮度就会随之减弱;等行星离开恒星前方后,恒星光线又会重新增强。

如今我们知道的大部分地外行星都是由NASA的开普勒望远镜探测到的。在4年的时间里,开普勒望远镜对20多万颗恒星开展了敏感度极高的光线亮度测量,获取了140亿个数据点,而这些数据点可能意味着2万亿条行星轨道。其中每颗行星对其中央恒星亮度的影响可谓微乎其微,因此在这些海量数据中寻找地外行星简直犹如大海捞针。

大部分地外行星都是由NASA的开普勒望远镜探测到的

这是开普勒望远镜探测到的行星光线亮度测量值。右侧曲线显示,当行星从恒星前方穿过时,阻挡了恒星的部分光线,导致恒星亮度有所下降。而当行星不再阻挡光线时,恒星亮度又重新增强。然而,还有其它天文学现象也会导致恒星亮度出现这种变化。例如,有一些恒星会绕着另一颗恒星旋转,构成双子星。当双子星中的一颗从另一颗前方经过时,对恒星亮度的影响会比行星大得多。还有另一种类型的双子星,其中一颗较为明亮,另一颗则较为黯淡。当其中较为黯淡的一颗从较明亮的一颗前方穿过时,会导致后者光线亮度出现明显下降;而如果反过来,明亮的一颗从黯淡的一颗前方穿过,对亮度的影响则不太明显。除此之外,还有很多现象也会导致恒星亮度减弱,如恒星黑子、或仪器缺陷等等。

利用开普勒望远镜收集的数据,科学家运用特殊软件来分析恒星亮度的减弱,并亲自核查,判断恒星亮度的变化是否由某颗地外行星引起。但开普勒望远镜收集的数据实在太多,若一一进行人工检查,实在太耗时耗力。而我觉得这个问题和谷歌相册给照片分类的问题十分相似,只不过目标不是判断某张照片中是小猫还是小狗,而是要判断某个信号是否由地外行星导致。

我其实并没有天文学背景,但我对科学很感兴趣。我曾经读过一本关于宇宙起源的书,人类了解宇宙起源的方式之一就是观察宇宙、探索宇宙。但这种做法存在一个问题:例如,从2009年的开普勒望远镜任务收集了大量数据,而这些数据量太过庞大,无法仅凭人力进行分析。这就给了我一定启迪,人工智能也同样致力于分析大量数据。所以我就想,我们能否在这方面做出一些贡献。

于是我与德克萨斯大学的一支天文学家团队一起对这一问题进行了研究。我刚提出这个想法时,只花了20%的时间研究,因为这是一项极具开创性的项目,我们不确定这个想法是否可行。而当确定它可行之后,我们开始投入更多时间,一起运用了一个机器学习模型,向其中输入了1.5万个经天文学家人工分类过的数据,判断开普勒望远镜接收到的信号是否来自某颗地外行星。经过训练后,该模型的判断准确率达到了96%。然后我们把这一模型运用到整个开普勒数据库,试着寻找新的地外行星。

在模型能够成功运作之后,我们所做的第一件事,就是用一小批恒星来做测试,看看它的效果。很幸运的是,在这670颗恒星周围找到了两颗地外行星,分别叫做开普勒-90i和开普勒-80g。整个数据库中有20万颗恒星,机器学习模型的关键优势在于,它能够迅速分析成千上万的数据,还可以把重点放在一小部分更有可能是地外行星的信号上。我们目前正在改进模型,希望能将其运用于全部20万颗恒星,也希望在这一过程中能发现更多新的行星。

在此之前,我们生活的太阳系一直以来都是围绕单个恒星周围已知行星数量最多的案例,有多达8颗行星围绕太阳运行,而我们发现的开普勒-90i非常特殊,因为它是围绕恒星开普勒-90旋转的第8颗行星,这就使开普勒-90行星系成为了我们所知的首个行星数量与太阳系相等的行星系,可以说是一个“迷你版的第二个太阳系”。开普勒-90i比地球稍大,而地球是围绕太阳旋转的第3颗行星。然而,由于开普勒-90i离中央恒星过近,表面温度可超800 华氏度/427 摄氏度,生命不可能在这种温度下存活,也同样因为它离中央恒星很近,它每14天就可公转一周。

目前为止,该项目已经发现了两颗新的地外行星。但我们不会就此止步。目前只分析了开普勒望远镜收集的数据的一小部分,而我们还会对模型进行改进,把搜寻范围扩大到开普勒望远镜探测到的20多万颗恒星。

我们的下一个目标是寻找适合生命存活的外星环境。天文学如今已进入大数据时代,而开普勒望远镜只是个开始。NASA又发射了一台新的空间望远镜,也就是TESS卫星,可能会产生更多数据。所以在这个新时代中,我们需要新技术来分析这些庞大的数据,不能指望靠人力来分析它们。

人工智能在任何涉及到大量数据的领域都有巨大潜力,在天文学和其它科学领域,人工只能分析大量数据的能力正在迅速提升。机器学习等数据分析技术也能帮助我们对这些数据进行分析,谷歌想让人人都能用上机器学习技术,为此公布了此次项目用到的全部代码,希望这些代码能帮助发现更多行星,并且不仅是利用开普勒望远镜的数据,还可以利用未来其它空间望远镜的数据。

最后想强调的一点是,人工智能搜寻地外行星取得的成绩依然是借助了人类的力量。我们输入的信号是经天文学家人工分类过的,并对模型进行训练,试图让它实现同样的分类,我们并不期望这个模型能比人类做得更好,只是希望它能比人类做得更快而已,希望人类和人工智能能够联手合作,但有些事情是机器学习力所不能及的。人类天生更擅长发现令人惊奇的新事物,所以今后也会不断做出更多新发现。

《科学大家》专栏投稿邮箱:sciencetougao@sina.com  来稿请注明姓名、单位、职务

加载中...