新浪科技

WAIC 开发者日Daniel Povey:在中国,打造新一代的「Kaldi」

机器之心Pro

关注

Daniel Povey 来到中国半年多了,微博中最常出现的地点是小米科技园。在签下 offer 之前,他曾表示计划在中国打造新一代的「Kaldi」。

Daniel Povey 这个名字为人们所熟知,前前后后大概因为三件事。

一是语音识别开源工具 Kaldi 之父的身份;

二是对约翰霍普金斯大学内的学生抗议提出抗议,之后干脆离开学界并怒辞 Facebook

三是漂洋过海来到中国,加入小米,同时被记住的还有他那双一年四季都在穿的凉拖鞋。

语音识别领域的天才

Daniel Povey 是语音界赫赫有名的人物,他从 1999 年起陆续发表关于语音识别和处理方面的研究成果,迄今为止被引用次数接近 25000 次。

2003 年,Daniel Povey 从英国剑桥大学拿到了语音识别方向的博士学位,此后近十年间,他一直在工业界做语音方面的研究,先后加入了 IBM 研究院和微软研究院。

在 IBM 研究院的时候,Daniel Povey 推出了特征空间的判别训练方法,这一方法已成为当前语音识别领域 SOTA 系统的标配。

他还设计了「子空间高斯混合模型框架」,这是一种后来被广泛应用的建模技术,原理是通过类似说话者识别中的子空间思想来增强高斯混合模型框架。

但 Daniel Povey 最著名的研究是「Kaldi」。2008 年,Daniel Povey 进入微软研究院,次年开始主导这款语音识别工具包的搭建工作。Kaldi 集成了多种语音识别的模型,包括隐马尔可夫和最新的深度学习神经网络,在语音识别方面有着不可撼动的地位。

2011 年,Daniel Povey 和他的团队在一篇论文中向大家介绍了 Kaldi,并公开了所有代码。而 Daniel Povey 不仅是 Kaldi 的主要开发者,也是该论文的第一作者,后来也被称为「Kaldi 之父」。

实际上,Kaldi 的工作最初也是在 2009 年约翰霍普金斯大学的一场 workshop 上启动的。后来,Daniel Povey 从工业界退出,在 2012 年进入约翰霍普金斯大学担任助理教授。

这篇关于 Kaldi 的论文引用次数现在已经达到了 3000 多次,在 GitHub 上的项目 Star 量也已经超过了 8k。在这九年里,DaniePovey 一直是 Kaldi 主要开发和维护者。

漂洋过海,加入小米

但由于卷入去年的一场校园抗议事件,Daniel Povey 的研究生涯发生了意外转折。

2019 年 4 月,约翰霍普金斯大学校内出现了抗议事件,学生们占领了学校的行政大楼。不幸的是,CLSP(语音语言处理中心)的机房就处在被占领的楼中。因为缺乏维护,机器和数据都面临着被损坏的风险。为了保护机器和数据,Daniel Povey 在 5 月 8 日夜晚试图用断线钳绞开封锁大楼的铁链,从学生手中夺回机房,但未能成功。

之后 Daniel Povey 就离开了约翰霍普金斯大学,又因为 Facebook 的「六星期审查事件」直接拒绝了 offer。在一系列事件后,他决定来到中国。

「如果任何人想知道后续的话,我的计划是去一家中国公司任职,并可能在中国高校找一份兼职工作。」

与几家中国公司见过面之后,Daniel Povey 最终选择了小米。

北京时间 2019 年 11 月 18 日,Daniel Povey 在 Twitter 上宣布,他将很快与小米签订一项工作协议,工作地点位于北京,所以自己也会在 2019 年底或者之前搬去北京。在小米的工作内容是打造新一代的「Kaldi」。

随后,小米的几位联合创始人也都在微博确认了这一消息。很快,Daniel Povey 就以小米集团语音首席科学家的身份出席了 2019 小米开发者大会。

来到中国后,他也拥有了自己的微博账号:

工作之余,他也会在微博分享在中国的新生活:

拍下这张照片的理由是:「我感觉自己穿这件衬衫的时候,看起来很像大佬的心腹。」

如果足够关注 Daniel Povey 的动态,还会发现他几乎每天穿着同一双「凉拖鞋」,即使在冬季下雪的日子也是如此。(当然,也许是买了很多双同款)

打造新一代的「Kaldi」

对于熟悉 Daniel Povey 的人来说,他的确是个有些「古怪」的人,与此同时又不得不承认,他是既有天分又足够勤奋的那种人。

在离开美国的半年里,Daniel Povey 笔耕不辍。大约在近半年的时间里,他的谷歌学术主页就更新了 7 篇论文。

在最近上传的一篇论文中,他和约翰霍普金斯大学的研究人员共同提出了 PyChain。对于 Kaldi 自动语音识别(automatic speech recognition, ASR)工具包中链式模型的端到端无网格最大交互信息(lattice-free maximum mutual information, LF-MMI)训练,PyChain 可以实现完全并行化 PyTorch 实现。

此外,打造新一代的「Kaldi」也是他来到中国的初心。

在不久之后的 2020 年世界人工智能大会云端峰会开发者日专场,Daniel Povey 也会亲自分享他在语音识别领域的最新思考。

世界人工智能大会云端峰会开发者日(以下简称为 WAIC 开发者日)作为 WAIC 云端峰会主题论坛及特色活动,是 WAIC 期间唯一面向 AI 开发者的专业活动,旨在打造人工智能领域年度最高规格、最专业、最具影响力的开发者盛会。

WAIC 开发者日将在 7 月 9 日 - 11 日举办 1 场主论坛、多场分论坛、及高峰对话、黑客松等活动,呈现人工智能技术分享盛宴。期间也将进行上海白玉兰开源开放研究院揭牌,发布《人工智能开源开放报告》、WAIC 人工智能青年技术人才奖。

Daniel Povey 本次将要分享的主题是 《可差分的有限状态机在语音识别及其他序列问题中的应用(Differentiable Finite State Acceptor (FSA) Operations for Speech Recognition and other Sequence Problems)》,同时参会分享还有多位重磅嘉宾,包括 2017 年图灵奖得主、计算机体系结构宗师 David Patterson,2007 年图灵奖得主、欧洲科学院院士、法国科学院院士、美国文理科学院院士、美国国家工程院院士 Joseph Sifakis,悉尼大学教授、优必选 AI 首席科学家陶大程,百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜,多伦多大学助理教授 David Duvenaud,Julia 语言创始人之一 Viral B. Shah 等。

加载中...