新浪科技

一则迟到的讣告:卡伦·斯派克·琼斯,搜索引擎的奠基人

好奇心日报

关注

*本文只能在《好奇心日报》发布,即使我们允许了也不许转载*

从 1851 年起,《纽约时报》的讣告栏目就一直是男性白人主导着。我们发起了“被忽视的”(Overlooked)栏目来讲述那些为社会留下了无法磨灭的印记,但她们离世时却没被我们报纸悼念的女性的故事。现在,我们将自己的目光拓展到了其他值得纪念的人物身上,很多人都曾被边缘化了、被遗漏了。


大多数科学家还在试图让人们使用代码与计算机交谈时,卡伦·斯派克·琼斯(Karen Sparck Jones)已经开始教授计算机去理解人类的语言了。

她的技术为 Google 等搜索引擎奠定了基础。

斯派克·琼斯是一位自学成才的程序设计师,主攻自然语言处理,而且是该领域的女性权益倡导者。同时,她也是硅谷几十年以来发展现状的先知,曾对计算机科学家领导下不注重社会影响的技术风险发出警告。

“直到五到十年前,她研究的很多东西看起来还像是天方夜谭。如今,那些东西已被我们视为理所当然。”斯派克·琼斯的老朋友,与英国计算机协会合作的约翰·泰特(John Tait)说道。

斯派克·琼斯 1972 年在《文献学报》(Journal of Documentation)上发表的开创性论文为现代搜索引擎奠定了基础。她将数据统计与语言编程相结合,以当时不同寻常的方法,建立了体现计算机如何解读文字关系的准则公式。

2007 年,斯派克·琼斯发声表示,“几乎所有的网络搜索引擎都在使用这些准则。”

“无论使用哪种类型的统计信息进行索引项加权,都将使用我在 1972 年发表的加权函数,”她在接受英国计算机协会的采访时说道。

斯派克·琼斯的全名为卡伦·艾达·博尔斯·斯派克·琼斯(Karen Ida Boalth Sparck Jones),1935 年 8 月 26 日出生于英国重要的纺织品制造城市哈德斯菲尔德(Huddersfield)。父亲阿尔弗雷德·欧文·琼斯(Alfred Owen Jones)是一名化学教师,母亲艾达·斯派克(Ida Sparck)曾为挪威政府工作,第二次世界大战期间流亡到伦敦。

斯派克·琼斯在剑桥大学学习历史和哲学(当时被称为道德科学)时,遇到了剑桥语言研究中心的负责人玛格丽特·马斯特曼(Margaret Masterman),并在她的启发下进入语言研究领域。斯派克·琼斯后来形容玛格丽特·马斯特曼是“一个非常奇怪而有趣的女人”,她在工作中使用娘家的姓氏——这在当时相当难得。

斯派克·琼斯在 1958 年嫁给了同为计算机科学家的罗杰·尼达姆(Roger Needham),她也保留了婚前的姓氏,并表示,“这样能永远维持自己的存在。”

斯派克·琼斯开始为马斯特曼工作。她想解决计算机多义词理解(比如“field”一词)的编程问题,并开始着手编写一个大型同义词词库。

“自然语言中所有字词的表意都没有那么准确,它们可以包含多重意思,”在电气电子工程师协会历史中心的口述史采访中,斯派克·琼斯说道,“我们怎么知道它们在某种特定的用法中是什么意思呢?”

1964 年,斯派克·琼斯发表了《同义词与语义分类》(Synonymy and Semantic Classification),如今被视为自然语言处理领域的基础论文。1972 年,她引入了逆文本频率指数的概念,通过计算某个字词在文档中的使用次数来确定该字词的重要性,同样成为现代搜索引擎的应用基础。

1980 年代,斯派克·琼斯开始研究早期的语音识别系统。

她和她的丈夫——他也是软件安全领域的先驱人物——经常在剑桥大学的茶水室里进行学术讨论,一待就是一天。

他们的家在剑桥西部的科顿(Coton),家里全是书籍、艺术品和各种淘来的稀罕小玩意,例如一块有趣的漂流木或维多利亚时代的磨刀机。他们在这里还有一所房子,除了用来储存多余的藏书,还被斯派克·琼斯当作艺术工作室使用。微软研究实验室里就挂着一件她的艺术品。

帆船运动是斯派克·琼斯和尼达姆的另一项爱好。他们曾经修复了一艘名为“考兹的范妮”(Fanny of Cowes)的 1872 年古董帆船,并与其他古船一起沿着英格兰的东海岸展开比赛。此外,他们还选择成为丁克一族。

“他们想要自己的精神世界。而且,他们显然一生都深爱着对方。”斯派克·琼斯的朋友兼计算机科学家同事安德鲁·赫伯特(Andrew Herbert)说道。

斯派克·琼斯说起话来声音洪亮,幽默感十足。平常工作时,她的着装基本都很简单,蓝色的牛仔裤,红色的毛衣再加白色衬衫。她还佩戴一枚自制的胸针,由石头和一小块马蹄铁组成。当她不得不骑自行车(就像剑桥大学里大家经常做的那样)去参加正式的晚宴时,她因为用晾衣夹将自己的衣服固定在车把上而出名。

1982 年,英国政府聘请斯派克·琼斯参与阿尔维计划(Alvey Program),在全国范围内鼓励开展更多的计算机科学研究。1993 年,斯派克·琼斯与朱莉娅·R·加里尔斯(Julia R. Galliers)合作撰写了《自然语言处理系统评估》(Evaluating Natural Language Processing Systems)一书,成为该论题的开创性教科范本。

1994 年,斯派克·琼斯成为计算语言学协会(Association for Computational Linguistics)主席,这是一个国际性组织,由该领域的专业人才组成。1999 年,斯派克·琼斯成为剑桥大学的全职教授,结束了多年的困扰。之前很长一段时间,她都属于大学的合同制教职人员,这种学术就业形式没有任期保障,地位较低,被称为“靠软钱生活”。

“从方便女性的意义上来说,剑桥大学在许多方面都不是用户友好型,”她在谈到此次迟来的全职聘任时说。

2007 年 4 月 4 日,斯派克·琼斯因癌症去世,享年 71 岁。《纽约时报》没有刊登她的讣告,但在 2003 年发布了她丈夫的丧讯。

今天,研究人员仍在引用她的公式。随着人工智能研究的日益普遍,她笔下的想法也在不断地付诸实践。

科罗拉多大学语言学和计算机科学系教授玛莎·帕尔默(Martha Palmer)说:“可见她比自己的时代超前了多少年,可见她的研究有多重要,可见前 20 年她的研究有多不受重视。”

斯派克·琼斯指导了一代研究人员的成长,包括男性和女性,并提出口号:“计算机应用太重要了,不能把它(只)交给男人。”

斯派克·琼斯的时代超前性还表现在另一个方面。早在硅谷接受道德考验的几十年前,她就警告工程师们要考虑自身工作所带来的社会影响。

“文本与编程自身之间存在着相互作用,”她说。“我们把手指放到键盘上时,不需要进行基本的哲学讨论,但是随着计算机应用逐渐渗入到人们生活的各个方面,我们就需要考虑这些事情了。”

翻译:熊猫译社 金金

题图版权:Computer Laboratory/University of Cambridge

© 2019 THE NEW YORK TIMES

加载中...