对话出门问问 CTO:在中国做个技术公司,你要面对哪些现实
出门问问「翻滚跳跃」的 8 年背后,特别真实地写下了,在中国做一家影响世界的技术公司,就要真的相信技术,不能怕「自虐」和「脚上沾泥」。
*智能播报由出门问问「魔音工坊」提供技术支持
用前沿科技推动新时代的到来,往往是先爆发于 B 端,看似润物细无声。背后的技术型公司,通常也不像 To C 的互联网公司,那么快速地被用户记住。
他脱胎于硅谷科技,深受巨头青睐,却因一心要推动人机交互的新时代,在过去八年把头埋得越来越深。
他在 C 端保有一定的知名度,却被误以为是家智能可穿戴公司。实际上,大众鲜少看到的 B 面,才是这家技术型公司的真面貌。
你可以说他出道即巅峰,也甚至说他没有存在感。可越来越多的人变为他的用户。在中国,新车占比四分之一的大众汽车集团,搭载着他的车载语音交互系统;在新浪新闻 App,AI 虚拟主播每天为用户语音播报当日时讯,背后的技术也是来自于他;疫情期间,你接到的防控登记电话可能是他旗下的语音机器人打来的。
客观来看,中国真正的技术型公司并不多,因为从商业变现的简单程度上看,做技术的比不上做产品的,做产品比不过做用户的,而做用户的比不过做流量的。
作为中国的科技独角兽企业之一,技术型创业公司「出门问问」区别于搭上安防浪潮的那些机器视觉 AI 公司,用某种技术去切入一个具体的市场。他要做的事情,不是一种简单的工具替代,而是亲自去定义下一代人机交互。
正是这样的宏大愿景,让出门问问在过去 8 年,看起来总是在不同领域翻滚跳跃,同时也做到了产品和技术的全球落地。产品类型从 ToC 的可穿戴到 ToB 的车载,不再聚焦于某一个具体行业和产品形态上,成为技术公司中,少有的兼具品牌、电商、销售、toB 解决方案能力于一身的创业公司。因此也显得挺另类。
显然,真正用技术推动一种普适性的改变,挑战必定是全方位的。不过,当出门问问每一代产品置于交互场景之中,沉淀下来的不只有技术,还有在 2B 领域的商业落地。
最近,极客公园和出门问问 CTO 雷欣进行了一次深度的交流。雷欣这个硬核技术派,讲述了很多关于「在中国做技术公司」真实的思考,在这里分享给大家。以下是极客公园对话 CTO 的访谈内容:
让巨头可信赖的是技术
车载是出门问问在 To B 领域开辟的第一个落地场景。从今年开始,出门问问的车载语音交互系统已在奥迪 A4L、新迈腾、帕萨特、捷达等多个全新车型应用,预计今年内总共装载 100 万辆车。
看到了智慧出行的趋势后,出门问问在 2016 年开始探索的新业务线,起始于一款带有语音交互功能的智能车载后视镜——「问问魔镜」。
彼时,大众汽车集团正好也在谋求从传统的车辆制造商,向车联网和自动驾驶方面转型。当他们看到「问问魔镜」背后可信赖的语音交互技术,最终向出门问问出资 1.8 亿美元,并促成了更深度的战略合作——车载语音合资企业大众问问的成立。
至此,出门问问完成了 D 轮融资,估值超过了 10 亿美金,跻身中国的科技独角兽企业。团队投入 100 多人花了近三年的时间,打磨出一套车载语音解决方案,达到了车规级极高的语音交互标准和安全要求。
实际上,出门问问的成长道路不乏巨头的关注和支持。2015 年,Google 希望把可穿戴引入到中国市场,推广其可穿戴操作系统 Android Wear。恰好出门问问当时已经针对 Moto 360 这样的智能手表开发了 TicWear 操作系统,为 Google Glass、Android Wear 推出了本土化的语音搜索交互应用。
极客公园:车载是你们转向 2B 领域的第一条赛道,为什么能跟大众牵手,还获得了 1.8 亿美元的 D 轮融资?
雷欣:智能车载被公认为是语音交互重要的落地场景之一。我们当时认为,当汽车朝智能化的方向发展,语音交互肯定是构建车辆智能闭环的重要一部分。你可以看到,出门问问一直是把技术置于场景之中的,因为只有在大场景下推动新交互从初生走向成熟,我们才能在其中成为下一代交互的主要推动者。
极客公园:做车载语音交互系统,挑战大不大?
雷欣:挑战特别大。我们最开始做车载项目,不仅需要从头做起,而且初期投入远大于项目营收。
同时在工程上,我们要为大众汽车集团做深度定制化的解决方案,这也跟行业中已有的标准化产品很不相同。
但这是下一代交互的典型场景,你如果不参与进去,就不会理解其中的 Knowhow,等你真的实现了技术和场景的匹配落地之后,后续项目投入产出比的效率模型也就越来越好了。
极客公园:你们做车载语音系统的路径有什么独特之处吗?
雷欣:我们的团队性格一直是不怕「自虐」,这样才能真正用产品来提升技术和场景的匹配,达到预定的性能指标。整个过程我们干满了三年,最终也实现了车载语音交互技术能力的行业领先。
极客公园:智能后视镜的项目现在好像已经不做了,所以获得了大众的投资是不是唯一的意义?
雷欣:当然不是。其实车载交互这件事,冷启动是最难的。大家都知道出门问问的 TicWatch 智能手表,但车载系统不能按手表的思路去做,因为手表是 2C 的产品,是一个大闭环,很容易做到标准化,但车载还需要跟车企紧密合作,具体的车型对应到技术参数都有不同的要求,所以这给我们的技术和落地的复杂性带来了巨大考验。我们做后装的智能后视镜,是在车载语音交互上的技术及数据积累,是做好车载前装的有益沉淀。
极客公园:2C 和 2B 的产品交付标准不同,车载又是你们 B 端业务的开始,你们在这个项目里最大的收获是什么呢?
雷欣:大众汽车集团的项目是一个非常好的落地案例。它的新车产量占全国的四分之一,同时在质量把控方面有业界公认的口碑。我觉得赢得了大众的认可后,问问在智慧出行的趋势下,在嵌入式语音交互领域,建立了行业领先的技术优势和壁垒。这对于后续在车载及其它市场的拓宽很有帮助。
极客公园:最早投资你们的巨头不是大众,而是 Google。你跟李志飞都是 Google 的技术流,Google 投你们,是因为他是你的老东家,你们恰好又把硅谷文化搬到中国来了吗?
雷欣:一半对一半不对吧。Google 投我们,其实跟之前我们是什么背景没太大关系,但我们跟他们的文化的确非常像,都是推崇硅谷文化,并且都是一帮有技术信仰的人。
Google 看中的更多是我们的技术优势和对他们可穿戴业务的技术补充。当时,我们已经建立了相对完备的软件算法团队和技术积累,同时拥有出色的硬件设计、研发团队,并对供应链具备稳定的把控能力。我们被他们认为是 Google Assistant 在中国最好的替代品,Google 愿意投我们。
技术公司要拿着「锤子」找「钉子」
在 C 端用户眼中,出门问问跟智能可穿戴可以画上等号。因为他做过手表、音箱、耳机在内的一系列的消费级产品。但实际上,AI 语音技术才是其核心命脉。当然,技术必须要依附于实体产品,才能推动下一代人机交互的到来。
这也就很好解释,出门问问在语音 APP 后,为何把自研的操作系统 TicWear 刷到 Moto 360 智能手表里面;为何在发布会一口气推出多款产品,因为技术是离不开产品的。出门问问做手表及其他硬件,都是为了更好更快地通向下一代人机交互这个终极目标。
智能手表只是第一个阵地。不光是 To C 的智能可穿戴,出门问问也在非硬件产品中,强化用户对人机交互的感知。例如近期推出的小问秘书和魔音工坊,也在紧盯用户价值和商业化进展。
当然,出门问问也在越来越聚焦。如果把技术看作锤子,落地场景当成钉子,出门问问需要聚焦几个关键赛道,强有力地把「钉子」锤进去。例如在智能可穿戴的场景中,出门问问围绕语音交互推出了帮用户代接电话的小问秘书,让语音机器人对所有未接电话进行智能接听并分析来电意图,解决大量骚扰、重复性电话的问题。
近期升级后的小问秘书,上线了个性化声音制作功能,根据出门问问的个性化 TTS,支持多层级的定制,用户最少录入 15 句人声音频内容,即可生成颇像真人的专属合成效果。这样一来,用户就可以用自己的声音代接来电,避免因 AI 助理产生的熟人社交隔阂。
在改变人机交互的体验上,出门问问还基于第四代语音合成系统 MeetVoice 技术,上线了专业 AI 音频内容生产一站式解决方案——魔音工坊。用户能够高效便捷地以 AI 语音技术模拟具有清晰性格特征的真人语音,进行 AI 音频内容创作,让文字随声音跃出纸面。目前,用户可通过点击新浪新闻 App 频道内的「音频」图标,就能收听海内外各领域的新闻。
为了解决配音的专业性问题,出门问问对多音字模型进行了升级,多音字整体准确率达到 99.52% 以上。针对新闻、官方文件、法律条文等,对准确率有着更高要求的文章类型,魔音工坊设计了创新的交互形态,成为 AI 音频时代的 word 编辑器。同时出门问问在 AI 配音、公众号音频化、歌唱合成、情感合成等方面也在引领着业界步伐。
极客公园:你觉得资本对技术人的诱惑力是不是不够强?
雷欣:我一直觉得,真正的技术公司不应该是投机的,你不投机,才会有人相信和支持你做更有价值的事情。这也是问问看待技术的一种价值观吧。
极客公园:但你有没有觉得,你们作为一家技术公司,产品线越来越多,业务越做越重了?
雷欣:首先我们肯定是要做一家语音交互技术公司,其实在中国做技术公司需要越过的沟沟坎坎特别多,而且越做越难。我们的产品和业务之所以覆盖面得这么广,其实很大程度上是在中国独有的环境里不得已而为之。
极客公园:怎么讲?
雷欣:其实我们也想只用算法和软件技术去定义下一代人机交互,不做的那么重,就像公司刚成立的时候,我们在微信公众号开发的语音助手小程序。但我们很快就明白,光靠软件和算法显然不能让我们抵达那个远大的未来。
极客公园:但 AI 领域其实不乏只做软件、做算法的公司啊?
雷欣:我们跟他们的定位不一样。从成立的第一天起,我们就是要去定义下一代人机交互,并让新交互深入人心。
虽然做 AI 算法或软件解决方案的模式很轻,也能让公司获得一定的现金流,还能保持轻资产的运作模式。但如果你只有算法和技术,没有落地到场景中的产品,我们就受制于人,很难把控下一代的人机交互体验。
极客公园:你们近期又发布了 TicWatch Pro 2020、TicPods ANC 等产品,可穿戴对问问来说,现在扮演怎样的一个角色?
雷欣:我们的主要考虑是做更好的人机交互。唯一的办法,就是在一些可能落地的场景里去做催熟,让新交互成为主流。如果想推动交互技术的普及,硬件载体很重要。
可穿戴业务是问问的立命之本,所以外界会声称我们是智能可穿戴公司。我们最早做智能手表也是看到了非手机的终端设备慢慢改变了用户的交互习惯,而交互技术的发展趋势也和我们的判断基本一致。尤其是手表和语音交互的结合,我们觉得很有很大的机会。
2020年5月25日,出门问问发布了新一代智能手表 TicWatch Pro 2020|企业供图
极客公园:老用户都知道你们最早在 TicWear 这个系统里内置了自研的语音识别和分析引擎,给用户提供了语音搜索和交互的功能。在非常短的时间内,吸了不少极客粉。有了这个基础,后续做了智能手表的自有品牌 TicWatch?
雷欣:是。我们一直觉得不想做硬件的软件,算不上好软件。软件和硬件的结合,才能达成一套极致完整的体验。
因为只有你真正进入到场景中,你才能够去真正推动这件事,而不是只有一个技术待嫁闺中,没几个人知道该怎么用,注定无法形成趋势。如果我们只是被动等待,那就失去了创立这家公司的意义。
极客公园:所以你的意思是说,科技公司不能只抱着自己擅长的东西去等待时机成熟?
雷欣:我们的技术追求是把自身擅长和认同的事情,用一切可推动的办法去实现。TicWatch 为我们赢得了销量和口碑,打开了 C 端市场的认知度。我觉得每卖出一台手表,都会离即将到来的时代越近。
你与其等着别人去推动市场成熟,自己只做最得心应手的事情,等着别人来欣赏你,不如自己去开始创造。这件事不是「手不粘泥」就轻松实现的。
极客公园:你们后来尝试了很多比如智能后视镜、智能音箱、智能耳机这些产品,也是这个思路吗?
雷欣:是的。比如耳机对我们来说,是一款非常有挑战的产品。因为我们最大的创新还是语音交互,耳机这么小的设备,续航会受到非常大的限制,所以必须做出超低功耗的语音交互。
围绕这一块,我们第一要做好信号处理,声音进来了之后要降噪。第二是语音唤醒,在低功耗芯片上长时间去监听这个唤醒词,我们默认用「嗨小问」来唤醒手机语音助手。第三是我们独家创新的「快捷口令」,比如音量调节、播放暂停等,不用说唤醒词就能用语音控制设备。连苹果的耳机也还都没有上这个功能。
极客公园:想过为什么苹果没有这样做吗?
雷欣:其实大型企业都相对偏保守。有些技术没有做到 99%,他可能就不太敢用。我们创业公司是不能太保守的,在创新思路方面的话,相对来说比较开阔,在一些创新的落地上面,我们也更激进。像我刚才提到的快捷口令这个功能的话,我们觉得技术上我们能做到不错的体验,并且对于用户来说,他们觉得这个功能是非常有用的,也是高频需求,所以我们率先去吃螃蟹,把创新的技术率先用在可穿戴 TWS 耳机上。
我觉得技术公司都面对着「拿着锤子找钉子」,那就必须敢去摸钉子,就算有些事锤子不对,有些事钉子不对,尝试一下对技术公司的核心能力成长都非常重要。
极客公园:每一次摸钉子都是有成本的,创业公司资源有限,怎么同时保持核心技术的成长和领先呢?
雷欣:每一次尝试都是围绕着语音交互技术来展开,目标是推进核心语音技术的性能,尝试之后要能沉淀下来一些有价值的技术及数据,能够共享给其它的业务和产品。
极客公园:其实语音领域的竞争一直特别激烈,以至于大家纯靠技术,根本赚不了钱。你们也有栽跟头的时候吧?
雷欣:其实教训还是蛮多的,尤其面对国内巨头的免费开放和补贴抢入口,在这么恶劣的环境下,所有技术人说实话都很难梦想着通过某个独有技术,能一直让客户趋之若鹜。
但其实很多事情都不是绝对的黑和白,对和错。有时候没路的时候就要趟路,最重要的是对自己坦诚。
说到教训的话,其实是我们应该更聚焦。这个聚焦不是说不应该去根据环境变化,积极地尝试新场景。而是要更坚定地要么不做,要做的话就要全力以赴,把这个技术和业务能够做到业界的数一数二。
同时,我们更希望也推动行业伙伴和我们一起。譬如我们不光推出自己的 TicPods 智能耳机,还把我们的 TWS 耳机算法和解决方案 TicHear、热词唤醒、快捷口令等技术,商业落地到像 vivo、一加等品牌的 TWS 耳机上。
人机交互时代正在到来
智能音箱的国内 C 端战场虽然失利,但出门问问基于软硬结合的能力找到了一条独属于自己的发展之路。他们和台湾远传等运营商达成了合作,为企业级客户提供高度定制化的智能音箱产品,出货量远高于过去的 ToC 市场。凭借 AI 语音技术的积累和沉淀,出门问问帮助这类客户建立了 AI 大脑,打造端到端的智能音箱和智能手表等产品。
在此过程中,软硬结合的能力发挥着不小的优势。技术和产品团队只用了四个月时间,为远传打造了一套本地化的生态系统,并提供软件、硬件、AI、用户运营平台和统计工具,帮助他们可以在自建渠道销售,甚至把产品再次 ToB,让银行、保险公司成为他们的客户。
To B 市场对 AI 语音交互敞开了大门。在出门问问看来,人机交互的时代正在到来。在 B 端的很多场景里,语音交互跟智能硬件的结合,正在改变组织的生产力。比如在餐厅,员工无需携带手机,一块出门问问的 TicWatch 智能手表就能通过语音交互,帮助他们解决仓储、出勤等很多问题。
眼下,出门问问 B 端业务占比已经相当可观,而且还在快速增长。或许,C 端用户还没有明显感受到新交互时代的脚步临近,因为太多的前沿领域,都是从 B 端率先爆发,然后才慢慢向 C 端市场普及。或许有朝一日,用户才突然发觉,原来人机交互早已无处不在。
极客公园:你觉得这 8 年作为 CTO,什么事情让你最有成就感?
雷欣:最让我有成就感的,是出门问问过去 8 年,沉淀下来了一套完整的语音交互技术栈和软硬结合的能力,我觉得我们能做到「业界一流」真心不容易。
极客公园:出门问问为什么多次强调软硬结合的优势?
雷欣:因为软硬结合的优势,给我们带来了软件、硬件、算法快速结合的产品创新效率。这在具备软硬结合能力的苹果、谷歌、微软等企业实现都是很有挑战的,毕竟大体量的企业在跨部门协作上相对不够灵活。所以这对创业公司来说,反而是个可以快速创新突破的点。
极客公园:出门问问「软硬结合」的独特之处是什么?
雷欣:它其实需要企业拥有完整的软件算法团队及技术积累,同时拥有出色的硬件设计、研发团队,并对供应链具备稳定的把控能力。
我们的技术研发团队现在有将近 300 人,一般会以 3 人为一个开发单位,保持敏捷的开发流程。工程技术方面,也以谷歌规范为标准,保持自由的硅谷工程师氛围。
极客公园:这 8 年创业,怎么评估你们推动「下一代人机交互」这件事的进展?有什么根本性的变化吗?
雷欣:从公司创立到现在,出门问问对于 AI 语音交互的时代越来越笃定了。但你也发现未来产业的发展和行业风口的形成,不一定先爆发于 C 端。
很多时候 C 端的产品体验好 5 倍,才能成为爆款,而在 B 端只要好 50%,就已经有了绝对的价值。所以,B 端的认同让我们看到了这个必然趋势正在到来,只不过我们期盼的时代不会瞬间在 C 端市场引爆。
极客公园:我知道你们在海外一直有不少忠实粉丝,创业公司冲出大陆,向全球化做布局不是件容易的事情,你们是怎么做到的?
雷欣:首先我对我们的技术是自信的,技术国际化要做的事情很多,包括海外市场不同标准的认证,本地化服务,语言支持等等。与技术创新并重的,是对语音交互使用场景的不断探索。
从接受度来看,海外市场更加欢迎具备创新能力和前沿技术的产品,国内市场则更加倾向于有竞争力的价格和优秀的基础体验。
极客公园:你觉得理想状态应该是怎样的?
无论是 2C 的可穿戴还是 2B 车载,问问一直在做全球化的 AI 公司。比如和 Insta360 的合作,我们帮助他们打造了首款声控模块化运动相机,解决了长期困扰广大视频创作者的摄影风噪问题与操作方式痛点。
所以多年在技术层面上坚持迭代优化 AI 语音技术,目的是不断地提升核心技术壁垒。在不同硬件及不同的场景里参与进去,其实反而让我们在面对 B 端的需求的时候,具备了多方面的能力,能够快速地去解决问题,提升生产力。
极客公园:在这家公司工作了 8 年,经历的种种困难和不确定挺苦逼的吧?你是怎么挺过来的?
雷欣:我觉得技术人应该把手插进土里去, 去真的推动和促进产业向人机交互的方向发展,所以「敢干、愿意干」挺重要的。
虽然过去 8 年道阻且长,但我们收获很多成果,拿下了难啃的车载市场。我觉得做个技术公司最幸福的,可能不是拿一个技术直接变现「出道即巅峰」,而是看着你的技术越来越强,越来越普世化,技术在更多场景,更多领域得到应用,是一个满足感不断提升的过程。
所以一家真正的技术公司,就要对目标负责,甚至不惜为这个目标改变所谓的理想路径,哪怕过程有「之」字形的曲折,也要往那儿去走。这过程肯定挺苦逼的,但也是很有成就感的。
同时, 我们信仰科技向善, 希望用我们的技术让人类生活更美好, 比如我们涉及健康医疗、社会公益、科技战疫等领域, 这也是问问的科技情怀和初心。
极客公园:从 CTO 的视角来看,未来十年的人工智能或者说语音技术的发展和应用会有哪些值得行业和用户期待的地方?
雷欣:作为 CTO,我希望能带领团队做有挑战性的技术和产品,力争做到业界第一,这样才得让大家得到成长和成就感。除了持续做出具备创新功能的软硬结合产品之外,我们也需要开拓更多渠道来实现业务增长。
虽然在未来的两三年之内,AI 发展的瓶颈期还会存在,但是从未来五到十年的维度上来看,应该会有飞跃性的进步。
如果要做大做强,必须将技术进行标准化、模块化、工具化,才能实现高效率的规模化落地。下一个十年,问问会重点围绕着语音交互技术,聚焦车载、可穿戴场景持续打磨,并将核心技术应用到新的人机交互系统和设备中,实现定义下一代人机交互的愿景。
转载请联系极客君微信 geekparker