AI+保险，更看好NLP的商业落地

leiphone_com

原创作者 2020.06.1911:52

关注

原标题：AI+保险，更看好NLP的商业落地

从2018年开始，AI就给保险制造了一个强大的话题。复旦大学保险科技实验室、中国保险学会联合发布了首个AI+保险「路线图」，指出人工智能在保险业将飞速发展，预计在2020年，行业进入中智能时代，在2018年以后，保险行业的人工智能运用率将达75%。

此后「保险更AI」成为未来行业发展的潮流与趋势，一度被誉为“新风口”，谁把握了机会，就把握了取胜关键。

两年过去，在所谓的中智能时代，技术的成效进入判定期，雷锋网专访了2017年跟随保险+AI热度从硅谷回国创业的郭志扬博士。

作为栈略数据的联合创始人及首席技术官，郭志扬博士并非保险科班出身，在涉足保险科技前，曾在美国硅谷从事大数据研发工作多年，曾任职于Airbnb（爱彼迎）机器学习构架组核心架构师，带领团队研发的广告投放平台每年支撑广告预算超五亿美金。

他向雷锋网表示，AI制造了一个很大的话题，这个话题的关注度让许多保险公司都产生fear of missing out（害怕错过）的心理，也为更多的AI技术公司创造机会，可以切入到保险领域，接触到业务和数据。

但两年下来，理性取代感性，AI+保险这一风口的实际效果非常有限，对于险企需求最高的流量获客，AI并不擅长，而其它核保、客服虽然有热度，但泡沫居多，风口一过就能发现谁在裸泳。

以下是专访的完整内容，雷锋网做了不改变原意的编辑。

过热是因为噱头过多

雷峰网：对于AI的应用，在保险科技和其他互联网领域有怎样的区别？

郭志扬：以我的经验来看，AI在to B的投入产出比互联网要差的多，在爱彼迎做C端付费增长，每年广告投入超过5亿美金，在全球195个国家做广告投放，团队研发的智能广告投放平台Smart Bidder的产出，则每年都可以为公司省下大量资金，获得直接效果收益。

但to B的AI应用，大多数情况是热度偏多、噱头偏多，真正效果产出并不明显。

而且保险行业的发展趋势也是毛利越来越低。如保费收入来看，保险平台及渠道至少拿掉30%~50%甚至更多，再保企业还要分一部分，运营和客服都需要投入，最后的资金池非常小，而无论核赔还是核赔风控，都需要先期投入，才能收获效果。

在大多数健康险公司都在赔钱的前提下，这种投入的盈利比较困难，但从长期角度，核保和核赔风控一定是硬性刚需。

此外，保险AI还需要满足输出结果可解释性，否则对业务没有任何作用。

雷锋网：现在AI保险热度高的原因是什么？

郭志扬：AI制造了一个很大的话题，这个话题让许多保险公司都产生了焦虑和好奇，也让AI技术公司有机会接触他们的业务和数据，从而产生了许多的学术成果和项目。

雷锋网：AI在保险实际是怎样的情况，在哪些场景中有明显的效果，又在哪些场景停留在噱头阶段。

郭志扬：目前AI在保险的应用场景并不多，如我们栈略数据做的是理赔风控领域，就是AI应用仅有的几个方向之一，其他的核保、销售应用，目前大多数都停留在噱头阶段。

例如，前一段时间某保险科技公司宣称，其研发的语音AI产品已实现自动交互，可以减少2/3的客服坐席，但实际仅仅实现非常初级的NLP应用，本身技术角度AI还无法自由谈话和个性化推荐。

这种类型的应用，最后只是AI效果不足，人力来补，像这样停留在外围的AI应用，在保险行业并不少见。

雷锋网：栈略数据目前做的AI核赔方向，产生怎样的效果，有没有明确案例和量化指标。

郭志扬：栈略数据做的健康险理赔风控主要KPI就是减损率，利用风控模型在核赔中找到减损金额。

以目前比较火的好医保举例，投保和理赔过程中需要填写很多信息，而且还要上传部分投保、检查单据等大量非结构化医疗数据资料。

这些数据里面往往包含大量扣费点，例如过度医疗行为，就需要对应清洗，栈略数据曾就遇到一个手术案例里开了大量的补品，这种场景必须要做相应扣除。

我们从事的业务方向并不面向C端，而是帮助保险公司实现理赔和控费，通过发现赔付不合理的费用。目前栈略数据可以达到15%~20%的不合理费用剔除，未来可能会提升至30%。

雷锋网：除了核赔，AI核保为什么无法发挥作用。

郭志扬：核保本身非常困难，我个人不认为它是一种商业模式，除了技术原因，往往还有行业原因，因为核保会卡到销售，至于AI核保的概念则更不实际，保险公司不会因为一种尚在概念中的产品结果，影响自身的营收。

雷锋网：那么对于保险核赔，使用复杂机器学习模型和简单决策树，有怎样的效果区别，是否简单的决策树就能搞定。

郭志扬：复杂神经网络和简单决策树之间功能本身就存在重叠，差异来自于适用场景不同。

像时序、文本数据，深度学习就有很多方法，但机器学习就很难完成；而对于结构化表格数据，使用深度学习就会杀鸡用牛刀；栈略数据在面对医保套药这种结构化数据，也是使用随机森林数据模型。

而且简单决策树不会是一招鲜，像理赔风控所应对的问题场景就非常多，包含理赔案例扣除、滥用、冒名就医等多种情况，每一种欺诈行为模式都需要一种固定模型。像前置就医场景，除了使用NLP，还要涉及迁移学习等技术来发现指向型信息，这些简单决策树都无法搞定。

人工 VS 智能

雷锋网：这种理赔风控，过去就已经靠人从统计学角度进行应用，您认为相比AI有怎样的区别。

郭志扬：金融风险控制的本质就是风控+运营。过去统计学角度往往基于宏观概念，这种宏观对于风控的影响在于，如果开始没有精算好，后期理赔运营卡的再紧都会亏。

理赔风控则是按照每一单完成扣费，属于运营中的风险控制，如果控制不好，最后也会造成保险赔的很惨，这也是造成许多初创健康险公司亏损的主要问题。

雷锋网：两者有哪些结合，未来人工和智能，哪一个会更重要？

郭志扬：风控AI建模之初一定需要依靠经验，栈略数据AI产品冷启动阶段，就是算法工程师和理赔专家每天泡在一起，先学习理赔扣除经验，才回到模型训练，把经验沉淀到模型当中。

而且上线之后，模型出现的假阳性或识别不准等情况，往往也需要依靠经验来进行调整，整个AI训练迭代过程，就是人工经验的转化。

但我认为，未来人工经验的重要性会逐渐下降，而且慢慢会被AI所取代。

首先，随着AI经验的积累，两三年以后，对已有风险场景AI会非常精准，人工经验重要性也就随之下降。

像健康险风控，在积累上万以及更多标签之后，就能精准分析实际扣费情况，理赔员应对这一场景也不需要花精力去看，相信AI就可以，因为AI99%的计算要比人更精准。

其次，对特有专家经验泛化，健康险的理赔审核，对于没有医疗经验的理赔员会非常困难，而那些有医疗经验的专业理赔员，也往往没有精力去看比较小的理赔案例，AI则可以把医疗理赔经验进行复制，覆盖更多健康险理赔场景。

雷锋网(公众号：雷锋网)：未来理赔AI的发展方向，是否是技术为王，又有哪些场景会取代人工？

郭志扬：对于不同场景，可能就会出现替代，像非常容易被预测的黑盒子，固定输入就可以得到固定输出的场景，可能就不再依靠人的经验。

但AI一定不是万能的，像保险精算，输出保险产品会不会赔、赔多少的情况，背后的输入因子需要对多种经验进行复合分析，是踩了很多坑之后的经验集合，这个AI永远替代不了。

我和再保的合作中就发现，精算师对于对于一款健康险产品的判断，往往需要基于渠道选择、销售策略、定价、运营，下面分包情况等多种因素，也就是非常复杂的决策体系，AI很难进行复制。

雷锋网：理赔AI应该怎样和健康险的发展趋势进行结合，未来会发挥怎样的作用。

郭志扬：中国的健康险行业本身就处于早期阶段，许多保险公司将健康险产品当作快销品来营销，如爆红的这些百万医疗险产品。

但这只是短暂历史过程，后面的竞争一定是依靠服务、风控的能力，重视这些的健康险公司才能实现盈利，占据市场。

那些跟风的保险公司会因为运营、风控的原因被逐渐淘汰，之所以还看不到表征是因为保险具有滞后性，上半场无法体现本质，下半场比拼才是硬实力。

雷锋网：应该怎样看待AI在保险中的作用，过分追捧技术，搭建非常厉害的技术团队是否有必要？

郭志扬：我作为技术出身，我认为AI技术本身并不直接产生价值，过分宣传AI就是追求资本噱头，作为一种工具，AI真正的价值产出应该在于其服务的业务场景。

而如果业务本身不赚钱，还在搭建很贵的深度学习团队，过分的追求技术，一定是很大的问题。

我们认为，AI团队的组建策略应该是小而精，应该了解实际问题场景贴近底层，以业务为出发点，而不是抱紧技术。栈略数据的算法团队是一个小团队，但基于对业务的深耕，已经建立上百种风险场景模型。

而且，过分追捧技术就是资本驱动的怪象，这种情形在硅谷非常常见，往往新技术一出现，资本就开始追捧，造成人才成本上涨，所有公司都很焦虑，但最后发现并没有商业价值，泡沫开始破裂，只能开始遣散这些员工。

雷锋网：保险本身作为难以预测的领域，栈略数据在实际应用中是否遇到过拟合、噪音数据过多的情况。

郭志扬：栈略数据的核心优势是同时服务于商保和医保。医保的巨量数据，可以有效训练数据，把经验沉淀为模型，应用到商业健康险风控当中，实现核赔风控。

过拟合这种现象在行业内并不少见，保险行业本身具有目标数据过小、数据贵的特点，这和高频交互、巨量数据的互联网有很大不同。之前在爱彼迎，C端用户交互就可以产生大量带标签数据。

而保险重疾风控、反洗钱场景往往只有几千条训练数据，几百条阳性标签。面对这种情况，栈略数据已经积累更多解决办法，例如数据增强、规则结合模型等。

NLP称王

雷锋网：您觉得当前计算机视觉、语音&NLP、机器学习，这三条技术线，哪个对实际业务改善最显著？

郭志扬：个人觉得NLP相比于其他类，会走得更远，得到的效果也会更好。

而像计算机视觉等还停留在噱头阶段，像前一段时间被追崇的OCR，曾经一家大型保险公司拿着需求，到处找团队尝试，但最后发现都无法取代录入团队，不到半年泡沫就破了。

脱离业务的技术革新本身就是伪命题，没有办法把复杂医疗单据和影像完全结构化。而且目前国内医疗数据格式也还未形成标签化，即使是做到80%识别度，仍然会增加人力审核，还不如不做，所以计算机视觉技术还没热，风口就下去了。

NLP在保险行业从交互机器人，到保险风控都已经有很久的应用，主要是因为其可以解决高危数据、复杂数据格式的特点比较符合保险行业的诉求，许多算法都可以直接迁移到风控当中。

雷锋网：除了计算机视觉，还有哪些AI的实际使用效果并不好，背后原因是什么？

郭志扬：观察来看，整个行业对于AI都还处于探索阶段。如关于核保的应用，在2017年栈略和某BAT也曾联手尝试过，当时计划做一个健康险自动核保系统：输入个人健康信息，即可得到承保结论。

但实践中发现，方法论根本无法突破，首先病历结果数据很难结构化拆分，另外也无法准确比对到核保手册规则引擎，以至于现在都没落地。

另外，交互机器人也存在初始期望过高的情况。许多险企都希望利用交互机器人完成一部分展业工作，通过和客户交互沟通获得诉求，推荐适合保险种类，但实际所推荐的产品和人的需求相差巨大。

这些现象发生的原因，就是很多保险公司都存在fear of missing out（害怕错过）心理，一款新技术出来，不管是否真的有效或者有必要，就去追捧。

雷锋网：AI在保险智能营销上的作用是否比较有限？

郭志扬：销售流量对于保险公司的确是刚需，但销售环节的AI落地并不擅长。高流量入口对AI并非刚需， AI增员现在还仅仅是噱头。

但AI在营销领域依然非常受追捧，这和保险公司自身的策略有很大关系，绝大多数的IT预算都会投入在营销获客，衍生出很多AI应用的噱头。

从技术宅到创业者

雷锋网：遇到不太懂AI的客户，一般怎么教育对方，或者怎么提供咨询服务？

郭志扬：To B销售特点就是需要帮助客户梳理需求，明确需求的核心。理赔控费的核心需求肯定是节省更多钱，具体包括提高核赔效率、再保分保服务、团单二次展业等。

合作初期，大多情况用户可能只有TPA需求，在逐步建立互信之后，按照实际场景匹配更多业务需求，是我们常见的营销策略。

此外，在客户的理赔风控需求的对接期，我们通常会提供一版风控预报告，详细说明节省费用数量、各类风险点，在用户确定其合作价值，再谈详细合作。

雷锋网：如果客户方使用供应商的产品体验不太理想，栈略数据通常情况下会怎么做？

郭志扬：当然也会根据用户需求特点，做MVP（最小可行性产品）改进，之前某个自动化预垫付服务项目，就是按照客户的医疗需求特点，快速调整规则引擎，从而满足需求。

雷锋网：从爱彼迎互联网to C到保险科技，从技术工程师到创业者，这种转变经历了怎样的困难。

郭志扬：这个困难是巨大的，过去作为技术宅，对于AI就是技术型思维，拿着这个锤子，到处找钉子看能不能砸一下。

但创业之后，这种想法慢慢演变为商务思维，变成先了解客户需求是什么、预算情况、付费意愿、下一阶段目标。从需求回到自己的产品，到怎么做，由“锤子”思维（技术思维）转变为创业者思维。

创业的经历让我们明白：世界是由供需关系决定的，提供的商品价值决定获得的价格和营收。建议技术背景创业者，从心态开始转变，在大谈技术之前，应该先了解用户真正需要什么。

雷锋网：您对每年不断涌入AI保险行业的新创业者和优秀技术人才有什么建议？

郭志扬：我个人最初从事的是互联网领域的AI应用，毕业后一直在美国工作，创业初期对国内的医保环境、保险业务流程、行业需求其实是不了解的，属于空白型创业者。

健康险行业本身作为一种融合型的产业，涉及金融、运营、医药健康等多领域，具有许多AI创新的开拓点。但创新的前提是需要对这个行业建立充分的了解，否则所谓的创新，一定会停留在场外。

对于技术型工程师，我的建议是如果追求目标是百万年薪的短期效益，就不要来保险行业。你可以尝试互联网，在流量端进行算法提升，即可迅速带来可观的营收效果。

而保险行业解决的问题需要对业务链产生足够的价值，需要时间的打磨，并不是一蹴而就的结果，如果没有准确切入业务需求，生存都会成为很大问题。

雷锋网：虽然这几年AI在金融、医疗、教育都有很高热度，您认为这种热度是真需求还是资本炒作。

郭志扬：这个不应该看热度，部分AI企业的营收其实并不好，还要流血上市，在难以证明价值的情况下，高估值必然难以长期为继，泡沫一旦退却，往往就能发现谁在裸泳。所以AI应该回归技术本源，真正的价值应该是能解决怎样的行业问题，而不是噱头。

附嘉宾简介

郭志扬博士

现任上海栈略数据技术有限公司首席技术官，博士毕业于纽约州立大学石溪分校电子信息工程学院，研究课题为云计算架构。期间发表二十余篇顶级国际期刊与会议论文，并著有英文书籍《高性能数据中心网络》。郭志扬博士曾在美国硅谷从事大数据研发工作多年，先后担任过Rocket Fuel机器学习构架组科技带头人、Airbnb机器学习构架组核心架构师，回国后参与创立了栈略数据。

雷锋网原创文章，未经授权禁止转载。详情见转载须知。