1750亿参数,比Transformer大10倍的GPT-3为什么没人在乎?

捕捉翻倍美股
上周,OpenAI发表了一篇论文,详细介绍了GPT-3,我们也对论文做了详细的介绍。
GTP-3顾名思义,是GPT-2的升级版,拥有1750亿参数,是迄今为止最大的模型了,在一些自然语言基准上取得了很强的效果。
参数1750亿,存储超过350GB,成本1200万美元!
这么大的参数,自然需要巨大的存储空间来承载。它的存储大小超过了350GB,是迄今为止最昂贵的系统之一,训练成本估计为1200万美元!
当然,一个超过350GB内存、1200万美元成本的计算量,对OpenAI来说不叫事儿,这是一家资本雄厚的公司,不差这点儿钱,他们还跟微软合作开发AI超级计算机呢。
但对大部分AI公司来说,尤其是AI初创企业,那就只能过过眼瘾了,1200万美元甚至可能是一家公司辛苦路演才赚到的一轮融资的钱。
专家认为GPT-3之所以没有引起广泛讨论,原因在于它「遥不可及」
专家们认为,虽然GPT-3和类似的大型系统在性能方面令人印象深刻,但它们并没有在研究方面推动全球发展。相反,更多的是一种形象工程,只是证明了现有技术的可扩展性。
加州大学洛杉矶分校计算机科学助理教授Guy Van den Broeck称:「我认为最好的比喻是一些石油丰富的国家能够建造一座非常高的摩天大楼,在建造这些东西时候,需要花费大量的资金和工程精力,用到『最为前进的技术』,但这个行为本身在科学上没有多少促进。就算迪拜这样的地方盖满了全世界最好的摩天大楼,也不会有人担心美国在建造大型建筑方面会失去竞争力。我相信学者和其他公司会很乐意在下游任务中使用这些大型语言模型,但我不认为它们会从根本上改变人工智能的进展。」
事实上,也曾认为,没有足够的计算能力来匹配OpenAI、DeepMind和其他资金充足的实验室的公司和机构很适合从事其他可能更重要的研究任务,比如研究模型大小和精度之间的相关性。事实上,他认为,这些实验室缺乏资源可能是件好事,因为这迫使他们深入思考为什么某些东西会起作用,并提出替代技术。
OpenAI成了一个反面教材,Bengio和LeCun都不看好AGI
长期以来,它一直断言,巨大的计算力配合强化学习,是通往AGI,或者说能够学习人类所能完成的任何任务的AI的必经之路。
但像图灵奖获得者Yoshua Bengio和Facebook副总裁、首席AI科学家Yann LeCun这样的知名人士认为,AGI是不可能创造出来的。这就是为什么他们主张采用自我监督学习和神经生物学启发的技术,如利用高级语义语言变量的自控学习和神经生物学启发的方法。
还有证据表明,效率的提高可能会抵消日益增长的计算需求。OpenAI自己的调查就显示,自2012年以来,在一个流行的基准(ImageNet)中,训练一个AI模型达到相同的图像分类性能所需的计算量每16个月就会减少2倍。
GPT-3的论文也暗示了人工智能中仅仅增加算力的局限性。虽然GPT-3可以轻松完成从生成句子到语言间翻译的任务,但在对抗性自然语言推理的测试中,让它负责发现句子之间的关系的时候,它的表现却没有比偶然性好得多,作者对此也有非常清醒的认知。
前Google Brain成员Denny Britz认为,一味地追求各个子领域的SOTA结果,正在变得越来越多的计算密集型,这对那些不在某个大实验室工作的研究人员来说并不是一件好事。因为有太多的混杂变量,SOTA通常没有任何意义,它最大的意义在于发论文,以及便于评审给出高分。