奇点前夜还是算力极限？OpenAI史上最大语言模型引争议

程序员文章站 2022-05-04 23:01:43

“玩gpt-3就像在窥视未来。”这是界对目前最大语言模型gpt-3的普遍反应，甚至有分析人士指出，这将是之后又一个影响世界的现象级新技术，而低估者只会后知后觉。就在上个月，由诸...

“玩gpt-3就像在窥视未来。”这是界对目前最大语言模型gpt-3的普遍反应，甚至有分析人士指出，这将是之后又一个影响世界的现象级新技术，而低估者只会后知后觉。

就在上个月，由诸多硅谷大亨联合建立的人工智能实验室open推出的gpt-3开放了部分api测试资格，希望外部开发者帮助它探索功能，并计划将其转化为商业产品。之后体验者公开的测试结果引起学界和工业界的激烈讨论。

许多测试者发现gpt-3在生成任何类型文本的过程中，创造力和准确率比过往的ai模型有更大突破。有测试者展示了利用gpt-3生成小说和新闻，原本所提供的仅仅只是标题和第一个单词；有测试者利用gpt-3做了ui生成器，仅通过语言描述就能生成ui的各个组件，如sharif shameem输入“像西瓜一样的按钮”即完成了网页设计；还有测试者利用gpt-3写sql查询代码、运维的命令，分析食物营养成分，生成资产负债表；更令程序员担心就业的是，有公司的首席技术官在测试过程中偶然发现gpt-3可以用来直接生成代码。

在测试发布前，之父、鼻祖、图灵奖获得者geoffrey hinton在推特上表示：“将gpt-3的惊人表现推演到未来，可以得出的结论是，生命、宇宙和一切万物的答案只是4.398万亿个参数而已。”但质疑声也同时四起，大学名誉教授gary marcus和系教授ernest davis在《麻省理工科技评论》上发文称“傲慢自大的gpt-3自己都不知道自己在胡说什么。”批评者指出gpt-3的“暴力美学”远非智能。

算力的飞跃式升级

在计算机（nlp）领域，语言模型是重要工具，基本原理是对语句分布概率建模，传统的语言模型需要测试开发者采集大量训练数据进行调优，之后才能应用到下游的具体nlp任务中，调优过程耗时长且代价高昂。但openai所推出的模型仅需要文本交互和给予少量示例，即能完成翻译、问答和文本填空等任务，这源于gpt-3高达1750亿的巨大参数量，是前一代的116倍，效果如同烧钱“暴力”提高ai准确率。

上海交通大学计算机系教授赵海对南方财经全媒体记者表示：“其实它的训练模式很简单，我给你前面一句话，预测下一个词，语料库如果足够大的话，所有组合都已经丢进去了。”赵海的团队曾在斯坦福大学发起的国际权威机器阅读理解评测squad2.0挑战赛中获得单模型第一的成绩，他认为gpt-3相当于把45t的文本压到一个模型里，数据训练量可以想象成100万个受过良好的人终身的阅读量。

gpt-3的论文长达72页，作者多达31人。根据openai官方信息，所有模型都在微软提供的超级计算机系统上训练，该系统据称拥有超过285000 个 cpu 核心、10000 个 gpu 和每秒 400g 的网络。在超大算力资源的加持下，gpt-3训练一次的费用是460万美元，训练时间为355个gpu年，总成本据悉达到1200万美元。由于代价高昂，论文直接承认出现bug时无法再重新进行训练。

openai成立于2015年12月，定位为非盈利组织，旨在确保通用人工智（agi）能让全人类全体获益，而非被少数巨头垄断，创始人包括硅谷钢铁侠埃隆马斯克，马斯克后来因openai未将模型全部开源而退出。openai去年从非盈利转型为有限盈利，微软已经为openai10亿美元，并获得部分技术的商业开发许可。

根据openai的计划，此次开放测试申请可以让外部开发人员帮助他们探索gpt-3的功能，预计今年底会将gpt-3变为商业产品。作为非盈利组织，这一计划遭到部分业内人士指责，openai回应表示商业化是确保后续拥有足够研究资金的方法，并强调：“最终我们最关心的是确保人工智能能够使所有人受益。”

赵海在接受采访时提到，“有一件事情需要澄清，大工业社会科研体系是近代社会才有的。哪怕是全球市场，从*竞争到垄断，市面上最大的几家公司开始改变规则，先进技术一定会取代落后技术吗？不是，资本控制下以利润为优先的原则开始决定这个技术要进步得有多快。重大技术的转换现在要由许多复杂因素促成。”

之所以选择发布api而不是发布开源模型，openai官方表示主要有三个原因：首先，技术商业化有助于获得后续ai研究工作资金；其次，模型运行仍旧代价高昂，希望api能使小型企业和组织更容易访问其ai系统；最后，api使其能够研究潜在的技术滥用，及时控制有害应用程序，终止api访问，改进工具和流程。

其提到的技术滥用情况，包括骚扰、垃圾邮件、假新闻、内容不道德风险等。facebook的ai部门主管jerome pesenti已经公开指责gpt-3不，他用gpt-3生成的一则推文蕴含种族歧视和暴力血腥信息。该语言模型的训练数据来自全球网络，天然布满潜在陷阱。

实用与概念的距离

除了成本，在真正的智能以及实用性方面，gpt-3仍然饱受质疑。

“它向我们展示了一下，规模大到这种程度，模型能变成什么样子，但是这些能力离实用还是很远。”赵海表示。

赵海所在的学界讨论群一度被gpt-3刷屏，他认为从宣传攻势上看，openai已经成功。他分析认为：“一般的话，公司会维持一个常规的生产线，还有一个奢侈品似的高端产品线，高端产品线不是用来赚钱的，只不过证明我们行，品牌是光鲜的，但是真正赚钱的是那种低技术走量的产线。gpt-3其实属于前者，它不见得起什么作用，离主流使用也非常远，属于概念性的产品。或者算不上产品，只是一个概念。”

openai的ceo sam altman也表示：“gpt-3被讨论得太过了，它的确令人眼前一亮，但是它还有很多缺陷甚至有时会犯愚蠢的错误，ai将会改变世界，但gpt-3还只是很早的一瞥，我们还有问题需要解决。”

多位人工智能从业者指出，gpt-3令人震撼的文本生成能力背后靠的是巨大的资源数量，但是最关键的是，它仍然没有语义理解和因果推理能力，数据驱动的方法难以产生真正理解自然语言的系统。

即使未来能商用，一位硅谷人工智能网络安全公司cto对南方财经全媒体记者表示，他并不担心gpt-3会取代程序员真正的技术工作，只会提高工作门槛和效率，“gpt-3的训练语料库可能包含一些网页的代码样本，或者编程教程，未来会被取代的可能是初级的编程任务，比如那些一直依赖*论坛和只会复制粘贴代码的搬运工。”

在商业应用的可能性上，有硅谷投资人认为，即使gpt-3生成的内容60-70%无效，但在个别任务上仍然能生成令人惊艳的文本，值得关注。目前的一个潜在应用是更精准地满足用户的深度搜索需求，未来可能可以演变成结合深度搜索和分析能力的人类智囊，如心理咨询、分析公司等，将重构涉及信息处理分析和创造的行业。

支持gpt-3等模型发展的因素包括算力的提高、高效计算模型涌现、更多高质量的训练数据，他认为这三者都可以预期，比如同等算力的gpu价格如果每八年降低一个数量级，未来的训练成本完全有可能下降数百倍。但有从业者认为，算力已变成巨头的技术高墙，难以企及。

赵海指出，数学作为基础学科已经大幅度超前，现在计算机学科的许多模型在上世纪已经存在，拥有足够算力的单位将占领先机，“其实我们真正需要的是说算力的价格变得可以接受，gpu的普及也就是最近10年的事情，一直卖得很贵。它的成本能降下来的话，没问题，但这里面你还要考虑到一个市场模式的问题，目前gpu基本上被一家以暴利价格垄断了。”

“伟大的想法，伟大的算法，等待着算力降价的那一天。”赵海说。

上一篇： OPPO宣布进军智能电视：新品10月发布

下一篇： LG在国内召回9434台OLED电视：过热可导致背板熏黑、熔融