清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈
ChatGPT在上线短短几天内用户突破百万,成为近日全球科技领域尤其是AI领域最为火爆的概念。推出这一产品的公司创始人——马斯克毫不掩饰自豪情绪,称“许多人陷入了疯狂的ChatGPT循环中”。
ChatGPT是一款基于自然语言分析的AI训练模型,由马斯克创办的人工智能公司OpenAI推出。这是一款界面类似于聊天的软件,用户在对话框中输入问题,它就会自动生成答复。
能够自动答复的AI聊天并不罕见,国内许多电商平台的客服,以及手机、音箱等设备的人工智能助手早已应用,为什么ChatGPT突然爆火?它有哪些技术突破?对此,搜狐科技对话了清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈。
黄民烈表示,可以把ChatGPT理解为偏任务型的通用AI助理,就是要完成用户下发的指令和开放域任务。它跟国内百度、华为等公司发布的语言对话类模型定位不同,目前国内还没有企业正式推出类似ChatGPT的模型。
ChatGPT出圈后好评和质疑齐飞。一方面,大家惊叹于它展现出的语言组织、文本水平和逻辑能力,写代码,写论文,写菜谱,写情书、小说和诗歌都不在话下,有观点认为它将取代谷歌等搜索引擎。
另一方面,它也暴露出诸多问题,瞎编乱造,一本正经地胡说八道,还会犯常识性错误,连小学生的数学题都算不对,并会拒绝回答某些问题,但有时又会作出不符合人类伦理的价值观判断。因错误信息泛滥,ChatGPT生成的内容还被编程社区Stack Overflow临时封禁。
黄民烈表示,ChatGPT展现出的对话能力惊人,但还只是Demo,不能用产品的标准去要求它。作为生成模型,都会存在犯错、随机编造等缺点,这需要靠数据和算法,包括结合应用场景的特点来优化。
同时,ChatGPT对不同语言的理解也受制于训练模型时的数据分布,它的中文能力比英文弱,可能就是因为训练时中文数据比较少,中文语言本身也比较难理解。
同样让网友诟病的还有,ChatGPT似乎会做出自己的价值判断。如问马斯克跟库克掉到水里先救谁,它会说两人都非常重要,但库克可能对人类社会更有价值,所以先救库克。黄民烈对此表示,这跟模型标注的价值观数据有关,如果再问一次,也许它会选择救马斯克。
“最本质的方法是要把人类的一些价值观和伦理告诉模型,让模型去做优化。”黄民烈认为,机器很难具备自主的意识去做价值观或情感的判断,目前离这个阶段也比较远。
OpenAI的首席执行官Sam Altman也意识到ChatGPT出现的系列问题:“我们正试图阻止ChatGPT随机编造,现阶段让其与当前技术保持平衡很棘手,会根据用户反馈来改进。”
黄民烈认为,OpenAI建立起用户调用、数据、模型迭代之间循环,ChatGPT基于此也打通了用户、数据和模型之间的闭环。随着用户的增加,自身模型会得到优化,能力也将进一步提升,而它在全球的爆火将引领无缝人机交互时代的到来。
虽然ChatGPT表现出惊艳的内容创造能力,但黄民烈认为,它还无法替代谷歌等搜索引擎,其在时效性、成本等方面还达不到大规模使用的要求,它会是当前搜索服务非常好的补充,或许某天会成为下一代的搜索引擎。
据Sam Altman透露,ChatGPT目前对话平均费用在0.01-0.2美元/次。而类似GPT-3这样的大模型训练非常烧钱,公开数据显示,GPT-3训练一次的费用是460万美元。
在应用前景方面,ChatGPT和此前流行的AI绘画一样,都是属于AIGC(人工智能生成内容)。黄民烈认为,其实AIGC技术已经发展地很好,关键是要找到落地的应用,找准场景的话未来会有很大的想象空间。
以下为对话实录(经编辑):
搜狐科技:ChatGPT近日来非常火爆,短短几天用户突破百万,为什么它会这么受欢迎?
黄民烈:OpenAI在行业内比较有影响力,这次推出的ChatGPT性能很强,它的模型架构主要是instructGPT,而instructGPT是基于GPT-3.5来训练,拥有强大的基座模型能力,利用了强化学习方法从人类标注者的反馈中学习(RLHF)。这跟大模型在AI届大热也分不开,最近一两年大模型的能力在学术界、工业界都发展到了一定的阶段。
搜狐科技:国内在这块有没有类似的产品?跟ChatGPT在技术或模式上相比如何?
黄民烈:在开放域对话方面,百度推出了ERNIE 、PLATO等模型,我们团队有EVA、OPD等模型。在通用语言模型上,国内有GLM、CPM、pangu、yuan等。但ChatGPT和它们定位不同,它更多是偏任务型的通用AI助理,就是要完成用户下发的指令和开放域任务,如写首诗、写篇年终总结等。另一类开放域闲聊,可能满足的是情感需求或消磨时间的需求。国内目前还没有企业推出类似ChatGPT这种通用型的智能助理模型,但有企业在做,应该会在近期发布。
搜狐科技:ChatGPT能写代码、写作文,给人感觉智商水平挺高,但也会犯常识性错误,有时还会随机编造,一本正经地胡说八道,为什么会有比较明显的能力差异?
黄民烈:这是一个生成模型,对于生成模型来讲,都会存在这样的缺点。这个模型目前已经在很多能力上非常惊艳,现在它还只是Demo,不是真正的产品,所以不能用产品的标准去要求它,具体跟应用场景是密切相关。
同时,ChatGPT是一个多语言的版本,可以在一套模型里边把各种语言数据都装进去,对不同语言的理解取决于训练模型时的数据分布。它的中文能力要比英文能力弱,可能就是因为中文数据比较少,中文语言本身也比较难。
搜狐科技:有什么办法来降低错误率或纠正?
黄民烈:还是要靠数据和算法,包括结合应用场景的特点来优化。OpenAI之前做的模型很容易犯伦理、安全等方面的错误,ChatGPT已经对这些问题进行了专门优化。应用的时候也要结合实际场景做针对性的优化,取决于数据质量和算法的能力。
搜狐科技:ChatGPT自身似乎会做价值观判断,如问马斯克跟库克掉到水里先救谁,它会先说两人都非常重要,但库克可能会人类社会更有价值,所以先救库克。它是如何做出这种判断的?
黄民烈:如果再问它一次,也许它会说先救马斯克。AI的伦理和价值观本身很值得研究,最本质的方法是要把人类的一些价值观和伦理告诉模型,然后让模型去做优化,它才知道什么是好,什么是坏。但要让机器具备自主的意识,去做价值观或情感的判断,目前相对比较难,距离还比较远。
搜狐科技:ChatGPT也会拒绝回答不合法、不合理或敏感问题,还拒绝做出预测,这受到什么影响?
黄民烈:这是策略的问题,由数据标注和模型训练所致,就是当用户在问这类问题的时候,给模型设置了安全的回复策略,不要去做任何判断,这也是人赋予它的一种策略。从这个角度来说,其实它也存在一定局限,还是伦理、安全性方面的考虑。
搜狐科技:这么多用户体验ChatGPT,对它自身的进化能起到什么作用?
黄民烈:ChatGPT有这么多人用,就会产生很多真实世界的用户数据,然后利用这些数据可以做内部的标注、清洗、优化,重新去训练模型,打通用户、数据和模型之间的闭环,这是它的基本能力。
ChatGPT展现出的对话能力惊人,但对它能力的评价不能从能否分辨出是人还是机器的角度来看,图灵测试只是一个维度。作为一个生产工具,其实已经够用,不用关心它是否能够达到人的智能,达到了能够解决更多的问题吗?其实也未必。
搜狐科技:有观点认为ChatGPT这类对话的大型语言模型未来有可能取代谷歌等搜索引擎,您怎么看?
黄民烈:替代谷歌等搜索引擎,我觉得还有点距离,相反它是当前搜索服务非常好的补充,或许某天会成为下一代的搜索引擎。ChatGPT所有的内容都是生成的,它可能会编造,或用它的语言重新表达。搜索是从别的地方搬东西,建立索引,然后通过查找把信息呈现出来,它不创造任何东西。
搜索在某些情况下对时效性要求很高,而ChatGPT这一类模型,除非有一些额外模块,还达不到时效性的要求。它生成的成本也很高,比搜索贵得多,不能非常大规模地使用,还需要硬件成本和推理成本的持续下降才行。
搜狐科技:ChatGPT和此前火的AI绘画等都属于AIGC范畴,如何看待这类技术的应用前景?
黄民烈:AIGC可以作为辅助创作的工具,在很多场景里都能用,如在游戏里可以用作创作引擎生成游戏场景的素材,也能够用在人机交互、情感、动漫等方面。我觉得未来它会有很大的想象空间,找准场景的话,会有很好的落地应用前景。
搜狐科技:您提到以OpenAI为代表的企业已经进入AI 3.0,AI 3.0目前处于什么水平,还需要解决哪些问题?
黄民烈:以OpenAI为代表的 AI 3.0在走一个跟过去AI浪潮不一样的路,它更落地、更接近真实世界,在工业应用上更直接、更接地气。按自动驾驶的智能水平来讲,AI 3.0目前处于L3-L4的阶段。现在是比较好的时机去做应用和去做前沿的研究,已经具备这样的条件。
OpenAI这种公司比较独特,国内企业要想发展还需要资本、数据等支撑,行业还是要更开放、更共享和更专注。现在最主要的问题是技术其实已经发展地很好,但需要找到和应用的结合点。如何把成本降下来,以及安全和伦理的问题,也需要持续去解决,但不妨碍这些技术开始进入落地和变现。