2023新年伊始,农历新年初一到初八,钛媒体&钛空时间首档财经开年大课来袭,8天8堂经济学家课程,独家邀请20+经济学者、行业领袖、企业大咖,带来最新最前沿的深度分享,以及最精辟最理智的未来预测科学预判潜在风险,捕捉未来机遇锚点,帮助大家在新的一年自信起锚,乘风破浪!【点击查看全部课程内容】
本期课程主讲人:
张宏江 美国国家工程院外籍院士,北京智源人工智能研究院理事,微软亚洲研究院原院长
以下为课程实录,略经编辑整理:
最近AI大模型开始从学术界烧到了产业界,现在又烧到了大众媒体,尤其是人工智能的生成模型的热还没有退去, ChatGPT的热又一波接着一波。最近人工智能到底发生了什么大的变化?这背后的原因是什么?这些技术能够用来做什么?又将为我们的生活和工作带来什么?为中国的产业带来什么?我在这里结合智源人工智能研究院的一些工作,和大家分享一下我的理解和看法,尤其是针对ChatGPT和AIGC大模型的发展和机遇。
过去这两年,技术大模型已经成为人工智能快速发展的关键的技术。各大企业和高校,各个研究机构在这个领域上都进行了布局和发力。各个领域的模型层出不穷,那么大模型的研究和应用也将会逐步的成为人工智能发展的一个关键的方向,形成新一波的人工智能的浪潮。尤其是在应用这个领域,我相信又会形成一个非常长久持久的浪潮。
我们看一下在这里,从GPT-3在 2020 年 5 月份发布开始,智源的悟道在不到一年后开始发布,随后中国的大模型的研究就开始风起云涌。智源在 2021 年的 6 月发布了当时的世界上最大的模型就是万亿模型, 1. 7 万亿模型。随后这一年多以来,我们也看到有更多的模型出来,尤其是最近的DALL·E的模型和ChatGPT的模型,宣告了这个模型进入了一个新的高地。那么我们在这边也可以看一下,各个研发机构发布的技术模型的数量,这个数量在持续地增加。另外一个就是模型的规模也越来越大,这个背后其实有它非常非常深远的技术和学术的背景
我们先看一下,从学术角度,从基础的技术的角度来看,预训练的大模型的发展,回顾一下它的技术本身的积累。其实深度学习在 15 年前开始逐渐快速发展的时候,我们当时实际上是一个探索的阶段,因为构建深度学习的主要方式就是监督学习,这中间需要大量的人工的标注的数据,而数据的生产的周期长,而且也非常昂贵。那么如何能够通过有限的人工标注,在特定的任务上构建更有效的神经网络,或者是自动地产生大量的数据,这其实是我们一直在研究的问题。
随着深度学习的技术的发展,在大概七八年前出现了迁移学习技术,从过去学习的知识上不用再重新开始训练,用新的数据加上去以后,就能够将已经捕获的知识迁移到一个新的目标或者一个新的应用上去。这两块都是我们今天大模型的非常重要的技术的基础,也就是传统的监督学习、迁移学习加上强化学习,实际上是我们今天看到的技术发展的核心的基础。
另外一块,人们往往忽略掉了,人们看到的大模型的快速的发展,人们可能意识到这学术的发展非常非常快,其实不光是学术发展非常快,刚才我谈到大模型的深度学习,最重要的是它通过标注好的数据进行学习,在这块其实过去的时间也有非常大的变化。另外两块很大的变化是一方面在算法上,另外一方面也是算力的要求上。
所以我们说深度学习实际上是三个因素,数据、算法加算力。算法的进展我就不多讲,但是数据的进展在过去的十几年,是非常非常快速的,从一个最开始的人工的标注,到开放的数据集的分享,到数据自动标注和深层的研究,这些技术的进展到了最近的 5 年,把数据变成了一个云服务,建立起集数据标注、处理、存储、管理于一体的这种今天的云数据中心。这块实际上是对于人工智能的发展,有非常非常重要的推动作用。
另外一方面,就是我们从一开始推动这个AI 专用芯片,比如 Nvidia 的GPU,到后来推动大规模的分布式的计算环境,到今天我们已经有了大规模高性能的 AI 算力中心。这两块一个是数据,一个是算力,实际上这中间是不可缺少的。在这个过程中间,我们另外意识到一点,我们以前认为深度学习人工智能实际上是算法,是基础的研究,是一些算法的突破。但今天我们知道到了大模型这个阶段,事实上工程的能力在这块是非常非常重要的,尤其是GPT-3,向我们展示了从算法到工程上的一系列的突破。
我们看一下GPT-3,因为 GPT-3 是大模型的最典型的代表。 GPT-3从算法上来看,从它的架构上来看,它是建立在Transformer 的基础上的。 那么Transformer 是一个神经网络的架构,它克服了传统的神经网络用浅层的预训练网络来捕捉单词,而无法解决一词多义的等问题的这样的一些缺陷。它其实是优化了类人脑的这么一个学习过程。它关注于数据,你在学习的过程中间关注于重点而非全部,从而使得它的学习的效率非常高。随着模型的规模的变大,基于Transformer 这种结构的预训练的语言模型,这种隐含的丰富的语言知识,从而使得它能够在众多的下游的NLP 的任务中间有惊人的表现。
在之前Google的BERT就是建立在Transformer 基础上的,而Transformer 本身也是 Google 团队发明的。 OpenAI 的GPT这一类模型也都是建立在这个基础上的。所以这里我们要记住一点,就是这个Transformer 实际上是这里面的核心所在,尤其是在表征,在学习语言知识这块,Transformer是我们后来这三年看到的大模型的发展的最核心的一个深度学习的架构。
那么GPT-3的出现,它有几个里程碑性的意义。
第一,它凸显了Transformer 这样的生成模型的学习的能力。
第二,它的规模是非常非常大,当时是1750亿,虽然智源在一年以后推出的模型十倍于它的规模,但是GPT-3 是第一个达到了千亿的大模型。这个模型在小样本和零样本的学习中间都表现出了突出的性能。
另外,GPT-3对 整个的设计的理念中间也提出了像Meta Learning 就是元学习的这种概念。刚才我也提到它在整个学习的过程中间关注重点而非全部,这样它能非常有效地用利用它的数据。
它整个的核心的学习的过程,你可以想象到,它像人脑一样,学习一些以前最早的深度学习,像人脑一样学习一些已经标注的数据。而今天我们的GPT-3这样的模型已经具备类人脑的学习的这种过程,但是这个数据的要求也非常非常大。GPT-3它的整个训练用的是大概 700 多个Gigabyte的数据,整个训练过程中间大致花了 1200 多万美金。
所以我们知道,回过头来再看我刚才提到的大模型的发展,其实不光是算法上的进步,在数据在算力上的需求,也非常巨大。有了大模型,有了Transformer ,有了GPT-3这一类的模型,它一个核心的优势是我们可以用这种模型再进行一些微调,就可以用来做一个新的任务。这一点是以之前的模型所不具备的。
我们看一下GPT-3它在语言能力上的这种突破,它无论是在最早的英文的 Glue Benchmark,还是在我们后来的写作,它都有了非常非常好的突破。因为这种大模型里面隐含的大量的知识。这些知识支持模型进行一些推理层面的任务,并且得到了非常非常好的结果。
我们看一下,比如它会写论文,我们写了一篇中文的关于个性化搜索算法的未来发展趋势的论文。你发现它其实写得相当相当好。这中间它其实背后有一些知识,它已经有了,除了大量数据之外,我们还会给它一些知识,比如说 1801 年的美国的总统是谁,比如长颈鹿长了几只眼睛,青蛙有几条腿,这些我们都会给它,它从中间学会以后它就会记得住,以后会用在未来的场景里面。
比如另外一个它非常让人吃惊的就是,在中文的文言文的理解上也非常让人惊叹。我其实在读这段话的时候,我其实是文言文我是读不懂的,你可以看出来是这一段话我被告知是来自于《孟子》,是北京市小升初的一个题目,GPT-3 能够非常好地理解它。
说完 GPT-3,ChatGPT简直就是让我们对于人机对话有了一个完全新的理解。它实际上是在为对话而优化的,在GPT-3基础上是优化的一个语言大模型。它在对话,在写故事,写代码,参甚至参加 SAT 考试,都比GPT-3 有了非常长足的进步。我们可以看到它写代码,写故事,参加SAT的考试。
咱们注意看一下,它是之前并没有做过SAT考试的题,它是练习了 10 次以后,它能达到这样的水平,所以是相当相当了不起的。SAT是美国考大学的相当于高考题,它做了 10 次以后,它居然能够拿到这样的分数。数学的满分是 800 分,它已经达到 600 分了。写作也是 800 分,它已经达了 520 分,所以相当相当了不起。所以Elon Musk惊呼ChatGPT是好得吓人。他甚至预测危险的,强大的AI离我们不远。我们撇开Elon Musk一贯的一惊一乍的作风,ChatGPT确实是在对话上达到了一个新的高度,完全可以以假乱真,至少是一个记忆力和学习能力超强的、超级的鹦鹉。
它为什么能够有这样的能力呢?我们知道在GPT-3之后,在大模型,尤其在针对于语言的大模型。其实 OpenAI在这基础上又做了两个方向的研究。一个方向是叫做WebGPT,就是搭建基于文字的网页浏览环境,教GPT-3上网查询。这个时候,我自己查询来的新的资料生成结果,同时生成引用的来源,所以它知道它的一些来源从哪来的。它相当于GPT-3大幅度地提高了生成内容的信息量和事实性。
另外一个叫InstructGPT,它是用基于用户反馈的强化学习的方法,叫做RLHF。它实际上是它跟用户对话,然后用户会纠正它。用户对答案不满意的时候,它会进行学习。从而经过这种学习,能够将语言模型的输出,它自己的认知和用户的意图非常好地相关起来。这是InstructGPT的核心的所在。那么ChatGPT恰恰是建在InstructGPT的基础上。 我们反过来看一下,刚才我提到Transformer实际上是里程碑。
在之前我们都是深度学习的,包括Convolutional neural Network就是CNN,和Regression Network这是 RNN。这是深度学习的最早的一些框架,在四年多以前的 Transformer出现以后,我们才出现了GPT。所以还是回到核心。其实还是Transformer的出现,使得我们今天在深度学习的网络架构上有了新的突破。
ChatGPT,刚才我们看它又是作文,又是考试,又是能写程序。它核心的特点在于它有持续对话的能力,它能记住历史的信息和人的反馈,而且它能够保持对话的一致性,容许用户提供后续的更正。你回头更正以后,它能够持续再跟你对话。但是它又有一些非常好的判断力,它能够拒绝不适当的请求。也挑战不正确的前提。如果你跟它说的一些话,前提不正确,它会意识到,而且会挑战你。还有就是它做到了知之为知之,不知为不知,是知也,就是你问它的一些问题,它无法回答的时候,它告诉你对不起,这个问题我不了解,我现在对这个问题不了解,所以我没法回答你的问题,所以它也承认。如果当你给它指出以后,它也会承认错误,它会下一步进一步进行改进。
大家如果是有时间去用一下ChatGPT,这些你都会慢慢体会出来。所以它核心的核心的能力,是它通过持续的迭代,大幅度地提高了对于用户的意图的理解,和它结果的准确性。再反射回去。其实这都是InstructGPT的特点,也是Transformer所带来的能力。
同时它也支持多种任务,因为它最早的是用来对话的。在设计上实际是个语言模型,语言对话模型。但是同样它可以用来做艺术创作。它可以改写续写故事,也可以创作短句,写作文,写作食谱。同样可以做技术的创作比如编码。它可以还可以做Debug 类似解释代码。还可以做一些IOS的APP。同样它可以用来做办公学习。它可以写邮件,写总结报告,写技术博客。同时它还会有逻辑推理和数学推理的能力,比如我刚才我们提到的SAT的考试,所以虽然它叫ChatGPT。实际上它的学习能力,它的理解能力,它的创作能力都远远不止于仅仅是对话。
当然它也有它的局限性,可能产生不正确的信息,也可能产生一些有害的指令或者偏见的内容,我觉得其实是很正常。另外一点也很正常,因为它的训练的数据大部分是 2021 年以前的,所以过去六个月实际上发生的事情,它基本上了解很有限,这是ChatGPT。
另外一点,在ChatGPT之前已经热起来的。就是生成模型,尤其是由文字到图像的生成模型。我说一段话,你帮我产生一种图像,而且要按我说的风格来产生图像,或者是我给某个人的风格,或者按某一个画家的风格来产生图像。
这个技术其实是从一年多以前,也是OpenAI ,DALL·E1.0开始,它的核心是如何学到文字和图像之间的这种匹配关系。自从DALL·E出现以后,又有一系列的模型出现。几个月以前才出现的,叫Stable Diffusion,是目前最好的技术。我们的智源研究院在这个基础上做了一些改善,做了一个AltDiffusion,尤其是针对中文,针对多语种,效果会比Stable Diffusion更好。
我们看一下它的原理是什么,我不想多讲。今天无论是Stable Diffusion,还是其它的一些由文字生成图像的模型,基本的它的原理都从这开始,通过图片的离散的编码,将图片的Token 和文字的Token 作为Transformer的 Decoder 进行输入,在大量的文图对上。我现在想强调的就是对,一定是有文字和图像的对,进行训练,从而形成的模型。一开始最早的我们可以看到,比如牛油果形状的扶手椅,会产生这么一个。你注意它的描述还是描述得相当清晰,那么一开始的DALL·E所产生的图像还是相当相对来说比较简单。
在此基础上,它的Stable Diffusion就把它的能力提高了一大截。DALL·E的一开始的这个模型,它还是用的与GPT相同的框架的生成模型。我顺便说一下,我相信大家都知道DALL·E是什么人,他是西班牙的上一个世纪的一个非常有名的画家。
我这儿就是用智源的多语言生成模型。来一起说一下Stable Diffusion的能力,和智源的最近的一些工作。Stable Diffusion在出现之后,风靡了整个的一个圈子。它实际上代表了当前的字生图的最新的算法。它使用和改进了CLIP技术,也就是Contrastive Language-Image Pretraining这么一种模式,实际上是基于一种对比学习的多模态预训练的这种模型。在诸多的文生图模型中间,它的性能脱颖而出。在它算法上进行了一个改进。比如用AltCLIP代表的代替代了之前的Stable Diffusion里面的文本塔,使得模型可以支持多种语言。
它有一个核心的想法就是,因为英文里面高质量的图文对数据量比较丰富,所以它训出来的效果很好。而其它的语言上,高质量的图文对的资源相对的匮乏。所以我们利用一个已经训练好的英文模型,加上语言对齐,这样可以训练出一个更好的跨多语种的,能力比较强的,尤其多语种语言对齐的能力比较强的文生图的模型。所谓的语言对齐能力,很重要的就是你中文和英文怎么对齐,阿拉伯文和中文怎么对齐,那么这实际上不是靠人来做,而是靠机器来做。这个本身来说是一个很重要的技术。
我不太想花太多时间在这个原理上,但我们看一下,比如我们对它进行了一些改善,所以它对于中文的理解就会更好。而且画风的话,我们也把中文的国画的画风引进来了。
同样,它也可以支持其他的九种语言。除了中文之外,还有日语、法语、韩语、西班牙语、俄语、意大利语、阿拉伯语。这中间要支持这种这些语言,不光是有这些语调,很重要的是它也在模型里面进行了一些改善。当然这块也有一些很有意思的现象,对于不同语言、同样内容的输入,模型的输入会有很大的差异。在其实中间也反映出了文化的差异。我们的模型要能够适应于这一点,这本身也是一个很好的技术问题。
我这样给大家看一下北京智源研究院所做的东西,我们这是一个开源的文生图的这么一个系统,叫做 Flag Studio。你注意看它的一个界面,你可以选择绘画的风格,你也可以选择艺术家的风格,根据某个艺术家来定义你的画风。你比如像选择是虚幻引擎你画出来的这些虚幻的照片,但是你还是用文字来描述你想要什么。
比如它也有另外一个功能,你可以用一个文字来描述,比如一篮子苹果,它给你生成一个苹果。同样你看到苹果不错,但你想把苹果改成比如说梨,你描述一下它能帮你改。我们可以看一下演示,先生成一筐苹果,你写的一篮子苹果,你把苹果抹掉,最后把这个改成,比如改成一篮子梨,几秒钟之后就可以改成一篮子梨,风格跟之前的一篮子苹果一模一样。
这是这个模型所具有的功能。它不光是可以描述你让它生成什么样图像,而且生成完以后,你可以把图像拿来再进行一些修改,然后产生新的图像。另外你可以把语言的描述和一个照片结合在一起,而产生一个新的照片。
比如是我要你产生一个帅哥对吧,放了一个我的照片,产生这么一个照片。同样你还可以换一幅照片,你可以发现它的风格就不太一样。所以不光是用文字来产生图片,而且用文字加图片产生新的图片,这是这个模型所能够做的,这也是现代的生成模型的一个很大的进步。
再给大家看一下。不光是你可以按文字的描述以图生成图,另外你还可以比如给几幅照片,给几幅照片,它总是能够产生一些不同风格的同样的人物。可以看一下但凡是你在一个单位,你就知道下属最开心的事情就是在背后拿老板开涮。所以他们做实验先拿我的照片来做实验。他们做了一个开源的系统,做了一系列的各种风格的我。左边我们是我的六幅图像,不同时期的六幅照片。右边是他们根据不同风格的要求产生的图像。
比如这个是战士的风格,这是Matrix 的风格,当然你还可以有别的风格。当然我这儿挑的都是看上去比较年轻气帅的,那些看上去更像我,但形象老态龙钟得多的,我就没在这显示了。
我在前面很快地介绍了一下大模型的发展和尤其是技术的发展,和它们的今天它们所具备的一些能力。我想下面我会花几分钟时间来谈一下这些大模型对于产业的影响在哪里。大模型实际上代表了一个新的技术范式,也就是各自都研发专用的小模型,到炼大模型的这么一个转变,就是研发超大规模的通用的智能模型,这么一个转变。
这个转变其实是相当有意义,通过比较先进的算法架构,尽量地整合尽可能多的数据,汇集大量的算力,集约化地训练大模型,这样可以供大量的用户使用。所以大家注意看到,从某种意义上,它是从小农经济到大规模生产这么一个变化。所以这个范式是一个很重要的范式的变化。它的意义就像当初电网的变革性这么一个意义,就是以前你建一个工厂,你第一件要做的事情是自己要先买一台发电机,买一台进行发电,供自己用电。
今天你要做AI的应用,可能你不需要再做自己的模型了,你可能就可以用已有的大模型,大模型也许就会以一种服务的方式提供给所有可能的用户。这样很可能改变信息产业的格局,改变以前作坊式的 AI 的开发的模式,会把我们 AI 的应用带入到继互联网、继云计算之后的大规模的智能云的这么一个阶段。 这里一个很重要的它的优势在哪?为什么我说它是技术与产业的双重优势。一个很重要点在于大模型,你能够通过微调就能够把大模型很好的能力,能够很有效地转移到各种不同的应用场景中间,而不再需要自己重新从零开始做模型。所以这样大大地降低了开发的成本,从而使得它的应用会变得更加迅速,也更加有效。
最近 IDC 的有一篇报告说,超大模型将会是快速发展和快速引爆市场的一个机会型的技术,这点我其实完全同意。我觉得大模型实际上是人工智能这一波浪潮的,经过了十几年发展之后的一个非常非常重要的拐点。下面我会结合一下我自己的体会,跟大家分享一下它对产业影响的一些看法。
今天我们看从应用场景来看,文本生成或者是图文生成的模型,会很快用到各种各样的应用中间。今天我们已经看到我刚才给大家演示的图生文,文生图的几个场景。其实大家可以想象,它可以用来做一系列的应用,更不用ChatGPT的写作的能力,它的问答的能力,所以我相信,就是这些大模型技术的本身的不断的成熟,会带来新的创业的机会,包括更好的对话机器人,更好的机器翻译,更好的创作平台。
另外还有一方面,这种大模型它会带来一些 AI 基础设施的创业的可能性,包括垂直性的训练,包括大模型的运营管理训练。我们知道在美国有一家公司已经发展得非常快,叫Hugging Face,它就是专门做大模型的训练和推广开源的,尤其是一些开源的推广。
在应用这方面,其实中国发展的速度也很快。虽然目前的发展状况是国外的头部机构引领的技术和商业应用,国内整体来说可能会落后两年。从应用角度来说,落后两年其实我不是特别担心,因为中国的落地能力非常非常强。比较悲催的实际上是技术研究的这种方面, Open AI 在过去的三年是独领了风骚。无论从它的一开始GPT 1、 GPT 2、GPT 3,尤其 GPT 3之后,它的DALL·E,它的ChatGPT。实际上从研究的角度来说,它搭好了框架,它占了第一的位置。其他的人。虽然这两年很多人做了很多模型,但从学术角度来说,其实我们都是在给它补漏,也就是在给它打工。这是从学术角度,其实是很悲催的。这其实是呼唤中国的学术的原创性,学术的创新的能力。
但是从应用的角度来说,我今天看到所有的应用,文字生成,图像生成,音频生成,视频生成,虚拟人,元宇宙等各个样子的应用场景。只要国外有的公司,中国都有比它更多的公司。而且我相信中国的落地能力,中国的应用场景一定会比它们走得更快。
我想在此之外,在我们的今天说的ChatGPT,还有生成模型之外,其实大模型还有更多的带来质变的潜力。尤其是我们今天看到人工智能包括大模型,在生命科学、在材料科学,在能源科学和环境健康等各个方面,都可以利用大模型来生成,来驱动新的研究发现。尤其是在人工智能制药,在材料的设计等等,也有非常非常好的前景,而且已经开始落地。
好。我今天讲到这,我总结一下。我们认为大模型实际上是 AI的第三波浪潮的一个新的拐点。这第三次浪潮以深度学习,以神经网络为代表的浪潮的大概 15 年前开始。
其实在过去的几年,这一波浪潮已经碰到了一些技术的瓶颈和商业化的难题,使得我们 AI 企业的商业化非常不顺,高估值的泡沫逐渐破裂,我们也看到一些上市公司。一些技术找不到核心的应用,或者是在核心应用上也无法进行突破,从而使得它的 AI 技术的赋能和增值都有限。这种状况会随着大模型的发展和普及。
尤其是通过大模型加微调的这种新的技术开发范式,将能够使得人工智能能力更好地,也更有效地应用到各种场景里面去,而不需要每家都自己开发自己的模型,从而大大地降低了开发成本。所以,大模型是一个发展快速,引爆市场的机会型的这么一个技术,将会带来一波新的创业的热潮。无论是我们今天已经看到的应用,还是我们未来会看到的应用,都将会有非常大的潜力。