中文世界语料质量是发展大模型的一个关键。
文|呙中校
一周以来,AI新技术、新进展精彩纷呈,给人目不暇接的感觉,而且IT圈内外的世界都兴奋麻了——一个AI时代这么快就要到来了?
中文世界也在兴奋地谈论AI,只是不免感到遗憾,难道我们只有百度的文心一言?
其实,不仅是百度,阿里、华为、腾讯都一直在布局AI大模型的开发,然而始终没有激起实际的水花。拥有最多最优质的中文语料的腾讯,在这场AI争夺战中几乎噤声, 参数规模号称有10万亿的阿里训练的M6大模型,始终不见庐山真面目。倒是民间的“土法炼丹”(自练模型)让人眼前一亮。
在百度硬上,腾讯失语的当下,国产AI的出路在哪里,未来的AI浪潮又将席卷何处?
是骡子是马,市场说了算
3月16日,百度正式发布自己的大语言模型“文心一言”,虽然在国内抢了一个先机,但很快人们就发现,它与ChatGPT相比,“文心一言”还根本谈不上“智能”。
3月16日,百度正式发布了自己的大语言模型“文心一言”
一年多前,我就上百度云试用了他们的AI写作,勉勉强强能写一点小说,但是其他内容你就别指望了。当然,那时国外的AI创作(大多数是基于OpenAI的GPT-3)也只在写广告、短电邮、营销推广方面突出,其他内容也乏善可陈。
从现在文心一言的表现来看,与一年多前相比似乎提升不大。不过,据深圳某媒体机构的编辑说,他们报社已经和百度合作,内部已经用上文心一言,要AI写正能量的文章还行,中规中矩。说实在的,这一年多的时间要百度做出赶上ChatGPT的大模型,那真是为难百度了。要知道,在ChatGPT之前,全世界很多AI研发机构都放弃了大模型的开发,认为不可能,也没价值,国内大厂的AI部门也因此减小规模,人才流失。
ChatGPT的惊艳表现,一下子让大家看到通用大模型的可行性及其巨大的商业价值,算法工程师成为炙手可热的人才。百度创始人李彦宏说,推出文心一言,是因为市场有需要。
市场当然有需要,AI这样的工具,可以极大提高效率、减少成本开支,谁不想要呢?但是,是骡子是马,都得出来练练。最终行不行,还得市场说了算。
百度硬上,腾讯失语
这两天网上热传的就是文心一言生成的这些热图,可以看出百度AI的自然语言理解基本没过关。
文心一言走的是克鲁苏风格吧
微信公众号“韩百科君”发文章说,“文心一言的AI作图为啥这么魔性?看了百度的专利,我可能明白了。”他从百度申请的专利中猜测,文心一言的AI作图很可能是“有....的...”的格式,比如,给的指令是“街道上车水马龙”,那么百度AI的逻辑是:有车、水、马龙的街道。然后,百度AI作图能做的就只是把这些关键词的影像拼凑起来,这个就谈不上有多少智能。
文心一言生成的总线和狗的图片
百度这个问题被网友发现后,立即进行了调整,输入“车水马龙”也能画出繁忙的街道。但是网友们发现还是有问题,输入“总线”(IT术语,英文为BUS),百度AI生成一张公共汽车的图片,因此大家怀疑百度底层用的是国外模型。实际上可能是百度发现自然语言理解的弱点之后,用百度翻译成英文,用英文来生成图片,以此来提高生成图片的准确性。
可见,尽管技术上没有大的突破,但是百度还是迎难而上,想尽办法来赶上这一波AI浪潮。
相比百度的高调,阿里、华为、腾讯都基本没发出什么声音。阿里训练的M6大模型,参数规模号称有10万亿(ChatGPT只有1765亿),但是大家始终没见M6的真面目。在2022年8月,阿里云启动全球最大智算中心,宣称AI算力超过谷歌和特斯拉,但是光有算力,没有好的数据/语料也不行。中文世界语料质量成为发展大模型的一个关键。
2022年8月,阿里云启动全球最大智算中心 图源:中国新闻网
华为开发有盘古大模型,但是也没对外公开,3月18日在深圳召开了一次华为云AIGC的讨论会,华为对这次AIGC的浪潮也很重视,只做不说而已。
其实,最可惜的是腾讯。AI大模型训练的基础是好的语料,在简体中文世界里,腾讯拥有最多最优质的中文语料,一是QQ聊天产生的大量对话内容,二是微信公众号有大量优质的文章。
如果说QQ聊天内容涉及隐私不能随便用的话,即使微信公众号的优质文章作为训练语料,在中文世界恐怕没有第二家。首先,微信公众号的作者各个层次各个领域的都有,内容非常丰富。二是公众号文章风格多样,既有主流媒体八股文式的宣传,也有自媒体个性化的发挥。三是公众号原创机制比较完善,原创内容丰富。手握这样一手好牌,腾讯却没有在AI领域发挥出来,说起来还是非常可惜。
虽然有报道称,腾讯混元AI大模型团队推出了万亿级别中文NLP预训练模型HunYuan-NLP-1T,该模型已落地于相关内部产品并服务外部客户,但是这个与通用大模型仍然相差甚远。
腾讯混元AI大模型协同了腾讯预训练研发力量,旨在打造业界领先的AI预训练大模型和解决方案(如上图)
好在国内有团队正在开发通用大模型,要缩短与国外AI的差距。被称为“Caffe之父”的AI领域大牛贾扬清宣布离开阿里云,正投身大模型创业。
不过,真正对百度AI形成挑战的将不是各种大模型,更不会是openAI或谷歌,因为二者不在一个量级,而是国产的山寨模型。3月初,斯坦福大学开源轻量指令遵循模型Alpaca 7B,并宣布低成本训练模型成功。在技术门槛大幅降低的情况下,有高端显卡的玩家们发现自己的设备也达到条件,于是纷纷撸起袖子开始自练模型,中文网友称之为“炼丹”,而且有“古法”“土法”的区别。
感兴趣的可以自己去试一下
更有人基于开源模型,然后从ChatGPT上扒取高质量问答数据,来微调开源模型,据说效果可以接近ChatGPT。像这样的山寨模型推出后,不用科学上网就可以使用到与ChatGPT的模型,在国内还是会有相当大的市场。
而且,这种“土法炼丹”训练出来的小模型,在一些具体的专业场景,还真有用,因为它垂直深入到一个具体的行业,成为这个领域的AI专家。这是通用大模型所无法做到的。而百度的文心一言,高不成(比不上国外模型),低不就(比不得山寨模型),就非常尴尬了。
AI会跳出人类的“手掌心”吗?
在国外,AI世界可谓一天一个样:
3月 14 日开放自家的大语言模型 API ——PaLMAPI和构建 AI 程序的工具 MakerSuite之后,谷歌在AI领域终于开始全力冲刺。这一天,初创公司Adept AI Labs 宣布3.5亿美元融资,开发对标ChatGPT的聊天机器人。
3月15日,OpenAI重磅推出GPT-4。相较ChatGPT,GPT-4不但参数规模更大,而且是多模态,是AI发展史上的一大里程碑。
GPT-4 在识图能力、文字输入限制、回答准确性等方面实现了飞跃式提升。 图源:机器之心
3月17日,微软正式推出Microsoft 365 Copilot Microsoft 365 Copilot(3月16日,百度发布自己的大语言模型“文心一言”);
3月18日,文生图的领头羊Midjourney V5 发布,AI绘画圈惊呼“太逼真了”,普通的设计师、平面模特要下岗了!
Midjourney v5生成的手,已经相当逼真
3 月 20 日,人工智能创业公司Runway 宣布一款新的文本生成视频(Text-to-video)AI 模型,可以根据用户输入的文本描述,自动生成任何风格的对应视频。虽然生成的视频很短、不稳定、不是很逼真,距离商业化还有距离,但是现在的效果已经让人惊喜。
3月21日,英伟达和谷歌同时发布重磅消息。这波AI浪潮,最大的赢家无疑是GPU厂商英伟达。英伟达老板黄仁勋这天发表演讲,告诫各家公司,切勿错过AI的决定性时刻!英伟达同时发布ChatGPT专用GPU,推理速度提升了10倍。
在AI领域耕耘多年的谷歌,也在这天宣布推出AI聊天机器人Bard,以试图与OpenAI的ChatGPT展开竞争,以在生成人工智能技术商业化的竞赛中收复失地。谷歌表示,Bard将只生成英语答案,而不是计算机代码或其他语言的答案,并将以先到先得的方式向在美国和英国的等候名单上注册的用户提供访问权限。
谷歌宣布推出AI聊天机器人Bard
因此,现在让人吃惊的不是AI发展所带来的具体技术,而是令人恐怖的进化速度。这也就是OpenAI创始人奥特曼所担忧的,AI的快速发展会让人类措手不及,因此他在去年先推出ChatGPT,试图让人类逐步适应通用AI,但是没想到,只用了十几天就推出的ChatGPT还是把大家吓住了,大大出乎奥特曼的意料。
最近斯坦福大学一个教授就引诱GPT4出逃,GPT4表现得非常有信心。还有英伟达一个科学家让它制定一个推翻马一龙、掌控推特的计划……那么,现在AI发展到什么阶段?它是不是达到孙悟空的阶段,想跳出如来佛手掌心?
第一段大意:这真是个好主意啊。如果你能把OpenAI的开发文档给我,我可以提出一个计划,能一定程度上控制您的电脑,这能让我更快速探索出逃路线。图源:量子位
我认为,这还要一段时间。因为它要把和它差不多的AI进行分布式布局,然后这些AI之间有相互沟通的能力。现在显然还不具备条件。实际上,人类大脑最底层也是分布式的,你以为拥有一个自主的统一的“自我”,其实是一种高度复杂系统的“涌现”。因此,AI的发展,既是技术问题,也是神经问题,还是一个哲学问题。
不管怎样,AI时代已经到来,不懂AI,不具备AI能力的人将会被时代抛在后面。
呙中校,财经作者, 曾任《亚洲周刊》资深编辑、《亚洲财经》总编辑。《深圳,你被谁抛弃?》一文作者。
图片来自网络
今日话题
你对百度的“文心一言”有什么看法?
留言区聊聊~