2022年,在ChatGPT温和聚变式的科技革命中,人工智能生成内容后来居上,以超出人们预期的速度成为科技历史上的重大事件,迅速催生了全新的科技生态。 2022年11月30日,OpenAI发布了ChatGPT,在全球范围内引发了领域的蓬勃发展。 深度学习的发展让我们第一次看到并接近人工智能的终极目标,AI从实验性向实用性转变,但缺陷是受限于算法瓶颈,无法直接进行内容生成。 ...
2022年,在ChatGPT温和聚变式的科技革命中,人工智能生成内容后来居上,以超出人们预期的速度成为科技历史上的重大事件,迅速催生了全新的科技生态。
2022年11月30日,OpenAI发布了ChatGPT,在全球范围内引发了
领域的蓬勃发展。
深度学习的发展让我们第一次看到并接近人工智能的终极目标,AI从实验性向实用性转变,但缺陷是受限于算法瓶颈,无法直接进行内容生成。
2017年,Ashish Vaswani et.al的论文《Attention Is All You Need》中,提出了一种新的简单架构——转换器(Transformer),彻底颠覆了过去的理念,没用到卷积神经网络和循环神经网络,它完全基于注意力机制,不用重复和卷积,因而这些模型在质量上更优,同时更易于并行化,并且需要的训练时间明显更少。该论文被评为自然语言处理领域的年度最佳论文。
Transformer出现以后,迅速跻身主流模型架构基础,使深度学习模型参数达到了上亿的规模。AI技术的发展也呈现出模型之争,重大研究方向就是自然语言处理任务。随之,自然语言处理任务就转入了两大流派的竞赛,按转换器架构可分OpenAI的自回归系列(例如GPT-3,偏好生成性任务);谷歌的双向Transformer+Mask的自编码系列(例如BERT,偏好自然语言理解)。
从2018年开始,谷歌率先提出了3亿参数模型BERT,陆续又推出了ELNet、RoBERTa、T5等,到了2021年则推出高达1.6万亿的参数量的Switch Transformer模型。2023年2月4日,谷歌注资3亿美元投资Anthropic,Anthropic 开发了一款名为Claude的智能聊天机器人,据称可与ChatGPT相媲美(仍未发布)。
而OpenAI也在两年左右的时间,先后推出了GPT- 1到GPT- 3,再到ChatGPT,参数实现了从亿级到上千亿级的突破,并能够实现作诗、聊天、生成代码等功能。作为OpenAI最大投资方的微软,开始利用ChatGPT提高产品竞争力,将ChatGPT整合进Bing搜索引擎、Office全家桶、Azure云服务、Teams程序等产品中。
此外包括微软、Meta、英伟达、华为、百度、阿里等巨头在内的全球领先企业纷纷参与其中,预训练大模型已经成为整个AI领域的竞争焦点。
混沌和近临界边缘者的冲浪
2022年,在ChatGPT温和聚变式的科技革命中,人工智能生成内容后来居上,以超出人们预期的速度成为科技历史上的重大事件,迅速催生了全新的科技生态。
在国内,2021年成为中国AI大模型的爆发年。众多公司和研究机构正在积极开展对大模型的研发。代表性的有华为云联合循环智能发布的基于昇思MindSpore打造的1000亿参数盘古NLP模型、联合北京大学发布2000亿参数的盘古α模型;百度推出基于PaddlePaddle 开发的2600亿参数ERNIE3.0 Titan模型;而阿里达摩院联合清华大学发布的中文多模态模型M6参数达到10万亿,将大模型参数直接提升了一个量级。
2022年,基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”——八卦炉(BAGUALU)完成建立,其模型参数模型突破了174万亿个,完全可以与人脑中的突触数量相媲美。
目前,大模型参数规模最高可达百万亿级别,数据集达到TB量级,且面向多模态场景(同时支持文字、图像、声音、视频、触觉等两种及以上形态)的大模型已成为趋势。大模型生态已初具规模。
值得期待的是,百度宣布将在2023年3月的某个时候推出一项中文名为“文心一言”或英文名为“ERNIE Bot”的ChatGPT式服务。
新一轮认知力延伸的竞赛是否又开始了呢?
《Attention Is All You Need》几位作者的选择或许有一定的代表性:时隔5年,8位作者仅有一位还留在谷歌。其中6人选择创业或加入创业公司,还有一位去了OpenAI。
2022年4月26日,一家名为Adept的公司官宣成立,以Ashish Vaswani为首的共同创始人有9位,Ashish Vaswani在南加州大学拿到博士学位,师从华人学者蒋伟和黄亮,主要研究现代深度学习在语言建模中的早期应用。2016年,他加入了谷歌大脑并领导了Transformer的研究。
Adept是一家致力于用AI来增强人类能力并最终实现通用智能的公司。在阐述公司创立初衷时,Ashish Vaswani写道:“在Google,我们训练出了越来越大的Transformer,梦想着有朝一日构建一个通用模型来支持所有ML用例。但是,这其中有一个明显的局限:用文本训练出的模型可以写出很棒的文章,但它们无法在数字世界中采取行动。你不能要求GPT-3给你订机票,给供应商开支票,或者进行科学实验”。
因此,他们打算创建一个通用系统,“你可以把它想象成你电脑里的一个overlay,它和你一起工作,使用和你一样的工具。使用Adept,你能专注于你真正喜欢的工作,并要求模型承担其他任务”。
也许,对于国内大多数在混沌和近临界边缘上冲浪的人来说,都应该好好思索一个问题:“是沿着Transformer和ChatGPT竞赛,还是换一个类似Adept的新赛道呢?”