现场拔网线！第四范式版GPT能力首秀，有点不一样

现场拔网线！第四范式版GPT能力首秀，有点不一样

来源：互联网转载

时间：2023-04-27 07:33:19 发布教育信息网

标签：新闻

分享至

摘要

就在刚刚，第四范式自研大模型“式说”（4Paradigm SageGPT）在上线2个月后，终于来了一波能力首秀。而且纵观整场活动的发布，最直观的感受就是：不一样，着实不一样...

金磊发自第四范式大厦量子位 | 公众号 QbitAI

国产大模型能大战，又有一员猛将入局。

就在刚刚，第四范式自研大模型“式说”（4Paradigm SageGPT）在上线2个月后，终于来了一波能力首秀。

而且纵观整场活动的发布，最直观的感受就是：不一样，着实不一样。

怎么说？

首先，他敢在现场演示的时候，拔！网！线！

效果是这样的，例如上传一张《狂飙》剧照之后，让“式说”描述一下照片，它的回答是：

这张照片中有一组穿着制服的男子站在一张桌子前。

而后追问剧照中有几个人，“式说”也立即给出了答案：9个。

再来看下以文生图的能力，先让它画一下“狮子头”：

不难看出，生成图片的效果是过关的；此时现场很多人立即开口说到：“红烧狮子头”呢？

第四范式不在怕的，马上在现场演示了起来：

接下来，是代码生成方面，第四范式在现场直接让“式说”秀了一下“Python猜随机数”：

面对敢于拔网线的live演示，现场观众也是惊叹与掌声不断。

但“不一样”的点还不只于此，而且上面展示的这些能力，也仅仅是“开胃菜”。

因为第四范式的GPT，并不是“你以为的你以为”，而是不同于其它厂商的一套玩法——

用AIGC的能力重构软件（AIGS），目的就是以此来提高企业软件的用户体验和开发效率。

例如让“式说”分析集装箱及小箱子尺寸，并设计装箱方案。

它就会先向用户咨询与之相关的细节的信息，然后便一步一步执行它的方案，还是会给出思考过程的那种。

对此，第四范式CEO戴文渊在现场给出了他的解释：

C端产品已经逼近用户体验的上限，而B端的企业级软件往往是个十分复杂的执行系统。目前这些B端软件极为复杂的交互体验，以及复杂性带来的极低开发效率，恰恰为生成式AI留下足够大的重构和改造空间。

不是你以为的GPT

整体来看，“式说”之所以能够拥有上面展示的这般能力，是因为在它的背后拥有三大技术“利器”。

首先就是多模态大语言模型技术。

“式说”在最初2月发布之际所支持的能力是单一模态的，即文本对话能力。

而时隔仅1个月，第四范式便将语音、图像、表格、视频等多模态输入及输出能力融入了进来。

第二大技术“利器”，则是企业级Copilot。

值得一提的是，这个Copilot并非是微软、GitHub的那个Copilot。

而是第四范式通过自研大语言模型对专业领域的知识做理解，以便帮助用户实现某些功能。

例如在开发的过程中，在企业级Copilot的加持之下，所需的成本就只是把API对接进来即可。

什么概念？

这就好比ChatGPT Plugins一般，只需要安装特定领域第三方的插件，就能让ChatGPT在这个领域变得更加聪明、专业。

同样的，当企业使用“式说”时，Copilot就可以调出企业软件的有关功能，员工可以通过语音、图像、表格、视频等形式获取想要的答案。

例如在航空制造业，软件设计人员只需要上传一些图片，即可提出要求让“式说”在上百万的工装零件库中找出相似零件，并进行组装：

由此可见，“多模态大语言模型+Copilot”这套组合打法，可以让AIGC在产业实际落地过程中更加得心应手。

但若是仅仅如此，依旧还是远远不够的。

因为上述能力只能去应对某些单一的、碎片化的任务，而产业中的问题往往更加纷繁复杂。

就好比我们在用Photoshop去美化一张图片时，往往需要涉及裁剪、调滤镜、调亮度等等多个步骤。

不过往往人们想要的结果是一步到位，直接说一句“给我生成某个产品的海报”，所问即所得。

而这种情况放在企业生产过程中，不仅是要完整结果那么简单，还需要对生成的过程做到“不黑箱”，步步均可解释。

为此，第四范式便在上述两大“利器”之上，引入了第三个关键技术——企业级思维链（Chain of Thought，CoT）。

思维链这个概念最早是由谷歌提出，是一种特殊的上下文学习。

它不同于标准提示只是给出输入-输出对的示例，思维链提示还会额外增加一段推理的过程。

员工只需要交代一个任务，它不仅能够给你一个较为完美的答案，而且还会把期间所有流程是怎么思考的、如何执行的，一一都解释清楚。

值得一提的是，第四范式这种企业级思维链是针对特定领域学习的“套路”，是更具专业性、可信度的那种。

不过有一说一，第四范式今天的发布，并非是趁着这波大热潮一蹴而就的事情。

据第四范式介绍，早在BERT出来的时候，范式研究院就开始关注并投入在这个技术领域，GPT3出来以后就更加明确了这个方向。

与此同时，第四范式也坦诚地说“相比今年的投入，过去几年肯定还是有差距的”。

整体来看第四范式的技术路线，大致可以总结为三步：

式说1.0：拥有生成语言对话能力，主要场景是文库问答；相当于让GPT学习的企业知识后，可以自然地与员工交互，解答专业问题，并且是可溯源的。式说2.0：加入文本、语音、图像、表格、视频等多模态输入及输出能力，并增加了企业级Copilot能力。式说3.0：发力Copilot和思维链，提升使用传统B端企业软件的体验。为何如此布局？

一言蔽之，AIGS，即用AIGC的能力重构软件。

毕竟能够用起来的技术好技术，虽然AIGC热潮很火爆、诸如GPT-4这般效果非常强悍的技术出现了，但它们之于产业，目前又带来了怎么技术价值？

这便是第四范式所思考的根本问题，而且戴文渊表示：

要做到AIGS，大模型未必需要是知识广博、十项全能冠军的通才。更重要的在于模型具备Copilot和思维链CoT的能力。

在第四范式看来，传统B端软件先是出现过体验上的不足，例如企业内的报销系统、HR系统、OA系统等，可以说是“菜单接菜单，菜单何其多”。

而大语言模型的到来，使得这些复杂系统可以通过更好的交互方式去实现功能的调用，这是颠覆之一。

例如在AI改造后的企业软件，以预定会议室为例，不再需要在选日期、选时间段、选会议室了。

而是像跟秘书对话一般，直接来一句“帮我预定某某时间段的会议室”，即可。

在企业软件开发上，亦是如此。

因为传统B端企业软件往往都是高度定制化、基于菜单式的开发，每次一个功能升级，又要周而复始的经历原型图、设计、开发等，至少是月级别的开发时间。

但由于新的交互形式的出现，现在功能和逻辑只需在数据、API和内容层面下功夫即可，变成了天级别的开发效率，这又是颠覆之一。

正如第四范式所说：

我们看到大模型能够带来用户体验的提升，开发效率的提升，所以一定会形成软件行业的飞跃，就是谁率先能做出来的问题。当软件产业被改造以后，整个行业的业务价值、商业模式都会得到飞跃。这是一个巨大的市场。

那么AIGS这条路，具体又该如何走？

第四范式对这个问题也给出了自己的见解，主要分为三大阶段：

第一阶段：Copilot调动不同的信息、数据、应用，作为助手完成用户的指令。相当于在所有企业级软件系统里，配备一个指挥官。指挥官听用户的指挥，比如“把照片亮度调亮20%”。第二阶段：Copilot+基于企业规则的“知识库”，AI能够参照规则做复杂工作，比如AI查询了“人像美化”知识库后，能执行把照片修好看的步骤。第三阶段：Copilot+CoT。软件系统的使用行为最终会被大模型学会，形成AI针对这个领域的思维链，意味着“把照片处理得更好看”这种复杂指令，AI能自动地按照步骤完成。

但更深一层的，若是细看下第四范式的过往，就不难发现如此布局背后的本质——“做企业级”、“与软件公司打交道”似乎一直是刻在第四范式的一个基因。

那么这一次，第四范式是否能用AIGC重塑产业软件的新范式，是值得期待了。

收藏打印

原标题：现场拔网线！第四范式版GPT能力首秀，有点不一样

标签Tags: SageGPT 4Paradigm

特别声明：本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，并不意味着赞同其观点或者证实其内容的真实性。如转载稿涉及版权等问题，请作者在两周内速来函camelboy#163.com联系，会在24小时内删除。

Notice: The articles / pictures and other manuscripts that this website notes as the source of manuscripts from other media are reprinted manuscripts, which does not mean that they agree with their views or confirm the authenticity of their contents. If the reprinted manuscript involves copyright and other issues, please contact the author by letter within two weeks.

/阅读下一篇/