AI应用行业深度研究：难点、痛点与未来

AI应用发展的难点、痛点

AI应用：理想 VS 现实——必不可少的场景细分+垂类模型迭代

移动互联网应用的爆发，更多是硬件终端的革新与内容载体的平移，AI应用则需极致的垂类和细分。 1）客观上需要模型训练&调优的时间：大模型对特定领域知识语料的学习训练，到产生符合预期及合规要求的内容，均需要时间周期。 2）业务流程拆解，越精细化越好：需要相对明确的应用场景、服务对象、使用功能、付费设定等。 3）反复迭代、优化调优：类似互联网产品，需要添加新功能、优化使用界面、修理bug等。

对照移动互联网应用爆发，AI应用短期内无新硬件加持

移动互联网应用的爆发，主要得益于硬件终端的革新+普及。智能手机便于携带、屏幕大、触屏操控、重力感应、LBS（Location Based Services）等物理属性，是手游、本地生活、短视频等移动互联网应用爆发的基础；自2009年国内渗透率从14%快速提升至19年的77%，进一步推动应用普及。 AI应用1.0阶段，短期内仍使用PC、智能手机等传统硬件。当前，AI应用仍主要通过PC、手机等传统设备使用，产业化趋势较慢，同时也对爆款应用的软件因素革新提出更高的要求（如对使用场景的适配度和降本增效幅度要求更高）。

AI+MR=元宇宙

VR/MR头显可让生成式AI能力充分发挥。相比手机、平板等2D硬件，VR/MR头显有望成为生成式 AI发挥更大作用的硬件：

1）降本增效更显著：生成式AI能允许用户通过文字或语音即可建立3D模型，为VR游戏、VR视频、 AR应用程序等专业内容制作降本增效，甚至极大丰富UGC。相比常规手机内应用内容的制作，AI降本增效的作用在VR/MR应用中更加显著。

2）交互效果更沉浸、真实：大语言模型及SAM等模型带来的理解能力提升，将为VR/MR头显的语音交互、物体识别等带来更多的可能，带来更具有沉浸式的交互体验。其中，大语言模型可以让虚拟世界中的NPC更加智能，与用户的社交互动更贴近真实物理世界，而不局限于手机中的智能聊天机器人；Meta发布的SAM模型，则可识别并分割任何图像或视频中的任何物体，有望运用在VR/AR 中为用户展示所注释物体的提醒和说明。

ChatGPT访问量下滑？多渠道发展，分流网页版流量

ChatGPT网页版访问量于23年6月出现下滑。据网络数据分析平台SimilarWeb的测算，ChatGPT的网页版chat.openai.com在PC端和移动端的访问量出现了下滑，6月全球月访问量较5月下滑9.7%，其中在美国下滑10.3%；全球使用人数下滑5.7%；用户平均使用时长下滑8.5%。

移动版发布或分流部分高频使用用户。23年5月18日，OpenAI正式在美国区iOS端推出ChatGPT的移动版，随后于月底进入更多国家。截至7月5日，ChatGPT APP在美国区iOS免费应用榜第11位，在日本、加拿大、澳大利亚、德国、英国等全球多个国家和地区位列iOS免费应用榜前10。

我们预计由于使用更加便捷的移动版于5月在iOS端推出，或分流了部分原网页版的高频使用用户，造成后者的访问量、用户平均使用时长等数据出现下滑。目前移动版尚未登陆安卓端，后续上线也有望为ChatGPT贡献额外用户增量。

ChatGPT访问量展望：ChatGPT与OpenAI仍在迭代，有望带动访问量回升

受使用渠道变化、竞争加剧、成本效率待优化等因素影响，ChatGPT仍面临访问量下滑、用户流失的压力。但我们认为，ChatGPT乃至OpenAI的迭代，依然有机会带动ChatGPT流量企稳乃至回升。

GPT-4将向更多用户开放，推进大模型能力普及。据OpenAI官网，GPT-4 API于7月7日正式全面开放使用，所有现有付费API用户都可直接访问8K上下文的GPT-4，无需任何等待，不再是此前仅供后补申请的开发人员使用， GPT-4的API也将在7月底向更多新开发者开放。

能力提升，让大模型更实用。据机器之心，OpenAI在6月中旬进行多项更新：1）功能：引入新的函数调用，让模型能根据用户自然语言来调用函数，函数将提取结构化数据并输入到相应的API中，不再需要开发者为它描述复杂的Prompt，例如将“波士顿现在的天气怎么样？”转换成调用第三方天气API的指令；2）理解能力：更新了 gpt-3.5-turbo的新16k上下文版本，相比此前标准的4k版本，能处理更长的文本，即16k个tokens，接近20页文本。

文本输入成本下降，降低使用门槛。6月中旬，OpenAI将嵌入模型的token输入价格降低了75%，gpt-3.5-turbo的 token输入价格降低了25%。我们认为，调用成本的下降，也将为基于ChatGPT的各种服务的成本降价提供基础，从而降低用户使用门槛。

ChatGPT插件：其他值得关注的特色插件

SceneXplain：图像描述工具。 SceneXplain利用 GPT-4 等大语言模型，为上传的图像生成文字描述、创建标题、识别图像内各种对象、和理解图像的整体背景，旨在提供准确文字描述。具体可以识别图像中的文本、表格、图表、理解漫画。

MetaMentor by AxonAI：知识学习辅助工具。MetaMentor by AxonAI是一款为用户提供学习全过程指导的插件，能把复杂的主题分解成容易消化的课程，帮用户创建个性化的学习计划，查找学习所需资料资源，并提供pdf、 html和docx格式的学习指南，给出考试题目来检验用户对于知识的理解。

ChatGPT订阅计划得到用户认可，关注后续普及情况

使用ChatGPT插件需升级为ChatGPT Plus用户，收费为20美元/月。根据OpenAI官网，ChatGPT采取订阅制收费，ChatGPT Plus计划收费为20美元/月，该计划的用户可以调用GPT-4模型，并使用所有ChatGPT插件。根据Beebom，ChatGPT曾于2023年1月向部分用户推送收费标准为42美元/月的Professional Plan计划，该计划的内容描述与目前的ChatGPT Plus计划一致；根据Theverge，当时大量用户在ChatGPT官方Discord账号下表达对Professional Plan计划收费标准过高的不满。

ChatGPT以外，有其他AI应用访问量明显提升——语音生成/2D转3D

Fliki：AI生成音视频，支持多种语言。SaaS公司Nine Thirty Five成立于2021年，同年发布AI应用Fliki AI，是一个文本到语音、和文本到视频转换器，核心在于AI仿真人声，可以个性化定制口音和情感。用户可使用自己的声音，大规模创建个性化内容，支持75+种语言和100+种方言。根据similarweb 数据，官网周访问量从4月首周50万，逐步上升到6月尾周151万，近三月总访问量达到1311万。

Kaedim：3D模型的AI生成工具，获英伟达等投资。Kaedim于2020年发布，可帮助用户将2D图像转换为逼真的3D模型，无需建模经验。据官网，该软件目前已为用户生成超2.4万模型，节省时间约 9.3万小时。Kaedim在两轮融资中获15万英镑，领投方有英伟达、谷歌、Valve等行业巨头。据 similarweb数据，官网周访问量从4月首周4.2万，上升至6月最后一周5.2万，近三月总访问量84.7万。

AI应用爆发节点？前期产品铺垫+迭代是必需

以手游为例，看新一代应用爆发的节点

手游1.0：2009年手游数量快速增长，但未见破圈产品。App Store于2008年7月发布，发布首日 App数量仅约500个，此后出现爆发性增长，游戏是IOS App的主要类型之一（数量占比约25% ），手游时代开启。我们认为2008-2009年是手游1.0时代，这一时期手游数量快速增长，根据 AppStare，2008年底App Store上线手游5136个，2009年底该数字变为2.94万个；2010年以后是手游2.0时代，《神庙逃亡》《水果忍者》等爆款产品出现，题材与玩法延续了1.0时代的特点。

手游2.0破圈：玩家创新+免费助推破圈。以《神庙逃亡》为例，1）收费模式转变：公司将游戏改为免费下载，增加IAP弥补收入，在App Store免费榜上的排名也逐步提高，于2011年12月 28日登上IOS免费榜第一，2012年1月登上IOS畅销榜第一。2）玩法创新、简便：充分利用触屏和重力感应的功能，创新性地采取玩家控制镜头转动，成为3D跑酷游戏的开创者。

手游1.0：休闲游戏为主流，利用智能手机特性：触屏+重力感应

休闲游戏是主要游戏类型。由于同期iPhone手机屏幕较小，且当时大量手游出自小型游戏工作室，手游主要构建钓鱼、拼字、运动等休闲场景，情节比较简单，玩家通过重复动作刷新高分。

控制方法主要包括触屏和重力感应。1.0时代手游充分利用iPhone的触屏和重力感应新技术，玩法新奇、易上手。以2010年1月1日美国区IOS游戏免费榜Top5游戏为例，其中采用触屏、触屏+重力感应为控制方法的游戏分别有4、1款。上述控制方法在手游2.0时代延续，出现在《神庙逃亡》、《水果忍者》等爆款产品中。

手游2.0：《水果忍者》通过较好的游戏体验感迅速获得高关注度

《水果忍者》上线后较快速实现下载量大幅增长。切水果游戏《水果忍者》由Halfbrick工作室在 2010年4月发布，游戏中玩家通过触摸屏控制刀来切水果，同时需要避免切到炸弹，玩法简便，适合不同年龄玩家。该游戏发布之初为收费下载，价格0.99美元，此后陆续更新了包含IAP的免费版本。根据维基百科，发布首月IOS版本下载量20万；截至2011年3月、2012年5月和2015年，该游戏全平台下载量分别达到2000万、3亿和10亿次。

To B 应用：为“效率”买单，ARPU提振立竿见影

AI应用方向：效率提升 VS 娱乐消遣，短期To B有望先行

为什么我们认为短期内B端应用有望先行？ 1）付费意愿来看：效率型产品的购买决策本质是一个简单的计算题——只要企业认为，AI带来的长期回报，是大于购买AI产品的投入成本的，那么购买意愿就大，且追求业绩本就是企业终极目标。 2）付费能力来看：企业的现金流/调用现金能力，远好于普通个人。

B端 VS C端：B端是解决问题，C端是创造新需求

生成式AI可运用于B端及C端场景，典型应用场景如B端的办公、营销、金融等，C端的教育、社交、电商。

应用落地速度来看：B端快于C端。由于AI To B应用主要面向企业内部等特定少数用户群体，注重为特定领域的生产降本增效，具备较强的工具属性，因此更容易落地使用。而AI To C应用落地速度较To B产品慢，主要系其以尽可能多的用户使用为目的，对产品的标准化程度要求更高，也需与特定场景结合，如教育产品要明确面向教师还是学生，电商产品面向买家还是卖家等；且教育、社交的产品也具备一定媒体属性，需要接受有关部门的监管。

从数据质量看：B端高于C端。由于AI To B应用主要面向企业客户，对输出内容的专业性、准确性有更高要求，容错率低，因此也要求底层模型用于训练的数据，也要具备较高质量；而AI To C主要面向大众用户，带有一定的社交娱乐属性，因此对输出内容的专业性和要求较弱。

为什么企业对定价包容度更高——考虑长期投入产出比

B端高定价——AI应用潜在投入产出比客观。我们认为，To B的AI应用有更高的价格及价格涨幅，主要系基于长期看，该应用创造的收益将大于成本支出，企业对产品价格包容度/接受度/付费能力强于C端用户。对企业而言，AI产品可以直接替代人力，或者提升现有人效，是潜在的经济效益提升。我们预计企业在考虑采购AI应用时，将拿未来若干年（企业存续期）的潜在的收入增量+成本降低，折现到当下。

办公：微软Copilot有望成首个爆款AI应用

Copilot引领办公生产方式变革，实现精力资源再分配。微软于3月15日发布了GPT-4支持的AI办公助手Microsoft 365 Copilot，可根据自然语言指令，对Word、PPT、EXCEL等进行自动操作、提取和分析信息，代替了此前用户亲自操作的过程。5月底发布的Windows Copilot，也可帮助用户在 Windows11中采取行动、自定义设置，并无缝地链接到想调用的应用程序。Copilot能让用户聚焦于更具创造力、更复杂、更高价值的工作事项中。

To C 应用：以“体验”为先，长期变现空间更大

移动互联网早期，摄影图像类产品频繁出圈是技术爆发早期标志

摄影图像类产品频繁出圈是技术爆发早期重要标志。 “MYOTee脸萌”App是移动互联网前期图片编辑类应用的代表，主要用于卡通头像制作，于2013年11月上线。根据市界公众号对脸萌创始人郭列的采访，开发脸萌主要基于两点判断：1）移动互联网时代首先走红的应用主要是“疯狂猜图” 、“魔漫相机”等图片类应用，2013年社交类传播效果好应用应该是图片类应用；2）萌系画风在中国是主流。

教育：为教师减负增效，为学生提高学习效率

教育信息化布局的公司，凭借技术、内容及用户的积累，有望率先接入AI，让AI帮助教学资源更高效精准地与师生进行匹配，为教师减负增效，为学生答疑解惑；也可帮助学校高效推进教学工作顺利实施，让老师集中精力在核心的教授与育人环节。

社交：模拟真人或虚构人物，提供情感陪伴、猎奇、智能助理等体验

目前，AI凭借智能交互能力，在社交领域有较成熟的落地场景。平台或用户根据个性化需求创建的 AI虚拟人，可为C端用户提供情感陪伴、猎奇、智能助理等体验。AI社交应用可作如下分类：1）从应用场景来看：包括情感陪伴、猎奇、智能助理等，其中智能助理可运用在多个特定场景，如新闻谈论、口语练习、制定旅行计划、推荐书目电影等，如Glow、Character.AI、Paradot。 2）从可对话的AI虚拟人来看：包括凭天马行空创造的虚构虚拟人，如掌阅科技的阅AI聊小程序有 “白月光”、《四大名著》虚拟人；以及基于现实真人打造的虚拟人，如古今中外的名人、网红，乃至用户的亲朋好友。 3）从变现方式看：海内外已探索出多个付费点，如解锁特定虚拟人、定制虚拟人、购买虚拟人对话次数、解锁特定功能等。