云上的中国3:剧变中的AI时代
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言
AI原生时代,应用创新蓄势待发

迈入AI(人工智能)大模型和生成式技术飞速发展的时代,基于AI的应用创新正在成为新的主题。

2023年,从通用大模型的喧嚣到行业大模型的集中落地,AI应用创新在下半年呈爆发式涌现;2024年,AI应用的颗粒度正在进一步细化,关注点和效用也更实际,正进一步走近垂直细分领域的价值实现。

对于大多数产业及其中的企业来说,转变技术范式、突破传统模式发展是更现实的挑战,以AI赋能现有的技术、业务是最现实的命题,也是最具效率、落地速度最快的路径。

但不同于从传统产业中诞生的创新,AI时代的新创业者天生就是原住民,他们对新技术的理解、应用和探索得心应手,天然会使用以AI思维构建应用的模式。

人们对“AI原生”充满好奇,不仅想了解其全新模式内涵,也想知道下一个风口将在哪里出现。我们希望通过汇总盘点国内外最新的大模型和AI原生应用,为读者提供创新发展趋势的信息和思考。

多模态生成式AI竞赛进行中

从2023年国内妙鸭相机爆火,到2024年初Sora引爆全球,生成式AI所能呈现的内容形式越来越多样,质量越来越高。

《福布斯》杂志对2024年AI领域关键创新的预测之一就是多模态生成式AI,称此类系统能处理文本、声音、旋律和视觉信号等各种输入信息,并将其融合起来进行综合理解。随着多模态技术的不断发展,AI模型将迎接更加复杂多样化的交互场景,正逐步在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

视频生成

Sora的发布被认为是AGI(通用人工智能)实现过程中的重大里程碑事件,而不仅仅是视频生成技术的突破。它对语言的理解也达到了一个新的层级,能够准确地理解提示词,并生成表达充沛情感的视频。它建立在过去对Dall·E和GPT模型的综合研究基础之上,提出了一种新的模型可能,不仅可以理解用户提出的要求,还能理解物理世界的存在方式。

在OpenAI入局之前,创业企业Pika Labs和Runway被认为是这一赛道的佼佼者。

Pika Labs成立于2023年4月,同年11月发布首个产品Pika 1.0,能够生成和编辑3D动画、动漫、卡通和电影,并且普通用户还可以对其进行加工,被视为一款零门槛“视频生成神器”。这支最初由4个人组建的团队,融资超过5500万美元,几乎所有AI领域的早期知名投资公司都参与了此轮融资。而Pika 1.0发布才过去不到4个月,同赛道的Sora就横空出世,AI视频生成这条路上,又增加了很多变数和可能性。

2024年3月,Pika对超级合作者(Super Collaborator)和Pro用户开放测试了一项新功能——Sound Effects,声称可以给视频无缝生成音效。生成的方式有两种:提供提示词或直接让Pika根据视频内容自动生成。Pika还没有公开Sound Effects背后的原理,此前Sora大火之后,语音初创公司Eleven Labs就出过类似的配音功能。

另一家独角兽Runway成立于2018年,是一家AI视频编辑软件提供商,主要为设计师、艺术家和开发人员提供一系列的工具和平台,其产品帮助专业人士生成各种内容。Runway创业之初的产品形态是一个关于机器学习模型的应用商店。随后公司基于AI算法,不断开发新的模型框架。

2024年3月,以色列初创公司Lightricks也发布了一款AI驱动的电影生成和剪辑软件LTX Studio。只要通过文字,它就能直接生成复杂的剧情,形成语音、音效、视频画面。LTX Studio结合了多种AI技术,涵盖了创作过程中的各个环节。其中,公司独创的文生视频模型LongAnimateDiff能够创作出16~64帧的视频。此外,团队还发布了另一款专门用于创作32帧视频的模型,与LongAnimateDiff相比,它在视频质量上通常有更出色的表现。不过,对于背景音乐,公司选择了第三方音乐资产供应商的资源,因为他们认为目前的AI技术还无法创作出符合质量要求的背景音乐。

在国内,爱诗科技的PixVerse能接受包括图像、文本和音频在内的多种数据源作为输入,基于这些输入生成连贯、逼真的视频内容;该平台能在较短时间内将用户提供的素材转化成视频,极大提高了视频制作的效率;且生成的视频不仅局限于简单的转译,还能具有较高的艺术性和创造性,适合用于制作营销视频、社交媒体内容、教育材料等,有多种应用场景;用户可以根据自身需求对生成的视频进行一定程度的个性化设置和调整。

音频生成

在Suno之前,已经有不少企业推出过AI音乐生成器,比如Adobe的Project Music GenAI Control, YouTube的Dream Track和Voicify AI(现在的Jammable),但只有Suno被称为“音乐界的ChatGPT”。Suno的与众不同之处在于,可以根据简单的提示创建从歌词到人声和配器的所有内容。

目前,Suno V3生成的音乐具有以下几个显著优势:更好的音频质量;更多样化的风格和流派;更强的提示遵从性,包括更少的幻觉和更优雅的结尾。

通过Suno V3,用户可以使用免费账户创作两分钟时长的完整歌曲,具体效果取决于自己选择的音乐流派。Suno团队还表示,V4已经在开发之中,并将推出一些令人兴奋的新功能。

值得注意的是,Suno并未公布过任何训练细节。Suno首席执行官兼联合创始人米奇·舒尔曼(Mikey Shulman)在采访中表示:“并非所有音频都是通过Transformer模型完成的,有很多音频是通过扩散模型完成的,这两种方法各有利弊。”

图像与文本生成

2023年7月,妙鸭相机凭借其AI图像生成技术,在国内市场迅速走红。用户上传一定数量的照片,就可以通过妙鸭相机的AI技术生成高质量的多样化风格写真。FaceChain/FaceChain-FACT算法使得妙鸭相机生成的图片面部表情自然、细节丰富。此外,其还具备AI修图、数字分身创建、模板选择等功能。

在图片生成基础上加入故事情节的童语故事(ImageStory)是国内首个AIGC(人工智能生成内容)儿童绘本产品,用户可以在小程序里创建数字分身,为孩子定制特定主题的童话绘本和短视频故事。

童语故事生成绘本的两大基础要素是文字和图片,与此对应,童语故事选用了通义千问和通义万相模型来打造这两项基础能力。在“童语故事”小程序上生成绘本故事只需要三步。第一步,选择故事角色。用户可以定制自己喜欢的角色,也可以上传照片创作自己的数字分身。第二步,输入故事主题思想。用户如果没有灵感,可以选择“创作灵感”和“随机一个”,童语故事提供了20个睡前故事和育儿故事。第三步,选择朗读音色、画面风格和字数。童语故事提供多种风格、不同年龄的声音,有扁平插画、油画、写真等10种画面风格供用户选择。用户可以设置故事字数和段落/图片数,多情景故事还支持自动分集,以及用合集来生成。简单设置完成后,点击“立即制作”即可。

上线以来,童语故事得到了消费者的喜爱,更得到了影视公司、出版社、专业儿童作家、电商平台的认可,月活用户涨到了50万,微信小程序用户平均停留时间达到8~15分钟,这样的用户时长在AI Story(人工智能生成故事)赛道已经排得上全球前三。

供春AI将文生图的创意进一步专业化,是紫砂壶行业内第一个AIGC辅助设计工具。这一小众行业有方言、圈子和文化等壁垒,且紫砂壶设计需要师傅的认可,AI设计出来的紫砂壶大部分需要人工调整,市场上通用的大模型设计出来的图大部分不可用,需要基于小灵快和开源的模型做持续的训练。

供春AI已经成为传统工艺美术从业者的好助手,其产出的每30~50张图中大约有1张是可以被资深工艺美术师认可的。截至2023年11月,已有2000多位工艺美术从业者使用供春AI设计紫砂壶,工艺美术师制作的工艺品已经落地100多件。从商业模式上看,供春AI有一定的可复制性,已在其他陶瓷产区进行陶瓷艺术设计的推广复制。

“助手”新形态:AI智能体快速演进

AI领域著名专家、斯坦福大学计算机科学系教授吴恩达指出:AI智能体工作流(AI agentic workflow)将推动AI取得巨大进步,甚至可能超过下一代基础模型。他呼吁所有从事AI研究工作的人都关注AI智能体工作流。

2024年3月,初创企业Cognition AI推出了全球首个AI软件工程师Devin。在宣传中,Devin能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复bug(漏洞)并完成任务,而且完成这些端到端的任务只需一个指令。

在SWE-bench基准测试中,Devin能够解决13.86%的问题,而GPT-4仅能处理1.74%的问题。更重要的是,Devin无需人工干预,而GPT-4则需要人工提示指定处理文件。

Devin一经发布,便引爆了整个科技圈,但在此之前绝大多数人可能根本没听过这家公司,毕竟他们在发布Devin前两个月才真正在公众面前亮相。这家仅有10名员工的公司,从彼得·蒂尔的风险投资公司Founders Fund及其他资方(包括推特前高管埃拉德·吉尔)处成功筹集到2100万美元。这些投资方所看中的,正是Cognition AI的创始团队及其主要成果Devin。

Cognition AI在设计Devin时的一大亮点,就是该公司在计算机推理能力方面取得了突破。从AI的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一个片段,还能够以近似人类的方式思考并找到合理的问题解决方法。

Cognition AI公司并不是唯一一家致力于构建AI编码工具的企业。

2024年2月,初创公司Magic AI陆续获得了谷歌母公司Alphabet旗下的CapitalG领投的2800万美元,以及GitHub前CEO(首席执行官)奈特·弗里德曼(Nat Friedman)和他的投资合伙人丹尼尔·格罗斯(Daniel Gross)投资的1.17亿美元资金。

Magic AI私下宣称其能够实现类似于OpenAI开发的“Q算法”的主动推理能力,称自己开发的新型大语言模型更接近于人类的思维方式,能实现全自动化编程,打破现有的半自动化代码编写模式,类似于一个真正的编程人员。Magic AI选择从零开始设计自己的模型和其他底层技术,希望借此保障业务独立性。这家初创公司尚未对外展示其AI系统。

在国内,除了各互联网大厂纷纷推出智能体产品,这一赛道也涌现了大批创业企业,并与各行业快速融合并落地。

例如,实在智能在2023年8月发布了自研垂直领域大语言模型“塔斯”(TARS),基于此,并结合RPA(机器人流程自动化)与AI智能体,即插即用的产品级智能体TARS-RPA-Agent由此诞生。澜码科技在2023年12月20日正式发布的AskXBOT平台,是其自主研发的基于大语言模型的集智能体与工作流设计、开发、使用、管理、知识沉淀于一体的一站式平台。智谱AI于2024年1月发布了第四代多模态基座大模型GLM-4系列,并上线了全新GLM-4的All Tools(所有工具)、GLMs个性化智能体定制能力……

探索生成式AI真正的商业价值

通过上述热点AI应用创新项目,我们可以看到新技术的突破方向,也发现基于生成式AI迸发出的全新商业前景落地的可能性。

但一个现实的问题是:这些应用和企业是昙花一现,还是会持续繁荣?

红杉资本在“Generative AI’s Act Two”(《生成式AI的第二幕》)一文中指出,目前生成式AI应用的最大问题,是需要证明自身的价值,因为目前基于基础大模型开发的应用用户留存率明显不够。当前头部消费级App(应用程序)第一个月的用户留存率能达到60%~65%,高的甚至能达到85%。生成式AI应用的用户留存率,中位数只有14%。这意味着,用户还没有在生成式AI产品中找到足够价值,不能够每天都使用。如果开发者想要建立起持久的业务,就需要解决用户留存问题。因此,生成式AI真正的商业价值还在于对各种应用场景的发掘。

此外,不仅是应用自身的价值,当前很多AI创业企业的竞争力严重依赖核心创始团队,也造成了公司运营、业务持续等方面极大的不稳定性,很多公司还没有出现可持续的商业模式就已经要化为泡沫。

2024年3月23日,Stability AI的CEO宣布辞职,这家公司培育出的Stable Diffusion开源文生图大模型在业内颇具影响力。而在CEO辞职之前,媒体称曾参与开发Stable Diffusion模型的几名关键人员都已经离开了。据报道,Stability AI资金耗尽,无法支付训练大模型所需的GPU(图形处理器)集群费用,外界普遍认为这家公司将面临破产。

早在2022年就推出了AI助手ACT-1的Adept团队的两位联合创始人离开,之后创立了自己的公司Essential AI。

另一家AI独角兽公司Inflection AI也岌岌可危。2023年6月底,这家公司宣布融资13亿美元,估值达到40亿美元,成为仅次于OpenAI和Anthropic的全球第三大生成式AI独角兽。但2024年,三位创始人中的两位都投奔微软成立新的公司。这些创业公司的发展历程与此前OpenAI发生“宫斗”和几乎重新自立门户的经历很像。

但AI时代的创新巨轮才刚刚开始转动,AI创新的技术成熟度曲线将走出怎样的周期,我们将持续关注。大家现在能做的,就是保持开放的心态,迅速学习。