第2章
元宇宙技术系统
2.1 元宇宙技术研究
2.1.1 技术体系
元宇宙,这一与现实相融合的虚拟领域,正在引发全球的广泛关注。它的实现不仅仅是一个简单的概念或愿景,而是基于一系列尖端技术的综合应用。
元宇宙技术产业链中列举了实现各种层次元宇宙所需的技术类型及水平。现有的XR技术以AR和VR两种路径实现,可预见的相关技术包括下一代操作系统、元宇宙网络管理、元宇宙开发工具等(如图2-1所示)。
图2-1 元宇宙技术产业链图
元宇宙背后的基础设施至关重要。这个全新的虚拟世界,从本质上看,是通过互联网、VR等先进技术织就的。真正为用户打造一个身临其境的元宇宙体验,必须依赖于5G、VR、AR、半导体、区块链等众多技术的支持。这些技术为元宇宙的形成和发展提供了坚实的基础。
区块链技术在元宇宙中扮演着关键角色。其分布式特性为虚拟资产的定义、存储和交易提供了可能性。NFT等区块链应用激发了用户的创意热情,进一步促进了大量高质量创意内容的出现。同时,区块链的去中心化特点为元宇宙经济打造了一个稳定、可靠的交易平台。
人与元宇宙之间的交互是另一个核心议题。我们正在进入一个新时代,用户与数字空间的交互将不再局限于简单的屏幕点击或手势,而是逐渐转向更为直观和沉浸式的体验。例如,头戴显示器、触觉传感、神经信号传输等技术将使用户能够更真实地体验元宇宙。同时,位置传感器、速度传感器、脑机接口等输入技术也正在重塑我们与虚拟世界的互动方式。
电子游戏技术为元宇宙注入了活力。3D建模、实时渲染和仿真技术将虚拟世界的沉浸感提升到了一个全新的层次。而为了让更多的人参与到元宇宙的创造中来,我们需要降低技术门槛,让更多的非专业用户也能够轻松地创作和体验。最终的目标是构建一个真正遵循物理规律的虚拟世界,让数字化的元宇宙与真实世界紧密相连。电子游戏技术与交互技术的深度融合为元宇宙打开了广袤的天地。电子游戏技术为元宇宙注入了生动、多彩的内容,同时,与先进的交互技术相结合,它能够赋予用户前所未有的沉浸式体验。
为了实现这种体验,背后的网络底层技术不可或缺。这不仅仅指我们熟知的高速互联网和通信网络,还包括了AI、边缘计算、分布式计算等高端技术。这种云化的、智能的网络结构作为元宇宙的核心基础,确保了快速、低延迟的通信,强大的计算能力及广泛的AI介入。这为元宇宙中的活动提供了坚实的技术支持,同时,也意味着未来的终端设备将更加轻盈、高效且成本更低,确保用户能够更加自然地沉浸其中。在数据爆炸的今天,对于处理能力的需求永无止境。
AIGC能够通过AI的力量,为元宇宙中的内容创作和设计提供强有力的支持,从而缩短开发周期,降低开发成本,极大地推动了元宇宙中数字原生内容的创新与丰富。其中,AIGC的核心优势体现在其底层技术的突破。在实际应用中,AIGC能够大幅缩短元宇宙方案策划阶段的时间投入,通过高效的算法,如Midjourney(一款AI绘画工具)和Stable Diffusion(一个文本到图像的扩散模型),快速产出方案效果,帮助各方快速确认想法和方案,减少商务谈判阶段的人力投入。
物联网则为元宇宙与现实世界之间搭建了桥梁。它不仅支持实时数据的采集和处理,使得元宇宙可以与现实世界有机地互动,还为虚拟世界提供了持续更新的数据,确保元宇宙用户可以随时掌握真实世界的动态。
2.1.2 场景交互
在普特南于1981年出版的专著《理性、真理与历史》中,他提出了一个引人深思的“缸中之脑”思想实验。1想象一下,人的大脑被从身体分离并置于一个充满营养液的缸中,与计算机连接。这台计算机传输信息给大脑,使其体验现实世界中的各种感觉和印象。在这种情境下,如何确定自己是否真的生活在真实的世界中,而非计算机模拟的虚拟现实中呢?
这个思考的结果是虚拟现实与真实之间的界限模糊,高度模拟的虚拟体验可能超越现实,为我们带来更大的吸引力。这种体验的逼真度已经突破传统的二维平面,演进为空间视频、体积视频、全息视频,它们能够在三维空间中完美捕捉与呈现物体的每一个角度和细节。
空间视频、体积视频和全息视频三者构成了当下多维视频技术的基本架构,它们各自独立,却又相辅相成,共同推动了多媒体技术的革新与发展。
空间视频,通过多维度拍摄技术捕捉现实世界的动态三维影像,为用户打开了一个全新的视觉维度。通过使用手机的主摄像头与超广角摄像头的紧密协作,轻松捕捉并体验三维空间视频的能力,为整个3D显示生态系统注入了新的活力。并且让用户得以在Apple Vision Pro头显上观看空间视频,为用户提供了更为沉浸和互动的视觉体验。
体积视频通过捕捉三维空间的动态影像,赋予用户沉浸式的视觉体验。每一帧的画面都是一个三维静态模型,让用户得以从各种角度自由探索视频的每一个角落。它不仅是现阶段唯一能够完整和有效记录现实世界动态三维影像的方法,而且预示着未来视频格式的重大转变,体积视频有望成为未来最主要的视频格式,将用户从传统的二维画面中解放出来,引领他们走向一个全新的三维视觉时代。
全息视频是全息技术在视频领域的创新应用,它通过全息投影技术,为用户呈现了一个真实而立体的三维世界。全息视频不仅仅是一个简单的视觉展示,更是一个多维空间的完美呈现,让用户得以在虚拟与现实之间自由穿梭。全息视频的出现,让我们看到了科技的无限可能,它为未来的通信技术和VR技术的发展打开了新的大门。
这三种技术的发展不仅仅是技术进步的表现,更是人类对多维空间表达的探索和追求。它们共同构建了一个多维度、多层次的视频表达体系,为未来的多媒体技术发展提供了宝贵的经验和启示。在未来,随着技术的不断进步,我们有理由相信,空间视频、体积视频和全息视频将共同推动多媒体技术走向一个新的高峰,为人类打开一个全新的视觉时代的大门。
2.1.3 虚拟现实
虚拟现实,一个由尖端技术构建的仿真世界,为我们开启了一个未知的领域,其中真实与幻想的界限变得模糊。自古以来,人类对于超越真实世界的探索从未停歇,从古代的文学、绘画、戏剧,到近代的电影,都是人们追求虚拟体验的明证。VR技术不仅呈现了一种理想化的虚拟世界,更让参与者体验到前所未有的沉浸感和参与感。
在这个时代,真实世界受到了其固有属性的限制,即它只能是“现实”。但在虚拟现实中,界限被打破,我们可以体验“非现实”的可能性。通过对比和体验,我们发现了存在的更多意义和可能性。
人类对虚拟世界的渴望催生了无数的虚拟产品。从简单的文字和图像,到立体的视觉和听觉,再到五感的完全融合,这些产品的进化使得人们的沉浸感和参与感日益加强。引用马克·波斯特在《第二媒介时代》中的观点,莱因戈尔德曾预测,互联网会对个体产生巨大的文化变革。在这样的变革中,个体将自己的身份转化为屏幕上的编码文字,同时解读他人身份的编码,进一步开启了身份的多重维度和交互性。
市场研究权威机构Mordor Intelligence深度剖析预见,2023至2025年间,全球虚拟现实领域将主要聚焦于五大应用场景,即视频、直播、游戏、教育和社交。这五大领域的不断拓展与创新,将显著促进VR技术在个人用户端的需求提升,显示了VR产业链的迭代进程。VR产业的持续壮大,新品的推出和性能的逐步优化,用户对VR设备的日常使用时长呈现出稳定增长的态势。同时,消费级与专业级的设备区别日渐明显,部分用户和制造商致力于追求极致的VR体验,例如Pimax Reality 12K的研发和推出。
在操作系统方面,VR呈现出开放生态和定制化的特征,这为专业人士提供了丰富的探索空间(如图2-2所示)。目前,VR头显基本形成了以“谷歌安卓系统+高通芯片”和“苹果Vision Pro iOS系统+M系列芯片”为底层架构的模式。随着苹果产品的推出,VR头显市场将再次呈现出“类手机”的竞争格局,即安卓和苹果iOS系统的竞争。为了满足用户的多样需求,游戏串流助手和远程播放助手的应用,使得用户能直接链接游戏应用市场和共享个人电脑端的视频内容。
图2-2 VR产业链迭代进程
在硬件整合方面,VR一体机努力将手机技术与光学模组融为一体,加强图像处理能力,增加交互模块,并实现实时渲染,这也需要对操作系统进行深度的定制和优化。转向软件开发,众多的VR开发引擎出现,包括Unity、Unreal、Omniverse和Blender等,同时还有协作平台如The Wild、Yulio等,为开发者提供了丰富的选择。OpenXR作为无版权费、开放的行业标准规范,得到了众多VR制造商的支持,有助于整合碎片化的内容生态。例如,Viveport的移动端SDK与多个VR平台合作,使得开发的内容可以一键分发,并快速适配合作平台。
VR内容生态从C端(用户端)向B端(企业端)逐步拓展,娱乐依然是主导方向,同时也助推了元宇宙内容平台的发展。根据陀螺研究院与长城证券统计,截至2022年6月30日,Steam平台上的VR独占内容已达5468款,Pico内部自带游戏总应用数超过200款,而Quest官方商店与App Lab合计近千款。国信证券经济研究所的资料显示,2021年Meta开发者大会上宣布Quest平台的注册用户已达1200万名。在应用场景方面,VR以既有社交、媒体和游戏平台为基础。例如,VR全景视频广泛应用于短视频、直播、新闻、赛事等领域,而VR教育则主要应用于各类教育机构和企业,用于模拟稀有或高风险的培训场景。在内容方面,国际市场以“游戏+视频”为主,而国内市场则将逐步形成以“直播+视频+游戏”为主导的生态内容,同时也逐步向社交和办公领域蔓延。众多国际知名企业,如微软、Adobe、Autodesk和埃森哲等,都将逐步启动VR应用的开发。
2023年,VR技术在商业领域的应用呈现出B2B(企业对企业)和B2C (企业对个人)两个独特的发展路径。在B2B端,VR技术主要被应用于工业制造、办公、培训等领域,助力企业和组织优化操作流程、提升工作效率和促进团队协作。例如,通过VR技术,企业能够实现远程协作和虚拟会议,为产品设计和模拟提供强有力的技术支持。与此同时,技术发展的重点集中于提高VR系统的准确性和协作能力,以满足企业和组织的特定需求。在硬件和软件的生态系统方面,B2B端通常更倾向于选择封闭和定制化的解决方案,以确保系统的安全性和稳定性。
相较之下,B2C端的VR技术主要应用于游戏、娱乐和社交等领域,为广大个人用户提供丰富多彩的互动和娱乐体验。例如,用户可以通过VR设备享受沉浸式的游戏体验和社交活动。在技术发展上,B2C端的重点更多放在提升用户体验和互动性上,以吸引和保留个人用户。例如,通过优化图形质量、降低系统延迟和改善交互设计,为用户带来更为流畅和自然的虚拟体验。在硬件和软件的生态系统方面,B2C端通常更为开放和多元化,以满足不同用户的需求和偏好。
2023年的全球VR发展趋势包括对可访问性的关注、与其他技术(如AI和机器学习)的集成、硬件的进步、社交VR的崛起和VR游戏的创新。可预见VR在教育、医疗和娱乐等领域的应用将得到拓展,硬件的舒适度和可访问性也将得到改善,为更广泛的用户群体提供更多可能。长远来看,VR与游戏主机的竞争将愈发激烈,全球VR设备存量预计将超过3亿至4亿台,市场空间广阔。
另外,根据TrendForce集邦咨询的数据,2022年全球VR眼镜的出货量约为858万台。然而,由于产品渗透率不足,AR软件的数量和种类仍然远远落后于VR。各大厂商纷纷建立自己的AR开发标准和开发平台,形成了各自不同的软件生态,其中PGC (专业生产内容)、UGC和AIGC成为新的发展趋势。
2023年第一季度,全球VR/AR行业的融资事件共计约38笔,已披露的融资总额约为2.7438亿美元,其中中国市场占比约32%,总额为0.878亿美元。目前,AR在B端的应用场景主要集中于工业、教育、娱乐、通信等领域,而在C端的应用场景主要处于信息展示、影音播放的阶段,尚未进入刚需应用阶段。未来几年,企业将有可能扩展或最终将AI辅助的AR纳入其运营,以实现提高生产力、节省培训执行成本、改善知识共享和协作等目标。
2023年见证了VR技术在近眼显示、渲染处理、感知交互、网络传输、内容生产、压缩编码和安全可信等关键细分领域的创新和融合。随着“元宇宙”概念的推广,VR的硬件和软件生态正在加速成熟,设备也进入了加速迭代的阶段,为VR技术的进一步发展奠定了基础。VR技术在新闻报道、体育赛事、影视动画、游戏社交和短视频等多个领域得到了应用,推动了广播级高品质和大众化低门槛VR数字内容的同步发展。Micro-LED和衍射光波导成为近眼显示的热点探索领域,云渲染、AI与注视点技术引领了VR渲染的新方向,同时感知交互的自然化、情景化与智能化也成为前行之路的指明灯塔。
VR和AR技术正以前所未有的速度和规模拓展,不仅在娱乐、游戏和社交领域取得了显著的进展,同时也在教育、培训、工业、通信等多个领域展现出广泛的应用前景。
2023年,随着技术的不断演进和市场需求的不断扩大,多家知名的AR眼镜制造商如XREAL、Rokid、雷鸟、亮亮视野都在AR眼镜的技术和产品上取得了显著的进展。其中,Rokid和雷鸟通过加入了用户更关注的发热控制等技术,以期为用户提供更为舒适和流畅的使用体验。在技术特点方面,尤其是AR眼镜的视觉显示效果,得到了显著的提升,部分AR眼镜的屏幕显示不暗淡不偏色,色彩鲜亮,边角清晰,几乎无边缘畸变情况,这些进步都是通过优化屏幕规格、分辨率和刷新率,以及光学方案等技术参数实现的。
市场定位与应用也逐渐清晰和多元化。例如,XREAL、雷鸟和Rokid在2023年中完成了内部布局,推出了自家的AR眼镜加投屏器套装,不仅提升了AR眼镜的实用性,也拓宽了AR眼镜的应用场景,使得用户能够在更多的场合中使用AR眼镜,如观看大屏电影和游戏等。而AR眼镜作为一个相对新兴的消费电子品类,尽管与成熟的消费电子产品如手机相比还有一些距离,但随着技术的不断升级和各大品牌的不断推陈出新,AR眼镜的用户体验也在不断提升,逐渐成为消费者新的购物选择。
ChatGPT等先进的AI技术不断成熟,AR眼镜与ChatGPT的融合能力也逐渐显现。通过将ChatGPT等AI技术嵌入AR眼镜,用户可以实现更为自然和流畅的交互体验,同时,ChatGPT的强大自然语言处理能力也能为AR眼镜提供强有力的支持,使得用户能够通过简单的语音指令来控制AR眼镜,获取所需的信息和服务,极大地提升了AR眼镜的实用性和用户体验。
虽然AR技术拥有广袤的发展前景,但在迈向成熟的道路上仍面临着不少挑战。在提升用户沉浸感和交互体验的过程中,AR领域需努力解决现存的多重困境。目前大多数设备的重量在70至100克之间,由于技术的制约,如何在保持大屏显示、良好续航和轻便体重之间取得平衡成为技术难题,便携性与沉浸体验的两全其美变得尤为困难。
AR设备的内置算力不足也是限制其发展的重要因素,这导致用户在高频使用时可能会遇到流畅度不足的问题。同时,AR行业尚未形成完善的一站式服务体系,当前,各大厂商仍处于“跑马圈地”阶段,试图通过不断的技术创新和市场拓展来占据更大的市场份额。与此同时,与VR技术相比,AR在区分度、需求应用、技术生态及软硬件支撑等方面尚有不足,这也导致AR的出货量和流量明显弱于VR。目前,AR产品的设计和技术应用与VR还缺乏明确的区分,例如,部分AR产品很容易被误解为投影大屏电视。
在产品应用方面,虽然AR眼镜尝试在大视场角应用中实现观影功能,但考虑到安全性和观影效果,动态行走观影的开发路线显得不太合理,而且还缺乏对日常需求如便捷摄影和人脸识别功能的支持。
为了解决这些问题,AR需要在市场布局方面进行更为合理的规划。例如,苹果公司推出的配备三轴陀螺仪的Apple Watch(苹果手表),通过识别手腕的运动轨迹和位置,辅助实现了手势识别功能;而AirPods Pro则通过HRTF(Head-Related Transfer Function,头部相关传输函数)技术实现空间音频功能,为AR眼镜提供了声音输出。未来,有望见到“眼镜+无线耳机+手势识别”的AR系统集成方案,它将拥有更小的体积、更轻的重量和更长的续航时间,使得用户能像携带手机一样随时随地使用AR设备。
MR技术,通过整合AR、VR与物联网技术,将数字内容如智能物理对象和个性化需求投射到现实空间中(如图2-3所示)。MR在连接数字空间与物理现实的系统中展现出了其在处理复杂场景操作与提高效率方面的优势。它在工业模型设计、远程协作和智能诊断等领域具有广泛的应用前景。然而,头显(HMD)、视角场(FOV)、分辨率与刷新率、物品遮挡关系、对焦及人体工学等因素都会影响MR的沉浸感体验2,这些因素的优化和改进将是MR技术发展的重要方向。
图2-3 物理世界与数字世界间的技术衔接
2.1.4 虚拟补偿
在现实世界中遭遇的不足和挫折,在虚拟世界中能够得以弥补,有时这种补偿甚至能够在现实世界中显现出来。早在1964年,麦克卢汉在其著作《理解媒介》中提出了“媒介即人的延伸”这一观念,指出所有媒介实质上都是人类感知能力的延伸或扩展。互联网作为集合多种媒介特征的平台,无疑是人类感官能力的综合延伸。元宇宙的兴起,媒介的形态产生新的变化,不仅延伸了人类的感官,更实现了在虚拟世界中对人类感官的全方位“连接”。这种连接使得人们能够在元宇宙中体验到现实世界中难以得到的感官盛宴,这种超越物理逻辑产生的自由感能够为人们带来愉悦和满足感。
在探索虚拟现实补偿论的宏伟画卷中,元宇宙以其独特的沉浸感、身份性和社交性闪亮登场,它不仅成为现实世界思想形式的新领域,更是为现实世界的发展注入了实际价值和无限可能。在微观个体层次,人们通过元宇宙弥补现实生活中的社交、学习和娱乐需求,开拓了新的生活和社交维度。而在中观社群层次,元宇宙构建了一个强化现实社交网络,实现共同价值和目标的奇特平台。在宏观的社会层次,我们更是见证了元宇宙与实体社会的紧密交织,共同塑造现代社会的结构、经济和文化。
元宇宙的出现并非为了替代现实,而是与现实生活相融合,诞生出一种刷新人类生活的新方式。它并非试图替代现实社会关系,而是将虚拟社会关系作为现实社会关系的有力补充,构建一个新型的线上线下社会关系网络。同时,它也不是为了替代实体经济,而是以虚拟经济为实体经济注入新的活力,为实体经济开辟了新的赋能路径。
系统层次上的探讨,让人看到了元宇宙中的经济系统和文化系统如何输出现实利益,现实世界中的各类事物在元宇宙中以独特的方式存在和表现,进一步丰富了虚拟现实补偿论的理论框架。在这个过程中,复杂网络理论、语义网络、泛在网络和社会网络分析为我们提供了理解元宇宙与现实世界相互作用的强有力工具,帮助我们深度解析虚拟社交网络的复杂结构、知识传播的深层逻辑、虚拟与现实的无缝连接,以及社交结构和动力的多维展现。
2.1.5 生成式智能
AIGC,即人工智能生成内容,是一种通过利用AI技术自动生成文本和图像的新兴生产方式。在这个模式下,AI技术能够将文本和图像紧密地结合在一起,仅仅通过输入关键词就能自动产生AI艺术品。在这个过程中,每个画面上的点和文字都被视为“向量数据”,它们可以通过精密的算法进行层层对比和筛选,从而移除不符合文字描述的数据点,实现了所谓的“降噪”效果。这种技术的应用可能会为插画师、动画师、电影创作者等专业人士提供强大的能力补充,为艺术创作注入新的生命力,解放生产力。在当前全民自媒体和低门槛内容制作的时代背景下,实现“创作自由”不再是遥不可及的梦想(如图2-4所示)。
图2-4 AI绘画工具的演进过程
2022年11月,美国OpenAI发布了ChatGPT,这是一款由AI驱动的创新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话交流,根据聊天的上下文进行互动,同时协助人类完成多种任务。这款AI语言模型极大地简化了撰写邮件、论文、脚本、商业提案的过程,同时也能协助用户创作诗歌、故事,甚至编写代码和检查程序错误,使得这些任务变得轻而易举。ChatGPT上线仅仅两个月的时间,其活跃用户就突破了1亿人,该应用的快速普及预示着它将会对多个行业产生颠覆性的影响。纽约大学计算机科学与电气工程系的副教授赫格德(Chinmay Hegde)表示,新闻、高等教育、图形和软件设计等行业的某些工作面临着被AI替代的风险。
ChatGPT的成功推出和迅速普及,揭示了AI技术在文本和图像生成、处理和理解方面的巨大潜力。它不仅为个人和组织提供了高效、便捷的沟通工具,也为自媒体时代的创意产出提供了强有力的支持。AIGC和ChatGPT的应用,标志着AI技术正在逐步渗透到日常的创意和沟通活动中,它们为创意产出提供了前所未有的便利和可能,也为未来内容创作和传播的方式带来了新的思考和可能。在未来,AI技术和元宇宙将共同推动创意产出的多元化和个性化,为每个人打开通往创意无限世界的大门。
AI工具的日渐完善,内容创作的门槛和成本得到了显著的降低。无论是文字、图片、视频,还是3D模型,现有的AI工具已经能够覆盖元宇宙的所有内容表现形式。未来大量元宇宙内容可由AI自动产生,这不仅降低了用户创作的门槛和成本,同时也为个性化和多元化的内容创作提供了无限可能。在AI的辅助下,人们能够自由创造自身在元宇宙中的身份形象、数字空间和各类虚拟物品。这些数据的真实性和独特性通过区块链技术得以保障,确保其不会被篡改、侵权或删除,从而成为用户真正拥有的资产。
借助于ChatGPT这样的平台,智能合约的创建门槛也得以降低。从创建、确权、流转到交易,整个过程得以实现AI化,展现了理想中的Web 3.0的雏形,即一个可编程的智能社会。结合虚实结合的技术和身临其境的3D体验,AIGC元宇宙的模型渐渐清晰。
使用AIGC工具在逻辑上与传统创作模式产生了明显差异。例如,在撰写自媒体文章时,借助ChatGPT的辅助写作,人的主要任务转变为凝练问题、组合材料、改写材料和递进对话这四个步骤。凝练问题的目的是让AI协助产生最具吸引力和爆款潜质的内容;组合材料则是在多个答案中挑选最佳部分;改写材料的目标是让内容更加人性化而非机械化;递进对话则通过一级议题、二级议题的延展过程,使得某些内容得到更细致的解答。
在AI领域,诸如ChatGPT这样的大模型参数越多,软件的性能越优秀。然而,参数的大小实际上与投入的资金正相关,更为重要的是工程调优,尤其是在实际使用过程中的优化。例如,ChatGPT这类软件一旦拥有了海量的用户,其优化进程也将日臻完善。目前看来,AI的质量提升不仅仅依赖于算法的优化,而更在于庞大的反馈和实际应用中的持续优化。只有将算法与大量的实际反馈相结合,进行深度的优化,AI的质量和性能才能真正地迈上一个新的台阶。在这个过程中,AI不再是一个封闭的黑盒,而是通过智能反馈逐渐完善,为元宇宙的多元化和个性化创意产出提供了强有力的支持。在过去的28年中,尽管搜索引擎雅虎不断优化升级,但其核心技术却未见质的飞跃。与此相比,ChatGPT虽非搜索引擎,却展现出了替代传统搜索引擎的潜力。它不仅能深入语义层面,形成篇章结构,同时在微观语法与宏观意义上达成了优质的结合,这使得ChatGPT的应用领域极为广泛。ChatGPT不仅是一个简单的检索引擎,更是一个AI大脑,其高维的不同品类属性使得与传统搜索引擎相比呈现出质的差异。
预计未来数年,针对ChatGPT的AIGC产业竞争将会爆发,资金投入庞大,参数数量至少从万亿起步,涉及的大数据量级至少达到万亿条。ChatGPT的发展从AI角度为元宇宙的智能化提供了强大助力。它能自动生成内容、图片、视频乃至未来的元空间,成为元宇宙内容生成的主流方式,同时也是动态参数空间生成的准路径。ChatGPT的场景生成和故事生成技术可用于元宇宙里的编剧和场景设计,未来的游戏元宇宙将在很大程度上由AIGC构建。
ChatGPT与虚拟数字人、机器人的结合将成为未来发展的一个重要方向。虚拟数字人和机器人最为核心的是云大脑,ChatGPT的接入将是全球的趋势。倘若ChatGPT以虚拟数字人的形态出现在人类社会中,其广泛的受欢迎程度可想而知。在数字藏品领域,ChatGPT能大展身手,它能帮助从辅助设计、数字文创到自动化生成等环节提升效率。
ChatGPT的连续追问功能具有巨大潜力,当全球用户纷纷提问时,将形成一个全球的回音壁。要想人类走向星辰大海,持续为ChatGPT投喂语料是必不可少的。这种思维基因的持续进化或许是未来人类与AI共同进化的重要途径。ChatGPT的发展体现了微创新所积累的颠覆性创新,这种坚持技术信仰、持续迭代投入是取得进展的关键。
然而,ChatGPT能力的提升,也暴露出了一些问题。例如,如果信息源错误,ChatGPT将输出错误的内容,有可能成为谣言的源头。当AI能够代替人脑的一部分思考时,人的思考价值将被一定程度抵消。如果教育过程过度依赖ChatGPT,将难以培养学生的独立思考能力,教育效果将难以优化。学生如果过度依赖ChatGPT的帮助,将缺失严格的学术训练,这不仅会影响本科生和硕士的学术能力,甚至可能影响博士的质量。AI获得博士学位的那一天,或许标志着人类与AI智慧的平衡点,而人类能否再出现像爱因斯坦那样的天才成了未知数,而“AI斯坦”的形成却具有极大的可能性。
在深入探讨大模型的独特性和局限时,可以从“AI幻觉”“知识盲区”“逆转诅咒”和“引用谬误”四个方面来揭示其潜在的错误和挑战。大型模型在生成文本时可能产生与事实不符或完全虚构的信息,这种现象被称为“AI幻觉”。它可能对包括客户服务、金融服务、法律决策和医疗诊断在内的多种应用产生严重影响,导致误导性的答案和不准确的推理。知识盲区是指模型在训练过程中未能覆盖或理解的信息区域。识别和处理这些盲区需要人类的输入和干预,以确保模型的准确性和可靠性,也反映了在AI应用过程中人类监督的重要性。逆转诅咒揭示了大型模型在逻辑推理和信息泛化方面的固有限制。面对“A是B”这样的陈述时,模型无法自动泛化到“B是A”,显示了其在逻辑推理和信息泛化方面的缺陷。引用谬误是指模型在处理或生成包含引用的文本时可能产生的错误,例如错误的引用、缺失的引用或不准确的引用。这种谬误可能导致模型输出的信息失去准确性和可靠性,影响了模型在学术研究和其他需要准确引用的领域的应用。
这些错误和挑战不仅突显了大型AI模型在理解、推理和泛化方面的问题,也为未来AI和机器学习领域的研究提供了新的思考方向和探索空间。ChatGPT的普及可能会消灭一些平庸的脑力劳动者,甚至使更高学历的脑力劳动者岌岌可危。ChatGPT的掌控者可能比ChatGPT本身更具威胁。ChatGPT有能力为每个人定制信息茧房、情感温室和情绪部落,它作为一种人类价值替代品,将沿着可供、可用、可信、可替(替换人类的中低端脑力价值)、可塑(重新塑造社会关系)的路径改造社会。人类需提前思考如何应对ChatGPT带来的负面影响,以保障社会的健康发展。
2.1.6 具身智能
具身智能的领域见证了多方面的创新和进展。具身人工智能(EAI)领域出现了新的研究方向,例如通过AR头戴设备实现自然语言驱动的任务规划,显示了多模态基础在具身智能发展中的重要性。具身智能在手术机器人自动化中表现出良好的应用前景,通过学习优良的控制策略来完成各种复杂任务,其中具身AI模拟器在促进相关研究中发挥了重要作用。在软机器人学领域,具身智能(需要并利用物理身体的智能)成为众所周知的范例,数学描述和随之而来的计算模型的发展为具身智能的研究提供了新的视角。2023年的具身AI工作涵盖了视觉导航、视觉与语言及音视导航等多个话题的挑战,展示了跨领域合作在推动具身智能研究中的重要作用。
借助这些技术进展,具身智能不仅在理论研究方面取得了突破,还在实际应用中展现了强大的潜力。例如,通过AR技术和自然语言处理,能够使具身AI更好地理解和执行复杂任务,而人在循环中的具身智能则有望在医疗、制造等领域发挥重要作用。同时,通过物理模型的发展,研究人员可以更好地理解和设计具身智能系统,以应对各种实际应用场景的挑战。最后,通过多领域的挑战和合作,具身智能的研究得以跨足更多领域,不仅推动了具身智能技术的快速发展,也为未来的研究提供了丰富的思考和探索空间。
2023年,具身智能和元宇宙的结合正在为虚拟与现实之间构建新的交互桥梁。如Vision Pro和Quest 3头戴设备,可以将物理世界和数字世界初步地融合在一起,为用户提供了一个全新的交互空间。这种MR技术的应用,不仅仅是虚拟与现实的叠加,更是具身智能在元宇宙空间中的实际应用,使得虚拟角色能以更加自然、智能的方式与用户交互。
元宇宙为智能健康照护领域提供了新的可能。在这个虚拟空间里,用户可以通过与智能化的医疗服务系统交互,获取个性化的医疗建议和服务,这种交互的实现很大程度上依赖于具身智能的应用,使得虚拟医疗服务能更好地理解和满足用户的需求。
元宇宙为用户提供了更丰富的虚拟交互体验。通过应用具身智能技术,可以使得虚拟空间中的交互变得更为自然和智能,为用户带来了前所未有的虚拟社交体验,这种新的交互方式为元宇宙的发展打开了新的可能。
这些进展显示了具身智能和元宇宙理论结合的巨大潜力,不仅为用户提供了更为丰富和真实的虚拟体验,也为未来元宇宙的发展提供了强有力的技术支持。通过深度整合具身智能和元宇宙技术,未来的虚拟世界将变得更为智能和自然。