如何创造亦真亦幻的世界
元宇宙在当下能激发我们对未来的想象,首要原因是它承诺创造一个亦真亦幻的世界,让我们可以自由自在地生活在其中。这也是为什么虚拟现实与增强现实是人们说起元宇宙时首先想到的。Facebook、腾讯、微软、英伟达这些科技公司告诉我们的也是同样的技术路线——构建虚拟(增强)现实的技术基础设施与应用。
自1990年年初互联网商业化开始,我们已经逐渐地进入了数字世界:我们在电脑或手机屏幕上看到图文化的信息,与之交互互动。
探索最终汇集到元宇宙,这些探索给我们展示这样的未来:你可以摆脱屏幕,看到更逼真的世界,身处其中,与之互动。图2-2是一张简图,展示当下从创造一个亦真亦幻的世界所需的输出、输入与交互控制。
图2-2 元宇宙的输出、输入与交互控制
输出:用户看到的用户界面
第一,我们希望能够有一个逼近真实的数字世界呈现在我们面前。前面讲过,输出,也就是界面体验方式有四种:戴上头盔看到的虚拟现实(VR),强调沉浸体验;戴上眼镜看到的增强现实(AR),强调现实与数字信息融合;将接近真实的图像叠加到实体世界上或反之,形成让我们通过肉眼可看到的混合现实(MR);以及实时模拟现实(SR),强调实时生成画面的真实度。
虚拟现实、增强现实、混合现实、模拟现实其实是相通的。在我们能够用芯片与算法实时生成接近现实的画面后,这些画面可以在VR头盔中显示,可以叠加在增强现实的镜片中显示,也可以通过光场技术投射在我们眼前。当然,还可以成为电影院中我们观看的电影。
输入:生成输出所需的数据、模型与通信
第二,呈现在我们眼前的画面是计算机生成的,是根据众多输入组合而成。目前看,输入的来源包括六个方面:数据、建模、摄像、计算、通信、社交。
以Facebook、微软等公司已经在反复提及的虚拟现实在线会议场景为例,我们来设想一下用到的输入。
当我们在会议软件中预定一个会议,上传会议要用的文档,这些动作形成会议的基础数据的输入。参会者之间的社交关系也自然地被纳入进来,我们将共同参与一次会议讨论。会议开始了,我们打开摄像头,摄像头拍摄的参会者真实的画面与背景融合起来,呈现到其他人面前。
按Facebook与微软的设想,我们也可以用模型建模出来的3D个人形象参会。摄像头捕捉我们的动作,个人电脑或服务器进行计算,让我们的3D个人形象相应地做出动作。
参加在线会议,参会者身处世界各地,图像、声音、数据的传递需要快速的通信基础设施支持,5G及未来的大容量通信开启了更多可能性。
元宇宙已来,至少它的雏形已经在我们身边。当你在腾讯会议等软件中用到这些功能时,一个与真实略有不同的你出现在参会者面前:你的脸部可能已经被软件缺省加上了美白特效。你用漂亮的图片替换掉自己身后可能杂乱的背景。如果你使用如黄鹂智声等降噪耳机,耳机可以用算法过滤噪音和环境音,让别人只能听到你的说话声。
交互控制:用户控制数字世界中的自己
第三,我们不只是想被动地体验数字世界,我们要与之互动,这就需要交互控制。
与数字世界的交互控制方式一直在进化。最早,与计算机的交互只能通过打孔卡片,后来有了键盘,再之后有了较为自然的鼠标。
在过去十多年,随着大屏智能手机的普及,人们已经习惯了用手指触摸来交互。这是一种非常自然的交互,连小孩子都可以自然地使用。这个创新交互的大规模应用曾出现在苹果iPad上。当时,一个科技作家记录了这样一段经历。他三岁的女儿每天都在用iPad,习惯了点击看图片、放大。当她去看纸质版图画书时,她也想用双指拉动放大,她抱怨说:“这个书坏了!”
现在,对身体控制、声音控制、眼球追踪也分别有一些探索,但仍局限在特定的使用场景。微软的体感技术Kinect实现了身体就是控制器,你可以在电视机前面跳舞,游戏里的人物随着你的身姿起舞。我们可以用声音(如苹果的Siri)调用应用软件,或者安装一些智能家居设备之后,我们回到家可以说:“帮我打开窗帘。”眼球控制则主要使用在医疗辅助等少数场景中。著名物理学家霍金在世时就曾经与英特尔合作,为他这样全身都无法动的人士开发用眼球控制软件的技术。
在虚拟(增强)现实领域,当前主流的交互控制借鉴自游戏的手柄。VR产业目前的四种实用的交互控制手段——眼球追踪、语音、手势、手柄中,手柄的技术最为成熟,效果好而且成本较低。
对于交互控制的未来,科幻小说般的大胆设想是脑机接口,也就是用大脑直接控制计算机。用意念控制机器,是科技的终极梦想。通常来讲,脑机接口分两类:第一类是在人的大脑中植入芯片,这是所谓的侵入式;第二类是用设备比如功能核磁共振成像捕获人的脑电图,这是所谓的非侵入式。脑机接口目前还处在非常早期的探索阶段。
要创造一个我们真正可以生活和工作在其中的元宇宙,交互上的持续改进是一大关键。在我们看来,交互的进化不会直接跃迁到诸如眼球追踪甚至脑机接口,而多半会是渐进的。从电脑鼠标到智能手机触摸,看似是我们抛弃了鼠标,实际是我们用屏幕加手指“组成”了鼠标。在线会议这类应用引入了声音与摄像头,也可以说是交互控制的进步。在这类场景中,我们不需要机器理解我们的声音与动作,对面的参会者可以很容易地理解声音与画面,并对应地做出互动。接下来,机器的理解能力会发展到能理解声音与动作的程度,声音与摄像头可能是下一个主流交互控制方式。
总的来说,为了在我们眼前创造一个亦真亦幻的世界,并让我们身临其境,人们持续在输入、输出、交互控制三个方面探索着。迄今为止互联网的重心在输入和交互上,而在输出呈现上它就简单地以网页和App界面的形式呈现在我们面前。在各项技术逐渐成熟后,虚拟(增强)现实则启发人们去探索更自然、更真实的视觉呈现。这或许能将我们从电脑屏幕和手机屏幕上解脱开,带给我们三维立体的互联网,我们的身体或数字化身在其中自由活动。
[知识块] 技术趋势:VR轻薄化,AR光波导
2021年11月,腾讯研究院、腾讯多媒体实验室等在报告《拐点已至,全真将到:虚拟(增强)现实产业发展十大趋势(2021)》中对于VR、AR的未来技术演进做了分析。
如图2-3所示,当前,对于虚拟现实头盔,双眼分辨率4k+的菲涅尔透镜是主流,而超短焦开始被部分使用。比如,Oculus Quest 2的分辨率为4K,刷新率为90Hz,屏幕是Fast-LCD,光学方案是菲涅尔透镜。
图2-3 虚拟(增强)现实技术路线图
资料来源:《拐点已至,全真将到:虚拟(增强)现实产业发展十大趋势(2021)》,腾讯研究院、腾讯多媒体实验室等,2021年11月。作者摘选了部分图表组合成上图。
对于增强现实眼镜,光学模组是核心,当前的光学模组方案主要是BirdBath光学结构,而下一代的方案是光波导(optical waveguide)。光波导是引导光波在其中传播的介质装置,又称介质光波导。采用光波导显示方案后,AR光学的参数对比如图2-3所示,其中FOV(field of view)指的是显示设备边缘与观察点(眼睛)连线的夹角,即你能清晰看见画面和余光扫到的内容,它代表你所看到的全景角度,角度越大沉浸感越强。