---- 为实现一个虚拟空间会议(VST)系统,需要解决以下问题:
----(1) 虚拟会议空间的建立
----VST系统支持群组协同工作的基础就是在群组成员之间建立可以通过自然方式进行感知与交互的虚拟会议空间。
----(2) 群组感知与群组协同
----在VST系统中,群组成员是以研讨与协作的方式进行工作的,为与会者提供多层次的协同感知机制是VST系统支持协同工作的前提条件。群组协同一方面实现虚拟会议空间中的协同工作机制,包括协作角色划分、协作任务分配、协作流程控制等问题;另一方面,通过信息融合的方法,将协作所需的辅助信息以可视化的形式融合在协作空间中,构造多维虚拟信息空间。
----(3) 虚拟会议空间的合成
----群组成员的协同感知是通过虚拟会议空间的合成实现的。虚拟会议空间合成是实现VST系统上层应用环境的核心。不同于当前多媒体会议系统中基于WYSIWIS(what you see is what I see)概念实现的群组感知,虚拟会议空间的合成是基于群组成员在虚拟会议空间中的空间状态实现的,不同的群组成员对虚拟会议空间有着不同视角的感知。
----虚拟会议空间合成需要研究解决以下三个方面的合成问题:
----虚拟会场合成 在与会终端实现基于与会者视点的虚拟会议空间的构造与显示。
----与会者合成 实现将所有与会者合成到虚拟会议空间中其对应的空间位置上,并且符合正确的空间透视比例关系。
----协同工作合成 建立共享的任务空间,将任务状态随群组成员活动所引起的变化在所有成员间同步合成显示。
----(4) 体系结构
----VST系统是一个构建于各种计算机技术之上的综合集成系统,其体系结构是构建虚拟会议应用的框架和基础。VST系统的体系结构需要设计实现系统运行框架,解决合成计算模型、合成同步模型、网络通信模型等关键问题。
----VST系统是一个包含人机交互、人人交互的交互环境,虚拟会议环境对交互方式与程度的支持对于群组协作过程中人的作用的发挥具有不可忽视的影响。同时,考虑到协同工作所研究的问题的复杂性,VST系统的体系结构应当支持应用设计与系统运行的分离,实现一种通用的系统运行框架,提供系统运行所需的公用服务接口,如会议管理、数据交互协议等,具体的会议应用通过规范化的系统运行框架接口实现彼此之间及其与系统运行框架之间的信息交互,完成系统的动态运行。VST系统的三层框架结构如图1所示。
----虚拟空间会议环境为与会者提供半沉浸的虚拟会议空间,与会者通过系统运行框架接口以多种交互方式参与虚拟会议应用,是系统的人机交互环境。
----系统运行框架是VST系统运行的内核,为虚拟会议应用提供了分布计算环境,集成了各类应用所共同需要的功能,如会议应用管理、空间管理、协作管理、通信管理等。通过提供规范化的运行框架接口及相应的服务,将具体的应用实现与系统运行框架相分离,使会议应用的设计实现可以独立于系统运行,同时又保证了会议应用之间的互操作性,使其成为可重用的软构件。
----信息支撑环境提供研讨过程所需的信息支撑与辅助工具,对相关应用进行集成,实现信息服务。
----VST系统的三层框架结构,从某种意义上来说,是实现一种“系统环境总线”,系统环境两侧的研讨人员和系统支撑工具分别以服务请求和提供服务的方式与系统进行交互,系统运行框架实现服务接口管理,包括服务注册、服务响应等,即为支撑集成研讨应用的信息服务提供了统一的“插座”,成为应用集成的“软总线”。
----虚拟会议空间包括两个方面,即:
----全局会议空间(global conference space,GCS) 是在统一的空间坐标体系下,对虚拟会议环境的空间描述与组织;
----局部会议空间(local conference space,LCS) 是全局会议空间按照本地与会者自身的空间位置和观察方向在与会者终端的投影,同时包括本地与会者、相应的外部设备、为与会者提供加入虚拟会议应用的环境。
----与会者合成是在与会者所处的局部实际会场构造并显示虚拟会场,将能够与本地与会者发生交互行为的其他与会者的影像、音频等合成到这个虚拟会议空间中,营造所有与会者“共聚一堂”的感觉,使其能够通过各种自然直观的交互方式进行会议研讨。与会者合成包括三个部分。
----1.与会者空间定位
----现实世界中的空间关系是建立在空间方位和距离基础上的,为了使与会者获得真实的空间感,在局部会场合成的其他与会者视频替身必须反映其在全局会场中的方向、位置,空间定位的目的就是确定局部会场中与会者视频替身所对应的空间方位、距离及其实际尺寸。
----对于VST系统,可以做如下假设:
----与会者的空间定位可以通过光流分割、运动检测等视频图像处理技术,实时地将用户的影像从其所处的背景环境中分离出来,借助摄像机定标,实现对诸如头部、四肢等身体部位运动的定位与跟踪,或直接采用空间传感器获取与会者在实际环境中的空间位置等信息。
----2.与会者建模
----与会者模型实现对与会者的识别(identification)和与会者行为活动(behavior)的表现,其模型的建立必须能够满足合成的空间感和真实感两方面要求。当前与会者模型的研究实现主要通过两种技术路径:
----基于模型的方法 这一类方法用于构造与会者的三维模型,对人体各部分建立了相应的运动控制引擎,通过外部交互输入或对与会者视频进行实时运动分析,与会者能够以运动参数的形式控制其虚拟替身在虚拟会议空间中的行为。对于视觉敏感部位的活动,如面部表情,通过将与会者视频中相应部位作为视频纹理映射到与会者的三维模型对应的几何造型上,以获得逼真的表现。
----基于图像的方法 直接利用与会者视频所包含的信息,从中提取代表与会者的视频对象图像,通过空间投影变换将其合成到三维虚拟会场中,如实地反映与会者在会议应用中的活动。在虚拟空间会议进行过程中,与会者的空间位置相对固定,身体其他部位活动较少,而在面对面的人际交流中,与会者影像质量的好坏直接关系到虚拟会议应用中视觉交流的效果,因此,通常采用基于图像的方法进行与会者视频合成。
----3.基于视线的视频合成
----由于与会者在虚拟会议空间中的位置各不相同,视觉空间合成的真实感体现在对于同一位与会者来说,由于其他与会者的观察方向不同,应该“看到”不同侧面的该与会者的肖像。基于视线的视频合成就是将与会者视频替身在局部会场进行合成时,显示被合成与会者在本地与会者视线下的视频,如与会者B在与会者A的左侧,则在与会者B处合成的应是与会者A左侧的视频肖像。
----不同的与会者视觉模型对应于不同的视线合成方法。对于通过三维模型建立的与会者视觉模型,由于三维模型能够进行任意的旋转、移动,因此,这一类视线合成所需解决的问题是如何满足虚拟会议应用对视频合成真实感的要求。通常是将与会者视频作为纹理进行到其三维模型的映射,考虑到虚拟会议应用的特点,与会者大部分时间只有头部在运动,因而问题归结为通过与会者视频及其头部三维模型进行基于视线的视频合成。
----对于基于视频替身的与会者模型,基于视线的与会者合成就是摄取不同视点的与会者视频图像,根据观察者与被观察者之间的相对位置关系,采用图像变形或视角合成等方法合成特定观察视点的与会者视频影像,将结果按与会者的空间位置以正确的透视比例映射合成到虚拟会场中。
----从虚拟会议应用的实时性要求考虑,目前大多数原型系统采用架设多台摄像机的方法实现基于视线的与会者合成。在每个与会者终端为其他与会者在其对应的观察角度架设相应的摄像机,每台摄像机作为与会者在其他与会站点的观察代理,获取其他与会者的活动信息。多台摄像机实际上模拟重构了与会者之间的空间相对位置关系。所有摄像机包含了虚拟会议空间中所有与会者的信息,通过将这些信息在虚拟会议空间进行合成,重构与会者相互间的空间位置信息,实现与会者之间自然交互的合成。
----虚拟会议空间合成的计算模型解决虚拟会议空间合成的体系结构。其合成是面向与会站点的,即不同虚拟会议终端处的会议空间合成与该虚拟会议终端在虚拟会场中的位置以及与会者的观察方向有关。同时,合成同步要求计算模型能够克服会议空间合成所需的多路输入信息在传输过程中产生的延迟所带来的影响。根据合成地点的不同,存在两种基本的计算模型,即:
----集中计算模型 由中央合成单元(central synthesis unit, CSU)和虚拟会议终端构成星形拓扑结构,虚拟会议空间合成在中央合成单元实现,如图 2(a)所示。
----分布计算模型 将空间合成的计算量和资源需求分布到各虚拟会议终端,由各虚拟会议终端完成虚拟会议空间的合成。用于虚拟会议空间合成的媒体数据直接在虚拟会议终端之间传输,如图2(b)所示。
----虽然两种计算模型只是合成的地点不同,但对会议系统体系结构的影响是很大的。在集中计算模型中,需要确定一个中央站点,中央站点与其他站点呈星形拓扑。而分布计算模型则要求所有与会站点均存在直接的通信信道连接。分布计算模型与集中计算模型相比存在两大缺点:
----(1) 对通信信道需求过大
----设有N个与会者,实现分布计算所需的通信信道为N× (N-1)条,而集中式合成只需2×N条通信信道。当N=16时,分布式合成所需信道便是集中式的7.5倍。对于远程应用,这将极大地增加会议系统的使用费用。
----(2) 需要高性能会议终端
----在分布式合成中,每个与会站点都需要完成虚拟会议空间合成功能,由于虚拟会议空间合成的计算复杂性很大,所以,在每个与会站点处均需要高性能的会议终端。这便导致了只有拥有高性能会议终端的用户才能加入会议,从而限制了会议系统的使用范围。
----集中计算模型的缺点则表现在以下两方面:
----(1) 对CSU的性能要求很高,甚至是现有计算机无法实现的。在这种情况下,CSU的性能便决定了VST系统的规模和最多能接受的与会者的数目。
----(2) 系统相对较脆弱。一旦CSU出现故障,整个VST系统便无法运转。
----在VST系统运行过程中,对于每一个与会成员来说,不同时刻能够与之进行交互的空间对象集合(包括其他与会者和虚拟会议空间中的虚拟物体)是动态变化的,由与会者在虚拟会议空间中所处的位置与方向决定。映射到底层的网络通信表现为交互数据的流向是变化的,即每次数据传输的目标节点组中包含的节点都可能是不同的。另一方面,不同时刻与会者与其他空间对象的交互程度也不同。对于同一个与会成员,在不同媒体空间中有不同的空间对象集合能够与之发生交互,因而不同媒体数据(视频、音频)传输的目标节点组中包含的节点也可能是不同的。因此,多播通信(multicast)成为 VST系统的主要通信机制,多播通信不但能够利用网络硬件支持的多播传输能力达到降低带宽需求、提高通信并发程度的目的,而且能够对系统通信模型进行易于理解的语义描述。