CN104571823A

CN104571823A - 一种基于智能电视的非接触式虚拟人机交互方法

Info

Publication number: CN104571823A
Application number: CN201510013947.0A
Authority: CN
Inventors: 冯志全; 冯仕昌
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2015-01-12
Filing date: 2015-01-12
Publication date: 2015-04-29
Anticipated expiration: 2035-01-12
Also published as: CN104571823B

Abstract

本发明的一种基于智能电视的非接触式虚拟人机交互方法，包括以下步骤：步骤1，将智能电视连接图像传感设备，并在智能电视中建立手势识别系统和手势信息数据库，在手势信息数据库中存储若干种指定手势以及与指定手势一一对应关联的智能电视执行程序；步骤2，设定两种操作模式；步骤3，进行操作模式A，通过手势直接对智能电视切换出的二维菜单界面和三维操纵界面操作；步骤4，进行操作模式B，保持智能电视当前界面不变，调用与手势对应关联的智能电视执行程序。本发明的有益效果是：结合虚拟界面位置感知和用户的行为模型探测用户的交互意图，提出了解决了基于手势交互的人机系统中难以解决的“Midas？Touch问题”的新途径。

Description

一种基于智能电视的非接触式虚拟人机交互方法

技术领域

本发明涉及一种基于智能电视的非接触式虚拟人机交互方法。

背景技术

近年来，三维(3D)自然手势交互技术已经在手语识别、手指鼠标、虚拟物体控制、家电遥控、Windows命令控制、手指绘画、机器人控制等领域得到应用。自然、高效、智能化、无障碍的人机交互界面(HCI，Human-Computer Interface)已经成为新一代智能HCI的主要发展方向，建立智能化的、自然的、和谐的、人性化的人机界面已经成为新一代HCI发展的主要趋势。

在目前广泛使用的图形接口中，主要的输入方式还是物理键盘和触屏输入，当然，触屏技术凭借其优点在移动终端占据主流。然而，社会依然在发展，研究人机交互技术变得异常活跃，人机交互迅速受到了各大厂家的重视，并成为移动终端行业的又一竞争领域。

手势作为自然的交互方式，在计算机领域取得了可喜的发展。目前，移动终端的硬件日趋强大，多媒体技术也在迅速发展，将手势应用到移动终端成了一个顺水推舟的事。用手指的形态来进行标记和识别，从而达到控制的目的，手势的直观性和强大的语义使得人机交互变得尤为轻松。但由于识别的性能有待提高，目前还未得到很广泛的应用。

根据设备采集数据资料的不同，目前的手势识别可以大体分为两种，基于数据手套的手势识别和基于视觉的手势识别。基于数据手套的识别系统优点是识别效率高，但由于其要求使用者必须穿戴极不方便的设备，而且设备的造价不菲，所以此种识别方式不会是未来的主流。而基于视觉的手势识别系统凭借良好的适用性以及不需要其他的硬件设备，只是通过普通的摄像头，因而成了发展的主流。一方面，在基于手势的隔空操作条件下，用户与物理界面的距离比较远，这与用户的心理模型有较大差距；另一方面，在手势这种单一输入通道条件下，用户的认知负荷和操作负荷比较大，界面系统不仅对用户有不少操作限制，而且即使一个简单的交互任务也可能要求用户完成复杂的手势命令操作。

电视正在变成一个与许多内容进行交互的枢纽。这些大型的、高分辨率的显示器可以被用于浏览数码照片、选择音乐、玩游戏、看电影和电视节目。现在许多电视与互联网连接，允许访问在线内容和社会媒体，这进一步导致了像苹果电视和谷歌电视这样的新产品的发展，它们增加了从电视屏幕获取信息的数量和复杂性。国内的乐视和小米也很火爆，其中乐视互联网电视去年10月份以后超越了海信、长虹等传统品牌高居第一位，它有语音交互和基于触摸操作的智能遥控器。在许多情况下，电视遥控器本身就是一个限制因素，通常它只提供简单的固定按钮来与电视进行交互，缺少鼠标和手势交互的灵活性。Nasser H.Dardas和Mohammad Alhaj[7]利用手势识别技术来产生控制命令，利用这些控制命令来控制游戏中物体的运动，在该手势识别系统中利用词袋技术和支持向量机技术来实现用户和计算机之间的交互。Werner等人在不违反用户心理模型的情况下，通过隐式调整控制显示来适应当前用户的需要，解决了远程交互中指点设备的精度问题。Joe Weakliam等人提出了CoMPASS系统，它不需要来自用户的显式输入，而是当用户根据特征和感兴趣的区域浏览地图特定空间内容时，监控用户的隐式操作。该系统可以分析用户的隐式行为，并将分析结果用于建立用户模型。Kaori Fujinami等人把增强技术融入到普适计算中，采用自然或隐式的方法获取用户环境信息，而用户不需要学习如何获取信息，填补了用户和复杂计算环境间的差距。Paul Dietz等人提出了基于多投影仪的隐式交互技术，他们把投影仪作为实时输出设备，当用户进入红外线区域时，系统可以隐式地关注用户并在显示区显示用户，同时用卡通技术循环地展示有关内容。Stavros Antifakos等人设计了一个面向非意外同步运动的“智能”对象的隐式交互实例，当打开门时系统隐式访问控制。

总的来说，目前基于手势的接触式交互界面存在的主要问题是用户的认知负荷(需要用户记忆不少的手势命令)和操作负荷比较重(用户长时间操作会很疲劳)，严重影响了基于手势的自然交互技术的推广应用。

发明内容

为解决以上技术上的不足，本发明提供了一种用户的认知负荷小，操作负荷比较轻的基于智能电视的非接触式虚拟人机交互方法。

本发明是通过以下措施实现的：

本发明的一种基于智能电视的非接触式虚拟人机交互方法，包括以下步骤：

步骤1，将智能电视连接图像传感设备，并在智能电视中建立手势识别系统和手势信息数据库，在手势信息数据库中存储若干种指定手势以及与指定手势一一对应关联的智能电视执行程序；

步骤2，如果图像传感设备观测到智能电视前的感知空间内有用户画出矩形，则进行步骤3，如果图像传感设备观测到智能电视前的感知空间内有用户画出圆形，则进行步骤4；

步骤3，进行操作模式A，智能电视切换出二维菜单界面和三维操纵界面，图像传感设备观测用户的动态操作手势并通过手势识别系统进行识别，利用行为模型感知算法将用户做出的动态操作手势映射到二维菜单界面或三维操纵界面上进行直接操作；

步骤4，进行操作模式B，保持智能电视当前界面不变，图像传感设备观测用户的手势数据并通过手势识别系统进行识别，在手势信息数据库中遍寻与识别出的手势一致的一种指定手势，并调用与之对应关联的智能电视执行程序。

在步骤2中用户画出矩形的识别方法，包括以下步骤：

a.图像传感设备观测到智能电视感知空间内的图像，去除每帧图像的背景，得到手势图像；

b.计算每个手势图像的重心；

c.以静止手势作为手势开始和手势结束的标志，将各帧手势的重心按照时间顺序组成序列，得到手势轨迹多边形；

d.将该轨迹用四条首尾依次相连的直线拟合该手势轨迹多边形，得到一个矩形，使得手势多边形上各点到达该矩形最近边的垂直距离之和的平均值δ最小；

e.如果平均值δ<ω，则该手势轨迹多边形为矩形，并返回该矩形；否则该手势轨迹多边形不为矩形，返回空；其中，ω是一个指定的非负阈值。

在步骤2中用户画出圆形的识别方法，包括以下步骤：

b.计算每个手势图像的重心；

d.计算该手势轨迹多边形所有点的重心坐标位置O；

e.计算该手势轨迹多边形上各点P_i距离O的距离r_i，r_i＝||P_i-O||；

f.计算各个r_i的均值：其中，n是手势轨迹多边形上点的个数；

g.计算均方误差r：如果r<γ，则手势轨迹多边形为圆；否则不为圆；其中，γ是事先指定的非负阈值。

在步骤3中行为模型感知算法包括以下步骤：

a.利用粒子滤波算法获取当前时刻前面N帧图像中的三维手势结构；设定感知空间内存在虚拟界面，该虚拟界面的法线方向向量为T；第k帧三维结构向量为G_k＝(O_k,D_k,f,D_k,u,θ_k)；其中，O_k表示手形重心向量，D_k,f和D_k,u分别表示手形向前方向向量和向上方向向量，θ_k表示手形各关节值组成的向量，1≤k≤N；

b.计算三维手势模型在N帧的运动轨迹C_N，然后，从当前帧开始，在C_N上反向搜索与T平行的线段，假设该线段的起始时间为t₀，再从t₀出发，在C_N上方向搜索线段，假设终止点为t₁，线段t₁t₀的方向向量为D_L；如果D_L·T＝0且在时间段[t₁,t₀]内手势形状没有发生改变，则检测出“平移(Translation)-确定(Confirmation)”模型(T-C)，即用户的当前行为为在进行二维菜单界面选择操作；否则，进行步骤c；

c.从当前帧开始，反向把关节角度向量θ_k的对应变量组成向量组，如果所有向量组都单调不增减，设单调不增的起始点为t₀，再从t₀出发，搜索如果所有向量组都单调不减增，则检测出“抓(Grasp)-操纵(Manipulation)-放(Release)”模型(G-M-R)，即用户的当前行为为在进行三维操纵界面直接操纵；否则，返回步骤a。

在步骤4中，智能电视前的感知空间划分出多个功能区域，在不同的功能区域内相同的手势关联不同的智能电视执行程序；智能电视前的感知空间内多个功能区域划分方法为：

步骤a，设定感知空间内存在虚拟界面，该虚拟界面几何体区域为G，虚拟界面上需要布局的功能区域数目为m，将G分为u×v个功能块g_i,j(i＝1,2,..u,j＝1,2,…,v)，u×v＝m；

步骤b，G的重心为O，g_i,j的重心为O_i,j，定义手势到各个功能区域需要移动距离权值为：η_i,j＝γexp(-||O_i,j-O||)；移动距离越大，则移动距离权值越小，且0≤ηi,j≤1(1≤i≤u,1≤j≤v)；

步骤c，进一步定义各个功能区域的易操作性β_i,j(i＝1,2,..u,j＝1,2,…,v)，它们可以用概率统计的方法得到，且满足：0≤βi,j≤1(1≤i≤u,1≤j≤v)；

各个功能的使用频率ω_i(i＝1,2,..m)不同，采用概率统计的方法得到，且满足：0≤ω_i,j≤1(1≤i≤u,1≤j≤v)；各g_i,j所在位置“好坏”的总体评价权值为：α_i,j＝η_i,jβ_i,j；

步骤d，再将α_i,j按照由大到小进行排序，得到序列(α₁，α₂，…,α_m)，将ω_i,j也按照由大到小的顺序进行排序，得到序列(ω₁，ω₂，…,ω_m)；从而，ω_k所对应的功能分配给模块α_k(1≤k≤m)。

本发明的有益效果是：1.不仅从一个侧面反映了用户的手势操作行为模型，而且刻画了用户的心理模型，并且规范了非接触式交互的界面范式，使得非接触式交互界面是可以计算、可以感知的，因此将接触式交互与非接触式交互很好地统一起来。2.在不同操作姿态、不同操作维度之间随意地透明切换，这种切换客观上可以降低长时间限于某一种固定操作模式所带来的紧张感和疲劳感。3.在操作模式A中，用户的Mental Model直接建立在物理界面直接映射的基础上，用户无需学习或记忆就可以通过虚拟界面完成交互任务，故用户的认知负荷非常低；在操作模式B中，因为同一个手势在不同的功能块将被解释成不同的命令，因此可以用同一个手势完成不同语义的操作，无需用户记忆大量的手势命令，故降低了用户的认知负荷。4.结合虚拟界面位置感知和用户的行为模型探测用户的交互意图，提出了解决了基于手势交互的人机系统中难以解决的“Midas Touch问题”的新途径。

具体实施方式

本发明的一种基于智能电视的非接触式虚拟人机交互方法，为了降低用户在操作虚拟界面过程中“Midas Touch问题”的影响，排除不同功能区之间可能存在的干扰，本发明将用户行为模型与虚拟界面相结合，提出基于用户行为模型和虚拟界面的隐式交互范式。包括以下步骤：

步骤2，如果图像传感设备观测到智能电视前的感知空间内有用户画出矩形，则进行步骤3，如果图像传感设备观测到智能电视前的感知空间内有用户画出圆形，则进行步骤4；建立用户的两类基本操作模型。第一，菜单操作中的行为模型表述为：平移(Translation)-确定(Confirmation)。在“平移”阶段，三维手势模型的姿态不会发生改变，只是手势的重心位置发生改变；“确定”阶段，用户有一个“向前推”的动作，该动作的运动方向与平移运动时重心的运动方向相垂直。第二，3D直接操纵中的行为模型表述为：抓(Grasp)-操纵(Manipulation)-放(Release)。利用“抓”和“放”关节变化特征，就可以识别出“抓”“放”手势；模型中的“操作”，主要包括平移、旋转等基本操作。为简化算法，如果在用户手势动作中检测出“抓-放”结构，则认为用户当前正在进行“3D直接操纵”。用“画矩形”来隐喻整个物理界面上没有显示功能菜单，符合用户的心理模型。

具体地，用户画出矩形的识别方法，包括以下步骤：

b.计算每个手势图像的重心；

用户画出圆形的识别方法，包括以下步骤：

b.计算每个手势图像的重心；

d.计算该手势轨迹多边形所有点的重心坐标位置O；

行为模型感知算法包括以下步骤：

综上所述，长时间连续用手势操纵界面往往容易导致用户的疲劳感。有证据表明，用户疲劳的主要原因之一在于操作手势模态过于单一。事实上，一方面，只让用户进行2D/3D操作，或要求用户必须连续地操作而不能停下来，或把手势命令操作与直接操纵截然分开，或者手势“进入”界面容易“出”界面难，……，这些限制本身不仅让用户感到体力疲劳，而且感到心理疲惫。另一方面，在3D交互界面应用系统中，往往有2D界面(比如菜单选项或系统设置等一般用2D界面呈现)，因此，3D与2D共存将是未来3D移动设备、智能3D数字电视等3D交互界面的一个基本特征——这正是本专利研究混合多模态手势(2D/3D,通信型手势/操作型手势)输入的根本原因。因此，让用户真正“自然”地操作界面，必然要求在不同操作姿态、不同操作维度之间随意地透明切换，这种切换客观上可以降低长时间限于某一种固定操作模式所带来的紧张感和疲劳感。

其次，在操作模式A中，用户的心理模型(Mental Model)直接建立在物理界面直接映射的基础上，用户无需学习或记忆就可以通过虚拟界面完成交互任务，故用户的认知负荷非常低。在操作模式B中，因为同一个手势在不同的功能块将被解释成不同的命令，因此可以用同一个手势完成不同语义的操作，故降低了用户的认知负荷。因为只有结合虚拟界面位置感知和用户的行为模型，因此在很大程度上解决了基于手势交互的人机系统中难以解决的“Midas Touch问题”。

用户手势附近的这块看不见的虚拟界面对于用户的心理具有特殊的意义和作用。首先，它是指令“发射区”；其次，思维模型是用户脑中对所进行的具体活动机制的一个抽象，该区域与用户的思维模型“距离”最近；从某种意义上讲它是物理界面的替代物。与思维模型的一致性，客观上就要求当用户的“操作重心”发生显著变化时，系统需要自动重新定位虚拟界面的位置。

通过交互设备对用户行为模型的感知，成功构建虚拟界面的结构和功能分布、虚拟界面的风格、虚拟界面的类型、多风格界面映射矩阵等关键数据和关键模型。因此，智能感知是实现基于虚拟界面隐式交互的核心，虚拟界面是承载智能感知的基础。

以上所述仅是本专利的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本专利技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本专利的保护范围。

Claims

1.一种基于智能电视的非接触式虚拟人机交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于智能电视的非接触式虚拟人机交互方法，其特征在于：在步骤2中用户画出矩形的识别方法，包括以下步骤：

b.计算每个手势图像的重心；

3.根据权利要求1所述基于智能电视的非接触式虚拟人机交互方法，其特征在于，在步骤2中用户画出圆形的识别方法，包括以下步骤：

b.计算每个手势图像的重心；

d.计算该手势轨迹多边形所有点的重心坐标位置O；

4.根据权利要求1所述基于智能电视的非接触式虚拟人机交互方法，其特征在于，在步骤3中行为模型感知算法包括以下步骤：

5.根据权利要求1所述基于智能电视的非接触式虚拟人机交互方法，其特征在于：在步骤4中，智能电视前的感知空间划分出多个功能区域，在不同的功能区域内相同的手势关联不同的智能电视执行程序；智能电视前的感知空间内多个功能区域划分方法为：