CN101998107B

CN101998107B - 信息处理装置、会议系统和信息处理方法

Info

Publication number: CN101998107B
Application number: CN201010260915.8A
Authority: CN
Inventors: 谷大辅
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-08-21
Filing date: 2010-08-20
Publication date: 2013-05-29
Anticipated expiration: 2030-08-20
Also published as: US20110044212A1; JP2011043716A; CN101998107A

Abstract

本发明提供一种信息处理装置、会议系统和信息处理方法。在发言者使用的终端装置中，通过麦克风输入音声进行音声识别处理和语素解析，以所定的条件将作为解析结果得到的字符串抽出，经由会议服务器装置向其它终端装置发送。在其它终端装置中，能够显示并选择接收到的被抽出的字符串。被选择的字符串，在共有的文档数据图像上重叠显示。在共有的图像上，自由地配置将会议中的发言者的音声字符串化的内容，高效地辅助会议参加者生成会议记录。

Description

信息处理装置、会议系统和信息处理方法

技术领域

本发明涉及在经由网络连接的多个信息处理装置之间共有音声、影像和图像，即使远隔也能够实现用户间的会议的会议系统。特别涉及能够有效辅助用户生成会议记录的信息处理装置、包含多个信息处理装置的会议系统和信息处理方法。

背景技术

随着通信技术、图像处理技术等的进步，实现了使用计算机而即使远隔地也能够经由网络进行会议的电视会议系统。在电视会议系统中，能够在多个终端装置中各自阅览共通的文档数据等，也能够共有对文档数据的编辑、补写工序。

会议参加者在会议中等类似的场合，各自生成会议内容的记录。被选为议事录生成者的人，进行全体发言者的发言记录。此时，发言从多个人发出，并且参照共通阅览的资料等进行会议，因此存在漏听或者无法跟上与资料的对照等记录生成作业负担重的情况。

在JP特开2002-290939号公报中公开的发明，关于在电子会议系统中使用的终端装置，预先蓄积重要数据，将来自会议参加者的发言内容或会议参加者的顺位与蓄积的重要数据比较，根据发言内容或顺位，将该发言内容或会议参加者的信息在显示会议参加者能够共有的信息的共有窗口上显示时，变更显示方式。例如，在发言内容为与重要数据有关的内容时，进行文字加粗、文字色变更、加下划线、标记追加等强调显示。

另外，在JP特开2008-209717号公报中公开的发明，利用音声识别技术，对输入音声进行语素(morpheme)解析而作为字符串取得，能够在显示部上输出多个候补进行选择。通过将该发明适用于电子会议系统，能够将发言者的音声输入变成字符串而用于记录。

发明内容

通过JP特开2002-290939号公报公开的发明，将涉及重要信息的发言内容(非音声)等在共有画面上强调显示，从而易于把握应记录的要点，因此在一定程度上能够辅助会议记录生成。但是，虽然在共有画面上进行强调显示，但是输入的音声等无法留作记录。

通过JP特开2008-209717号公报公开的发明，将发言者的音声字符串化，从而在一定程度上能够辅助会议记录。但是，没有考虑会议系统等这种字符串化的音声内容参照其它信息例如图像内容的情况。

在经由网络的电子会议系统中，各会议参加者的发言，参照共有的资料图像或影像等。因此，期待能够生成不仅将发言字符串化，而且能够以较小的作业负荷生成能从视觉上把握与所参照的图像的关系那样的效果的记录。

本发明针对这种情况作出，其目的在于提供信息处理装置、包含多个信息处理装置的会议系统和信息处理方法，从而会议参加者能够通过自身使用的信息处理装置在共有的图像上，自由地配置将会议上的发言者的音声字符串化的内容等，有效地辅助会议参加者进行的会议记录生成。

本发明的信息处理装置，通过通信单元接收图像信息，使基于接收到的图像信息的图像在显示部上显示，在该信息处理装置中，具有：取得与图像信息关联的音声数据并将该音声数据变换为字符串的单元；对变换后的字符串进行语素解析的单元；从由通过该单元解析的结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串的单元；使该单元抽出的字符串在显示部上显示的单元；接受对被显示的字符串内任意1个或多个的选择的选择单元；在基于图像信息的图像上的任意位置，使被选择的字符串重叠显示的单元。

在本发明中，取得与从外部装置(服务器装置)接收的图像信息关联的音声数据并将该音声数据变换为字符串，对被变换的字符串进行语素解析。从作为语素解析的结果得到的字符串内抽出满足预先设定的条件的字符串，被抽出的字符串与基于接收到的图像信息的图像一起在显示部上显示。另外，被抽出的字符串也可以向其它装置(向服务器装置或经由服务器装置向其它信息处理装置)发送。并且，接受对被抽出的字符串内1个或多个的选择。将被选择的1个或多个字符串在基于图像信息的图像上显示。

由此，能够从将与图像关联的音声变换所得字符串内选择满足设定条件的字符串而在显示部上显示，在图像上显示。由于能够任意地进行条件设定，因此能够抽出反映用户意向的字符串。

另外，从音声数据进行的字符串变换、语素解析和字符串的抽出，与被抽出的字符串在图像上的显示，可以在同一信息处理装置内实施，也可以在不同的装置各自实施。可以将被抽出的字符串从服务器装置向多个用户各自使用的信息处理装置发送，通过各信息处理装置各自显示由用户任意选择的字符串。

本发明的信息处理装置，通过通信单元接收图像信息，使基于接收到的图像信息的图像在显示部上显示，在该信息处理装置中，具有：接收基于与图像信息关联的音声数据的多个字符串，使接收到的多个字符串在显示部上显示的单元；接受对被显示的多个字符串内任意1个或多个的选择的选择单元；在基于图像信息的图像上的任意位置，使选择的字符串重叠显示的单元。

在本发明中，将基于从外部装置(服务器装置)接收的图像信息的图像通过显示部进行显示，并且通过外部装置(服务器装置或其它信息处理装置)从音声数据进行变换，接收被抽出的多个字符串，与图像一起显示，接受选择。被选择的1个或多个字符串，在基于从外部装置接收到的图像信息的图像上显示。

如果从外部装置接收的字符串的变换元，是与从外部装置发送的图像信息关联的音声数据，则能够显示与基于图像信息的图像关联的字符串而由用户进行选择，并且将选择的字符串在图像上显示。

由此，能够与图像一起从视觉上把握与图像关联的音声内容。并且，不通过手写记录也能够选择将音声字符串化的内容。

本发明的信息处理装置，具有接受选择单元接受的被选择的字符串在基于图像信息的图像上的位置变更的单元。

在本发明中，当被选择的1个或多个字符串，在基于接收的图像信息的图像上被描画时，也自由地接受在该图像上的位置的选择。例如文档包含多个图像或文字，在显示该文档时，在本发明中能够将是否为与这些图像或文字中的任一关联的字符串的情况，以能够视觉地把握与基于图像信息的图像的关联的方式选择图像上的位置。

本发明的信息处理装置，还具有接受对选择单元接受的被选择的字符串编辑的单元。

在本发明中，接受对被选择的1个或多个字符串的编辑。由此，能够进行字符串的追加或删除等。

本发明的信息处理装置，还具有接受选择单元接受的被选择的字符串的格式变更的单元。

在本发明中，接受被选择的1个或多个字符串的格式变更。由此，能够实现字符串的文字大小的变更、字体的变更、文字色的变更等。

本发明的信息处理装置，具有：预先存储任意多个单词的单元、将与显示部显示的字符串关联的单词从多个单词中抽出的单元、使抽出的单词在显示部上显示的单元。

在本发明中，预先存储任意多个单词，将与显示部显示的字符串中显示的单词关联的单词抽出，并显示到显示部上。由此，能够在音声数据的语素解析后，包含与抽出的字符串关联的单词或与已经选择的字符串关联的单词，作为显示的字符串候补接受选择。能够将音声数据自身所含单词以外的单词也用于记录。

本发明的信息处理装置，预先设定的条件是词类的种类或词类种类的组合。

在本发明中，为了抽出字符串而预先设定的条件，是名词、动词、形容词或者形容动词等词类的种类或这些词类种类的组合。由此，能够从由音声数据变换的字符串中除去助词、连接词等等单词，缩小选择对象的范围。并且，通过设定为仅有特定的名词等，也能够仅抽出特定条件的字符串。

本发明的信息处理装置，特征在于，具有：接受任意的字符串或图像的输入的单元、接受被输入的字符串或图像的位置变更的单元，将输入的字符串或图像基于该位置显示。

在本发明中，除了从显示部显示的被抽出的字符串选择的字符串、或该字符串的编辑后或格式变更后的字符串以外，也显示用户输入的任意的字符串或图像。除了被选择的字符串之外，也能够显示任意的信息。

本发明的会议系统，包含存储图像信息的服务器装置、能够与服务器装置通信并具有显示部的多个信息处理装置，多个信息处理装置从服务器装置接收图像信息，基于接收到的图像信息在显示部上显示图像，以显示在多个信息处理装置间共通的图像的方式共有信息，实现会议，在该会议系统中，上述服务器装置或上述多个信息处理装置内的至少1个装置，具有输入音声的单元、将该单元输入的音声变换为字符串的变换单元，服务器装置或多个信息处理装置内的任意装置，具有：对变换单元的变换后的字符串进行语素解析的单元、抽出由作为通过该单元解析的结果得到的1个或多个语素构成的字符串内、满足预先设定的条件的字符串的抽出单元；将抽出单元抽出的字符串向服务器装置发送的单元，服务器装置具有将通过抽出单元抽出的字符串向多个信息处理装置内的任意1个或多个发送的单元，信息处理装置具有将从服务器装置接收到的字符串显示于显示部的单元，接受对被显示的字符串内的任意1个或多个的选择的单元，在基于图像信息的图像上的任意位置上将所选择的字符串重叠显示的单元。

本发明的信息处理方法，通过具有通信单元和显示部的信息处理装置，将基于接收到的图像信息的图像在显示部上显示，在该信息处理方法中，取得与图像信息关联的音声数据并将该音声数据变换为字符串，对变换后的字符串进行语素解析，从由作为解析的结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串，将被抽出的字符串显示于显示部，接受对被显示的字符串内任意1个或多个的选择，在基于图像信息的图像上的任意位置，重叠显示选择的字符串。

本发明的信息处理方法，在包含存储图像信息的服务器装置、能够与服务器装置通信并具有显示部的多个信息处理装置的系统中，多个信息处理装置从服务器装置接收图像信息，在显示部上显示基于接收到的图像信息的图像，显示在多个信息处理装置间共通的图像而共有信息，在该信息处理方法中，服务器装置或多个信息处理装置内的至少1个装置，输入与显示中的图像对应的音声，将输入的音声变换为字符串，服务器装置或多个信息处理装置内的任意装置，对通过至少1个装置变换过的字符串进行语素解析，从由作为语素解析的结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串，将抽出的字符串向服务器装置发送或在自身中存储，服务器装置将被抽出的字符串向多个信息处理装置内的任意1个或多个发送，接收到被抽出的字符串的信息处理装置，将接收的字符串显示到显示部上，接受对被显示的字符串内任意1个或多个的选择，在基于图像信息的图像上的任意位置，重叠显示选择的字符串。

采用本发明时，能够通过信息处理装置，将与显示的图像关联的音声内容视觉地与上述图像一起把握。用户不进行手写记录就能够选择将音声字符串化的方式。听取任意发言者的发声和手写记录这两种作业需要劳神费力，但是由于与被显示的图像一起将表示与该图像关联的音声的内容的字符串的候补可选择地显示了，因此减轻手写作业的负担。能够将字符串显示到基于接收到的图像信息的图像上。

尽管将本发明的信息处理装置用于采用计算机的会议系统，能够消除在纸媒体上手写记录等负担较重的作业，视觉上辅助生成有效的记录。用户利用本发明的信息处理装置，能够无负担地进行有效的记录生成。

并且，采用本发明时，能够从对与显示的图像关联的音声变换的字符串内，根据任意设定的条件，抽出反映用户意向的字符串，并能够选择。用户能够无负担地高效率地进行有效的记录生成。

在采用本发明时，还能够将基于与显示的图像关联的音声抽出的字符串，以能够视觉地把握是否与图像包含的多个图像或文字等各部分关联的方式配置。不仅将音声变换为字符串而辅助记录生成，还能够生成能够从视觉上把握音声(会议内容)内容的有效的记录。指示语等音声能够生成能够视觉地把握是否表示共有显示的图像缩回的图像或文字内某个等的记录。

采用本发明时，还能够对从被显示的字符串内选择的字符串进行编辑。因此，也能够进行从音声数据向字符串变换时的误差等的修正，能够进行不是作为音声存在的内容的补充、补写等。通过适用于会议系统，能够减轻记录生成的负担，有效地辅助生成会议记录。

在采用本发明时，还能够对从被显示的字符串内选择的字符串的格式进行变更。因此，能够关于重要的信息，生成通过字符串的文字大小变更、字体变更、文字色变更等强调显示的记录，通过适用于会议系统，减轻记录生成的负担，有效地辅助生成会议记录。

采用本发明时，还能够将字符串的变换元的音声数据所含单词以外的关联单词也用于记录，用户能够灵活反映自身意向，无负担地进行记录生成作业。

在采用本发明时，还能够将被抽出的字符串、即显示的字符串的选择对象，以仅抽出名词等仅抽出特定条件的字符串的方式，反映用户意向地缩小范围。用户能够反映自身意向地无负担地进行记录生成作业。

在采用本发明时，用户还能够接受由音声数据变换的字符串的辅助，能够适宜地进行对误识别进行修正等记录修正，并且能够无负担地进行用户自身意见、或加框或下线等强调显示等追记等有效的记录生成作业。

附图说明

图1为示意地表示实施方式1中的会议系统构成的构成图；

图2为表示实施方式1中的构成会议系统的终端装置的内部构成的框图；

图3为表示实施方式1的构成会议系统的会议服务器装置的内部构成的框图；

图4为示意地表示实施方式1的在会议系统的终端装置间共有文档数据的方法的说明图；

图5为表示在会议参加者使用的终端装置的显示器上显示的会议终端用应用程序的主画面的一例的说明图；

图6为表示实施方式1的通过构成会议系统的终端装置和会议服务器装置进行的处理顺序的一例的流程图；

图7为从通过实施方式1的构成会议系统的终端装置的控制部进行的语素解析得到的字符串抽出满足条件的字符串的处理的流程图；

图8为示意地表示图6和图7所示的处理顺序的具体例的说明图；

图9为示意地表示图6和图7所示的处理顺序的具体例的说明图；

图10为表示实施方式2中的构成会议系统的终端装置的内部构成的框图；

图11为表示实施方式2的构成会议系统的会议服务器装置的内部构成的框图；

图12为表示实施方式2的通过构成会议系统的终端装置和会议服务器装置进行的处理顺序的一例的流程图。

具体实施方式

以下对本发明基于表示其实施方式的附图进行具体说明。

另外，在以下实施方式中，以将本发明的信息处理装置用于终端装置，使用多个终端装置实现音声、影像和图像的共有的会议系统为例进行说明。

(实施方式1)

图1为示意地表示实施方式1的会议系统构成的构成图。实施方式1中的会议系统构成为包含：会议参加者使用的终端装置1，1，...、终端装置1，1，...所连接的网络2、实现终端装置1，1，...中的音声、影像和图像的共有的会议服务器装置3。

将终端装置1，1，...和会议服务器装置3连接的网络2，可以是进行会议的公司组织的社内LAN，也可以是互联网等公众通信网。终端装置1，1，...接受与会议服务器装置3的连接的认证，被认证的终端装置1，1，...从会议服务器装置3收发共有的音声、影像和图像的信息，将接收的音声、影像和图像输出，从而与其它的终端装置1，...共有音声、影像和图像而实现经由网络的会议。

图2为表示实施方式1中的构成会议系统的终端装置1的内部构成的框图。

构成会议系统的终端装置1采用搭载了触摸面板的个人计算机或者会议系统专用终端，具有控制部100、临时存储部101、存储部102、输入处理部103、显示处理部104、通信处理部105、影像处理部106、输入音声处理部107、输出音声处理部108、读取部109、音声识别处理部171、语素解析部172。终端装置1通过内置或外部连接还具有：键盘112、书写板113、显示器114、网络I/F部115、摄像机116、麦克风117、扬声器118。

控制部100使用CPU(Central Processing Unit)，将在存储部102中存储的会议终端用程序1P读出到临时存储部101中来执行，从而使搭载了触摸面板的个人计算机或者会议系统专用终端作为本发明的信息处理装置动作。

在临时存储部101中使用SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)等RAM。在临时存储部101中存储如上所述读出的会议终端用程序1P，并且存储通过控制部100的处理发生的信息。

存储部102采用硬盘或者SSD(Solid State Drive)等外部装置。在存储部102中存储有会议终端用程序1P。此外，当然也可以存储终端装置1中的其它应用软件程序。

在输入处理部103上连接有未图示的鼠标或键盘112等输入用用户接口。在实施方式1中，终端装置1将接受笔130的输入的书写板113内置于显示器114上。显示器114的书写板113也与输入处理部103连接。输入处理部103，接受通过终端装置1上的用户(会议参加者)的操作所输入的按钮的按下信息、表示画面中的位置的坐标信息等信息，并向控制部100通知。

在显示处理部104上，连接有使用液晶显示器等的触摸面板型显示器114。控制部100，经由显示处理部104，在显示器114上输出会议终端用应用程序画面，显示在应用画面内共有的图像。

通信处理部105，使用网卡等，实现终端装置1的经由网络2的通信。具体而言，与网络2连接而与网络I/F部115连接，进行经由网络2收发的信息的分组化、从分组的信息读取等。另外，为了实现本实施方式1的会议系统，用于收发通信处理部105的图像、音声的通信协议，也可以使用H.323、SIP(Session Initiation Protocol)、或HTTP(Hypertext Transfer Protocol)等协议。通信协议不限于此。

影像处理部106，与终端装置1具有的摄像机116连接，进行摄像机116的动作控制，并且取得通过摄像机116摄像的影像(图像)数据。影像处理部106可以包含编码器，可以进行将通过摄像机116摄像的影像变换为H.264、MPEG(Moving Picture Experts Group)等影像规格的数据的处理。

输入音声处理部107，与终端装置1具有的麦克风117连接，具有对通过麦克风117被采集的音声进行采样并变换为数字音声数据向控制部100输出的A/D变换功能。也可以内置回波消除器。

输出音声处理部108，与终端装置1具有的扬声器118连接。输出音声处理部108，具有在从控制部100提供音声数据时，从扬声器118输出音声的D/A变换功能。

读取部109，能够从CD-ROM、DVD、蓝光盘或软盘等记录介质9读取信息。控制部100，将通过读取部109记录到记录介质9中的数据存储到临时存储部101，或存储到存储部102。在记录介质9中，记录有使计算机作为本发明的信息处理装置动作的会议终端用程序9P。在存储部102中记录的会议终端用程序1P，可以是读取部109从记录介质9读出的会议终端用程序9P的复制。

音声识别处理部171，具有用于音声与字符串间的对应的字典，在提供音声数据时进行变换为字符串输出的音声识别处理。控制部100，将通过输入音声处理部107得到的数字的音声数据以一定的单位向音声识别处理部171提供，取得从音声识别处理部171输出的字符串。

语素解析部172，在提供字符串时进行语素解析，将提供的字符串分隔为语素输出，输出表示由几个语素构成、或者各语素的词类是什么的信息等。控制部100，将从音声识别处理部171取得的字符串向语素解析部172提供，从而能够将通过输入音声处理部107得到的音声数据文章化。例如，控制部100，在通过音声识别处理部171取得“ココガジユウヨウデス。”这样的字符串时，能够通过语素解析部172，取得按照“ココ(名词)/ガ(助词·格)/ジユウヨウ(重要)(名词)/デス(判定词)/。(句号)”的方式分隔为语素的字符串。

图3为表示实施方式1的构成会议系统的会议服务器装置3的内部构成的框图。

会议服务器装置3，采用服务器计算机，具有：控制部30、临时存储部31、存储部32、图像处理部33、通信处理部34，并且内置有网络I/F部35。

控制部30采用CPU，将在存储部32中存储的会议服务器用程序3P读出到临时存储部31中执行，使服务器计算机作为本实施方式1中的会议服务器装置3动作。

临时存储部31采用SRAM、DRAM等RAM，存储如上所述读出的会议服务器用程序3P，并且通过控制部30的处理，临时地存储后述的图像信息等。

存储部32采用硬盘或SSD等外部存储装置。在存储部32中，存储有上述的会议服务器用程序3P。并且，在存储部32中，存储有用于认证会议参加者使用的终端装置1，1，...的认证数据。并且，为了能够在会议系统中在各终端装置1，1，显示...共有的资料，在会议服务器装置3的存储部32中，将多个文档数据作为共有文档数据36存储。文档数据为文本数据、照片数据、图数据等，格式等没有限制。

图像处理部33，按照来自控制部30的指示生成图像。具体而言，图像处理部33，接受在存储部32中存储的共有文档数据36内、在各终端装置1，1，...上成为显示对象的文档数据，并将该文档数据变换为图像输出。

通信处理部34，采用网卡等实现会议服务器装置3的经由网络2的通信。具体而言，与网络2连接而与网络I/F部35连接，进行经由网络2收发的信息的分组化、从分组的信息读取等。另外，为了实现本实施方式1的会议系统，用于收发通信处理部34的图像、音声的通信协议，采用H.323、SIP或HTTP等协议。通信协议不限于此。

参加采用这样构成的本实施方式1中的会议系统的电子会议的会议参加者，使用终端装置1，使用键盘112或书写板113(即笔130)使会议终端用应用程序起动。会议终端用应用程序起动后，在显示器114上显示认证信息的输入画面。会议参加者在输入画面上输入用户ID和口令等认证信息。在终端装置1中，通过输入处理部103接受认证信息的输入，通知控制部100。控制部100，将接受的认证信息通过通信处理部105向会议服务器装置3发送，接收认证结果。此时，可以将分配给终端装置1的IP地址信息与认证信息一起向会议服务器装置3发送。由此，以后，会议服务器装置3能够通过IP地址识别各终端装置1，1，...。

在利用终端装置1的会议参加者为被承认者时，终端装置1显示会议终端用应用程序画面，会议参加者能够将终端装置1用作会议用终端。此时，在承认结果为未承认时，即是会议未被邀请的人物时，可以从终端装置1将表示未承认意思的消息显示到显示器114上。

这里，采用示意图对在终端装置1，1，...间共有文档数据而实现会议的方法进行说明。图4为示意地表示实施方式1的在会议系统的终端装置间共有文档数据的方法的说明图。

在会议服务器装置3的存储部32中存储有共有文档数据36。共有文档数据36内、在会议中使用的共有文档数据36通过图像处理部33按页变换为图像(image)。通过图像处理部33按页变换为图像的文档数据，经由网络2通过终端装置1，1被接收。另外，以下为了区别终端装置，将一个称为A终端装置1，另一个称为B终端装置1。

A终端装置1和B终端装置1，都从会议服务器装置3接收共有的文档数据的每页图像，为了在显示器114上显示而从显示处理部104输出。此时，显示处理部104，将共有的文档数据的各页图像，以属于显示的画面中的最下层的图层的方式描画。

并且，A终端装置1和B终端装置1，都能够用笔130向书写板113写入记录。控制部100，经由输入处理部103与从笔130的输入对应地生成图像。在各A终端装置1、B终端装置1上生成的图像，在显示的画面上以属于上层的图层的方式被描画。

由此，如图4的最下部所示，A终端装置1和B终端装置1，都在共有的文档数据的图像上显示通过A终端装置1或B终端装置1自身的书写板113写入的图像。

这样，在各终端装置1，1，...中共有文档数据的图像，在该图像上显示通过自身生成的图像。因此，使用各终端装置1，1，...的会议参加者，能够阅览相同的文档数据，写入自身的记录。此时，在各终端装置1，1，...通过麦克风117被采集的音声数据，也被向会议服务器装置3发送，并由会议服务器装置3叠加，向各终端装置1，1，...发送，经各终端装置1，1，...从扬声器118输出。由此，能够实现共有资料和音声的电子会议。

此时，考虑使用A终端装置1的会议参加者为会议的议事录担当者，使用书写板113、键盘112等记录会议发言者的发言内容的情况。在使用书写板113和笔130手写记录时，存在书写赶不上发言者说话速度的情况。议事录担当者忙于记录作业而负担较重。

因此，在本实施方式1中，对在各终端装置1，1，...中主要通过控制部100、临时存储部101、存储部102、输入处理部103、显示处理部104、通信处理部105、输入音声处理部107、音声识别处理部171和语素解析部172的处理，利用终端装置1，1，...辅助生成能够从视觉上把握发言的记录与图像的关联的有用的记录的构成进行说明。

会议参加者如上所述，使会议终端用应用程序起动后，终端装置1的控制部100读出并执行在存储部102中存储的会议终端用程序1P，首先显示输入画面。根据在输入画面所输入的认证信息，在会议参加者被承认时，控制部100显示主画面400，从而会议参加者能够开始将终端装置1用作会议用终端。图5为表示会议参加者使用的终端装置1的显示器114上显示的会议终端用应用程序的主画面400的一例说明图。

作为一例，会议终端用应用程序的主画面400包含在画面的大部分上显示共有对象的文档数据的图像的共有画面401。在图5所示例中，在共有画面401上以显示共有的文档数据的文档图像402的全体的方式显示。

在共有画面401的高度方向上大致中央的左端位置，显示用于指示向文档数据的前页移动的前页按钮403。同样地，在共有画面401的高度方向上大致中央的右端位置，显示用于向文档数据的后页(下一页)移动的后页按钮404。

在使用终端装置1的会议参加者，使用笔130或鼠标等，将显示器114上的指针光标与前页按钮403或后页按钮404重叠进行点击操作时，将显示的文档数据的前页或后页的图像在共有画面401上显示。

在主画面400内、共有画面401的右方，如后所述，包含显示根据音声识别处理部171的处理、和语素解析部172的解析结果得到的字符串内、抽出的字符串的字符串选择画面405。在字符串选择画面405中，接受显示的字符串的单独选择。选择的字符串，经过复制能在共有画面401上的任意位置显示。具体而言，会议参加者在字符串选择画面405上显示的字符串内所需的字符串上重叠指针光标进行点击后，生成字符串的复制，保持对鼠标或笔130的点击按钮的按压状态进行拖动操作时，追随指针光标位置显示选择的字符串。点击按钮被释放后，在该时点的指针光标的位置落下字符串显示。

并且，在主画面400的右端，显示用于选择描画时的道具的各种操作按钮。在各种操作按钮中包含笔按钮406、图形按钮407、选择按钮408、变焦按钮409和同步/非同步按钮410。

笔按钮406是用于接受笔描画自由线条的按钮。通过该笔按钮406能够选择笔(线)的颜色、粗细。会议参加者在选择了笔按钮406的状态下在共有画面401上，对笔130或鼠标等进行点击、拖动的操作，从而能够自由地进行手写记录。

图形按钮407是用于接受生成的图像的选择的按钮。通过图形按钮407，接受通过控制部100生成的图像的种类选择。例如接受圆形、椭圆形、多边形等的选择。

选择按钮408是用于接受会议参加者的描画以外的操作的按钮。例如，在对选择按钮408进行了选择时，控制部100能够经由输入处理部103接受：在字符串选择画面405上显示的字符串的选择、在共有画面401上已配置的字符串的选择、已描画的手书文字的选择、已生成的图像的选择等。当选择了在共有画面401上已配置的字符串时，可以显示用于接受该字符串的格式变更的菜单按钮。

变焦按钮409是接受在共有画面401上显示的文档数据的图像的放大、缩小操作的按钮。在会议参加者于选择了放大的状态在共有画面401上重叠指针光标点击鼠标或笔130时，对共有的文档数据的图像和该图像上的写入这两方进行放大显示。缩小的情况也是同样的。

同步·非同步按钮410，是接受是否使在共有画面401上显示的文档数据图像的显示，与在终端装置1，1，...内任意特定的终端装置1上的显示同一地同步的选择的按钮。在选择了同步的状态下，不接受使用该终端装置1的会议参加者的前页、后页等操作，而是基于特定的终端装置1上的阅览信息在其它终端装置1，1，...上显示的文档数据页，会通过控制部100基于来自会议服务器装置3的指示进行控制。

接受这样的主画面400包含的各种按钮的操作，控制部100，将从会议服务器装置3接收的共有文档数据36的图像在共有画面401上显示，并且接受与操作对应的记录的描画。

此时，各终端装置1分别将通过麦克风117采集的音声通过输入音声处理部107变换为音声数据，对变换的音声数据进行利用音声识别处理部171的音声识别处理和利用语素解析部172的解析，从得到的字符串抽出满足预先设定的条件的字符串。并且终端装置1，将抽出的字符串经由通信处理部105向会议服务器装置3发送。

会议服务器装置3，将接收的字符串作为将会议中的发言字符串化的内容识别而向会议参加者使用的各终端装置1，1，...发送。

各终端装置1，1，...的控制部100分别接收从会议服务器装置3发送的字符串后，在字符串选择画面405上进行显示，并能够进行选择。由此，发言者的音声被变成字符串，并被向会议参加者使用的各终端装置1，1，...发送，在主画面400的字符串选择画面405上按照时序进行显示，因此进行记录的会议参加者在使用记录时能够选择任意所需的字符串。

参照流程图对在各终端装置1，1，...的处理进行详细说明。首先，对输入音声时的处理例进行说明。图6为表示利用实施方式1的构成会议系统的终端装置1，1，...和会议服务器装置3进行的处理顺序的一例的流程图。

在输入发言者音声的A终端装置1中，控制部100经由麦克风117接受输入音声(步骤S101)，通过输入音声处理部107将接受的输入音声作为音声数据取得(步骤S102)。控制部100，对取得的音声数据进行利用音声识别处理部171的处理而得到字符串(步骤S103)。控制部100，将得到的字符串提供给语素解析部172进行语素解析(步骤S104)，从作为解析结果得到的字符串内抽出满足预先设定的条件的字符串(步骤S105)，将抽出的字符串向会议服务器装置3发送(步骤S106)。后面将对步骤S105中的抽出处理进行详细说明。

会议服务器装置3，在接收从A终端装置1抽出的字符串后，向包括B终端装置1的其它终端装置1，1，...发送(步骤S107)。

在B终端装置1中，控制部100判断是否通过通信处理部105接收了字符串(步骤S108)，在判断为未接收时(S108：否)，在处理返回步骤S108进行接收前待机。控制部100在判断为接收了所抽出的字符串时(S108：是)，通过显示处理部104将接收的字符串在主画面400的字符串选择画面405上显示(步骤S109)。

控制部100，根据表示在字符串选择画面405被点击过的事件等来自输入处理部103的通知，判断是否接受了对在字符串选择画面405上显示的字符串的任意的选择(步骤S110)，在判断为接受了选择时(S110：是)，如上所述，根据来自输入处理部103的通知，与操作对应地在共有的文档数据的图像上的任意位置，使被选择的字符串重叠显示(步骤S111)。控制部100在判断为未接受选择时(S110：否)，处理进入步骤S112。

控制部100通过选择指示记录生成终了的菜单等来判断记录书写是否终了(步骤S112)，在判断为未终了时(S112：否)，处理返回步骤S110而判断是否接受其它字符串等的选择。控制部100在步骤S112判断为终了时(S112：是)结束记录书写的辅助处理。

图7为表示从通过实施方式1的构成会议系统的终端装置1的控制部100进行的语素解析得到的字符串抽出满足条件的字符串的处理的流程图。图7的流程图所示的处理顺序与图6的处理顺序内的步骤S105的详细内容对应。

在发言者使用的终端装置1中，控制部100取得通过语素解析部172的解析得到的结果(步骤S21)。例如，在通过音声识别处理部171得到的字符串为“ココガジユウヨウデス。”时，能够通过语素解析部172取得“ココ(名词)/ガ(助词·格)/ジユウヨウ(重要)(名词)/デス(判定词)/。(句号)”。

控制部100，从语素解析结果中选择1个语素(步骤S22)，在以下的步骤S23，S26，S27中判断选择的语素是否满足预先设定的条件。即，在图7的流程图中说明的处理中所说的预先设定的条件，是关于名词、动词、形容动词的语素成为抽出字符串的条件。

控制部100，首先判断选择的语素的词类是否为名词(步骤S23)。在控制部100判断为名词时(S23：是)，作为抽出字符串存储(步骤S24)。控制部100判断是否对于全部语素都核查了条件(步骤S25)，在判断为未对全部进行判断时(S25：否)，处理返回步骤S22，对下一语素进行处理。

控制部100，在判断出所选择的语素不是名词时(S23：否)，判断是否为动词(步骤S26)。控制部100，在判断为动词时(S26：是)，认为其满足条件，因而作为抽出字符串存储语素(步骤S24)，处理进入步骤S25。

控制部100，在判断出所选择的语素也不是动词时(S26：否)，判断是否为形容动词(步骤S27)。控制部100，在判断出是形容动词时(S27：是)，认为其满足条件，因而作为抽出字符串存储语素(步骤S24)，处理进入步骤S25。

控制部100，在判断出所选择的语素也不是形容动词时(S27：否)，将处理转入步骤S25。

控制部100，在步骤S25中判断出对全部语素了都进行过了判断时(S25：是)，结束抽出处理，将处理返回图6的流程图所示的处理顺序内的步骤S106。

在步骤S21中，取得“ココ(名词)/ガ(助词·格)/ジユウヨウ(重要)(名词)/デス(判定词)/。(句号)”时，通过步骤S23、S26、S27的判断，将“ココ(名词)”和”ジユウヨウ(重要)(名词)”作为抽出字符串存储。并且优选，“ココ”与“ここ”、“ジユウヨウ”与“重要”作为最适合的内容进行变换。

图8和图9为示意地表示图6和图7所示处理顺序的具体例的说明图。图8表示将接收的字符串在字符串选择画面405显示的例子，图9表示从字符串选择画面405选择字符串而在共有的文档数据图像上重叠显示的例子。在都主画面400上显示共有的文档数据图像。

如图8所示，在通过A终端装置1的麦克风117取得发言者的音声数据后，在A终端装置1中如上所述进行音声识别处理、语素解析处理和抽出处理，发送“ここ”、“重要”的字符串。会议服务器装置3，将该字符串向接收侧的各终端装置1，1，...发送。也向取得记录的会议参加者使用的B终端装置1发送“ここ”、“重要”的字符串。

如图8所示，在B终端装置1中，通过控制部100的处理，接收“ここ”、“重要”的字符串，控制部100，将接收的字符串在主画面400的字符串选择画面405上显示。由此，取得记录的会议参加者，不必亲自用笔130或键盘112记录“ここ”、“重要”等字符串，而能够仅通过选择显示的字符串来生成记录。

并且，如图9所示，当在字符串选择画面405上选择了字符串时，能够在共有画面401的共有的文档数据的图像402上重叠显示，因此能够生成以共有的文档数据的图像402上的位置表示“ここ”为哪里的记录。

并且，如图9的下部所示，在将选择的字符串“重要”在共有的文档数据图像402上显示的状态下，能够选择格式变更，能够如图9所示进行向斜体的变更、外框追加。并且，由于能够选择笔按钮406进行写入，因此如图9所示也能够进行“要点！”等的记录书写。

这样，将与显示的共有的文档数据关联的音声数据变换为字符串而在会议参加者使用的终端装置1，1，...上显示，并为了在共有的文档数据图像上配置而可选择地显示。因此，减轻生成记录的会议参加者的作业负担，并且辅助生成可将与共有文档关联的音声内容在视觉上与上述图像一起把握的有用的记录。由于对于图像上的位置也能够任意地选择配置，因此能够生成可将字符串与图像各部分的关联在视觉上把握的有用的记录。

另外，用于图7所示的字符串抽出的条件，能够预先进行自由的设定。例如，例如能够设定仅抽出名词等条件，因此能够抽出反映会议参加者意向的字符串。由此，能够无负担地高效率地进行有效果的记录生成。并且，由于能够以仅抽出特定的单词等的字符串的方式反映会议参加者的意向而缩小范围，因此能够反映自身的意向并无负担地进行记录生成作业。

并且，由于能够进行选择的文字的格式变更等编辑，还可以混合自身的书写地在共有的文档数据图像上自由配置，因此能够修正音声识别中的误识别、向汉字的误变换等。也能够进行外框或下划线等强调显示等的追记等有效的记录生成作业，有效地辅助会议记录的生成。

(实施方式2)

在实施方式1中，终端装置1，1，...构成为分别具有音声识别处理部171、语素解析部172。与之相对，在实施方式2中在服务器装置具有音声识别处理部和语素解析部。

图10为表示实施方式2中的构成会议系统的终端装置5的内部构成的框图。

终端装置5，与实施方式1的终端装置1同样地，采用搭载了触摸面板的个人计算机或者会议系统专用终端，具有：控制部500、临时存储部501、存储部502、输入处理部503、显示处理部504、通信处理部505、影像处理部506、输入音声处理部507、输出音声处理部508、读取部509。并且终端装置5还内置或者通过外部连接具有键盘512、书写板513、显示器514、网络I/F部515、摄像机516、麦克风517、扬声器518。

各构成部与实施方式1的终端装置1的构成部是同样的，因此赋予对应的标记而省略详细说明。即，实施方式2中的终端装置5，没有与音声识别处理部171和语素解析部172对应的构成部。终端装置5基本上除了与音声识别处理部171和语素解析部172相关的处理以外，进行与实施方式1的终端装置1的处理同样的处理。

图11为表示实施方式2的构成会议系统的会议服务器装置6的内部构成的框图。

会议服务器装置6采用服务器计算机，具有：控制部60、临时存储部61、存储部62、图像处理部63、通信处理部64、音声识别处理部67、语素解析部68、关联语字典69，还内置有网络I/F部65。

控制部60、临时存储部61、存储部62、图像处理部63、通信处理部64，与实施方式1的会议服务器装置3的构成部即控制部30、临时存储部31、存储部32、图像处理部33、通信处理部34是同样的，因此省略详细的说明。在存储部62中与实施方式1的会议服务器装置3同样地存储有会议服务器用程序6P和共有文档数据66。

音声识别处理部67，具有用于使音声和字符串之间对应的字典，在被提供了音声数据时进行将音声数据变换为字符串输出的音声识别处理。控制部60以一定单位将通过通信处理部64取得的音声数据向音声识别处理部67提供，取得从音声识别处理部67输出的字符串。与实施方式1的终端装置1具有的音声识别处理部171是同样的。

语素解析部68，在被提供了字符串时进行语素解析，将被提供的字符串分隔为语素输出，并且输出表示由几个语素构成或各语素的词类是什么的信息等。与实施方式1的终端装置1具有的语素解析部172是同样的。

关联语字典69，在以语素单位提供字符串时，输出1个或多个关联的单词。另外，此时提供的字符串为名词、动词、形容词或形容动词。

在这样构成的实施方式2中，也以同样的过程实现电子会议。在服务器装置6的存储部62中存储的共有文档数据66通过图像处理部63变换为图像，通过通信处理部64向各终端装置5，5，...发送。用终端装置5，5，...接收这些数据，显示共有的文档数据的图像，实现共有资料的电子会议。

在实施方式2中，也同样地能够通过各终端装置5，5，...在共有的文档数据的图像上书写记录。在主画面400的字符串选择画面405上，显示将发言者音声字符串化的结果，会议参加者能够选择字符串生成记录。

这样，以下，对实施方式2在音声识别处理部67和语素解析部68的构成以及具有关联字典69这点与实施方式1不同而导致的不同的处理顺序进行说明。

图12为表示通过构成实施方式2的会议系统的终端装置5，5，...和会议服务器装置6进行的处理顺序的一例的流程图。

在各终端装置5，5，...中，控制部500经由麦克风517接受输入音声(步骤S301)、通过输入音声处理部507将接受的输入音声作为音声数据取得(步骤S302)。终端装置5，5，...的控制部500将取得的音声数据通过通信处理部505向会议服务器装置6发送(步骤S303)。

会议服务器装置6的控制部60接收从各终端装置5，5，...发送的音声数据(步骤S304)、将从各终端装置5，5，...接收的音声数据重叠为1个音声数据(步骤S305)。用于作为会议全体的音声进行字符串化。控制部60通过音声识别处理部67对通过重叠处理得到的音声数据进行音声识别处理(步骤S306)，通过语素解析部68对从音声识别处理部67得到的字符串进行解析(步骤S307)。并且，控制部60从作为解析结果得到的字符串内抽出满足预先设定的条件的字符串(步骤S308)。控制部60将抽出的字符串提供给关联语字典69取得关联语(步骤S309)，将抽出的字符串和关联语向各终端装置5，5，...发送(步骤S310)。另外，步骤S308的详细内容与图7的流程图所示处理顺序相同而省略详细的说明。

在各终端装置5，5，...中，控制部500判断是否通过通信处理部505接收到了字符串(步骤S311)，在判断为未接收时(S311：否)，在处理返回步骤S311进行接收前待机。控制部500在判断为接收到被抽出的字符串时(S311：是)，通过显示处理部504将接收到的字符串显示到主画面400的字符串选择画面405上(步骤S312)。

控制部500，根据表示在字符串选择画面405上进行了点击等的来自输入处理部503的通知，判断是否接受了对在字符串选择画面405上显示的字符串的任意一个的选择(步骤S313)，在判断为接受了选择时(S313：是)，如上所述，根据来自输入处理部503的通知，与操作对应地使选择的字符串重叠显示在共有的文档数据的图像上的任意位置(步骤S314)。在控制部500判断为未接受选择时(S313：否)，处理进入步骤S315。

控制部500通过选择指示记录生成终了的菜单等来判断记录书写是否终了(步骤S315)，在判断为没有终了时(S315：否)，处理返回步骤S313而判断是否接受了其它字符串等的选择等。控制部500，在在步骤S315判断为终了时(S315：是)，结束记录书写的辅助处理。

这样，即使不是通过各终端装置1，1，...而是作成通过会议服务器装置6来进行音声识别处理和语素解析处理的构成也是同样的。在通过会议服务器装置进行时，也能够概括识别来自各终端装置5，5，...的音声。

按照实施方式2的构成，具有关联语字典69而也能够抽出关联语向各终端装置5，5，...发送，即使是字符串的变换元的音声数据所含单词以外的但是也关联的单词也能够用于做记录，用户能够灵活反映自身意向，无负担地进行记录生成作业。

另外，公开的实施方式通过各方面进行例示而非限制。本发明的范围并非上述说明而由权利要求范围表示，包含与权利要求范围相当的意味和范围内的各种变更。

Claims

1.一种信息处理装置，通过通信单元接收图像信息，使基于接收的图像信息的图像在显示部上显示，其特征在于，具有：

取得与上述图像信息关联的音声数据并将该音声数据变换为字符串的变换部；

对变换后的字符串进行语素解析的解析部；

从由通过该解析部解析的结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串的第1抽出部；

使该抽出部抽出的字符串在上述显示部上显示的第1显示控制部；

接受对被显示的字符串内的任意1个或多个字符串的选择的第1接受部；

在基于上述图像信息的图像上的任意位置，使被选择的字符串重叠显示的第2显示控制部；

预先存储任意多个单词的存储部；

将与在上述显示部上显示的字符串关联的单词从上述多个单词中抽出的第2抽出部；

使抽出的单词在上述显示部上显示的第5显示控制部。

2.一种信息处理装置，通过通信单元接收图像信息，使基于接收到的图像信息的图像在显示部上显示，其特征在于，具有：

接收基于与上述图像信息关联的音声数据的多个字符串，使接收的多个字符串在上述显示部上显示的第3显示控制部；

接受对所显示的多个字符串内任意1个或多个字符串的选择的第2接受部；

在基于上述图像信息的图像上的任意位置，使选择的字符串重叠显示的第4显示控制部；

预先存储任意多个单词的存储部；

使抽出的单词在上述显示部上显示的第5显示控制部。

3.根据权利要求1或2任一所述的信息处理装置，其特征在于，

具有第3接受部，其接受上述第1接受部或上述第2接受部接受的被选择的字符串在基于上述图像信息的图像上的位置变更。

4.根据权利要求1至3任一所述的信息处理装置，其特征在于，

具有第4接受部，其接受对上述第1接受部或上述第2接受部接受的被选择的字符串的编辑。

5.根据权利要求1至4任一所述的信息处理装置，其特征在于，

具有第5接受部，其接受上述第1接受部或上述第2接受部接受的被选择的字符串的格式变更。

6.根据权利要求1所述的信息处理装置，其特征在于，

上述预先设定的条件为词类的种类或词类种类的组合。

7.根据权利要求1至6任一所述的信息处理装置，其特征在于，具有：

接受任意的字符串或图像的输入的第6接受部；

接受被输入的字符串或图像的位置变更的第7接受部，

将输入的字符串或图像，基于上述位置进行显示。

8.一种会议系统，包含存储图像信息的服务器装置、能够与该服务器装置通信且具有显示部的多个信息处理装置，该多个信息处理装置从上述服务器装置接收图像信息，使基于接收到的图像信息的图像在显示部上显示，在多个信息处理装置间显示共通的图像而共有信息，实现会议，其特征在于，

上述服务器装置或上述多个信息处理装置内的至少1个装置，具有：

输入音声的输入部；

将该输入部输入的音声变换为字符串的变换部，

上述服务器装置或上述多个信息处理装置内的任意装置，具有：

对通过上述变换部进行变换后的字符串进行语素解析的解析部；

从由通过该解析部解析的结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串的抽出部；

将该抽出部抽出的字符串向上述服务器装置发送的第1发送部，

上述服务器装置，具有将通过上述抽出部抽出的字符串向上述多个信息处理装置内的任意1个或多个发送的第2发送部，

上述信息处理装置，具有：

使从上述服务器装置接收到的字符串，在上述显示部上显示的第1显示控制部；

接受被显示的多个字符串内任意1个或多个字符串的选择的接受部；

预先存储任意多个单词的存储部；

使抽出的单词在上述显示部上显示的第5显示控制部。

9.一种信息处理方法，通过具有通信单元和显示部的信息处理装置，使基于接收到的图像信息的图像在上述显示部上显示，其特征在于，

取得与上述图像信息关联的音声数据并将该音声数据变换为字符串，

对变换后的字符串进行语素解析，

从由作为解析结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串，

将被抽出的字符串在上述显示部上显示，

接受被显示的字符串内任意1个或多个字符串的选择，

将被选择的字符串重叠显示在基于上述图像信息的图像上的任意位置，

预先存储任意多个单词，

将与在上述显示部上显示的字符串关联的单词从上述多个单词中抽出，

使抽出的单词在上述显示部上显示。

10.一种信息处理方法，在包含存储图像信息的服务器装置、能够与该服务器装置通信且具有显示部的多个信息处理装置的系统中，上述多个信息处理装置从上述服务器装置接收图像信息，使基于接收到的图像信息的图像在显示部上显示，在多个信息处理装置间显示共通的图像而共有信息，其特征在于，

上述服务器装置或上述多个信息处理装置内至少1个装置，输入与显示中的图像对应的音声，将输入的音声变换为字符串，

上述服务器装置或上述多个信息处理装置内的任意装置，

对通过上述至少1个装置变换过的字符串进行语素解析，

从由作为语素解析的结果得到的1个或多个语素构成的字符串内抽出满足预先设定的条件的字符串，

将抽出的字符串向上述服务器装置发送或在自身中存储，

上述服务器装置，将被抽出的字符串向上述多个信息处理装置内的任意1个或多个发送，

接收到被抽出的字符串的信息处理装置，

将接收到的字符串，在上述显示部上显示，

接受对被显示的多个字符串内任意1个或多个字符串的选择，

在基于上述图像信息的图像上的任意位置，重叠显示被选择的字符串，

预先存储任意多个单词，

使抽出的单词在上述显示部上显示。