JP2012053855A - Content browsing device, content display method and content display program - Google Patents
Content browsing device, content display method and content display program Download PDFInfo
- Publication number
- JP2012053855A JP2012053855A JP2010198132A JP2010198132A JP2012053855A JP 2012053855 A JP2012053855 A JP 2012053855A JP 2010198132 A JP2010198132 A JP 2010198132A JP 2010198132 A JP2010198132 A JP 2010198132A JP 2012053855 A JP2012053855 A JP 2012053855A
- Authority
- JP
- Japan
- Prior art keywords
- video
- content
- display
- data
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、コンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラムに関する。 The present invention relates to a content browsing device, a content display method, and a content display program.
従来、会議(ミーティング)の議事録といえば、例えば文書議事録による記録方式が主流であった。この方式では書記が会議に同席し議事録を作成していく。書記は会議中にあった発言の内容を逐一記録した議事録を作成する場合もあるが(特に重要な会議等)、大抵の場合、書記は会議の内容を理解しつつ要点を選択しながら要約された議事録を作成していく。後日、会議の内容を振り返る場合、要約された文書議事録は重要な事項がまとめられているため、短時間で容易に会議の内容を把握できる。 Conventionally, the minutes of conferences (meetings) have been mainly recorded by, for example, document minutes. In this method, the clerk attends the meeting and creates the minutes. In some cases, the clerk creates a minutes of the statements made during the meeting (especially important meetings). In most cases, the clerk summarizes the contents while selecting the key points while understanding the contents of the meeting. We will make the minutes. When reviewing the contents of the meeting at a later date, the summarized document minutes contain important matters, so that the contents of the meeting can be easily grasped in a short time.
近年デジタル技術の発達に伴い、会議(ミーティング)の内容は、容易に映像コンテンツとして記録できるようになった。会議の内容をビデオカメラに収録しておけば、後日会議の模様をそのまま再生できるが、ここで、ビデオカメラに収録された映像コンテンツはデータとして時間とともに流れる連続的な情報である。従って上述の要約された文書議事録とは違い、会議の内容(要約)を短時間で効率よく振り返りたい場合、早送りや巻戻しを繰り返しながら再生する必要があるので重要な要点(場面)を探すのだけでも長い時間を要してしまうことになる。 In recent years, with the development of digital technology, the contents of meetings (meetings) can be easily recorded as video contents. If the content of the conference is recorded on the video camera, the pattern of the conference can be reproduced as it is, but here the video content recorded on the video camera is continuous information that flows as time passes. Therefore, unlike the document summaries described above, if you want to look back on the content (summary) of the meeting in a short time and efficiently, you need to play it back while repeating fast forward and rewind, so look for important points (scenes) It just takes a long time.
そこで会議を撮影した映像コンテンツを後から振り返る目的で、映像コンテンツに検索のためのタグ付けを行い、また重要度を算出して、時間軸上、映像の重要な要点(場面)の位置を特定する技術が知られている。例えば特許文献1には、音声や画像などのマルチメディア情報を用いた会議システムにおいて、会議中の重要な項目を短時間で簡便に編集できる装置およびユーザインタフェースを提供する目的で、会議でのデータを取り込む動画入力手段、静止画入力手段、音声入力手段、ペン入力手段、ポインティング手段およびキー入力手段のうち少なくとも1つ以上により入力し、入力されたデータをデータ格納手段に格納し、データの時間関係を解析して検索用ファイルを作成し、作成された検索用ファイルを格納し、格納された検索用ファイルの参照結果をもとに該当するデータをデータ格納手段から読み出し、データを表示および編集することにより会議録の作成を支援する構成が開示されている。
Therefore, for the purpose of looking back on the video content shot at the conference, the video content is tagged for search, and the importance is calculated to locate the important points (scenes) of the video on the time axis. The technology to do is known. For example, in
しかしながら、従来の映像を振り返る技術(例えば特許文献1)は、映像コンテンツのストリームを時間軸に沿って表示し、表示された映像の中からコンテキストの重要度の高いものについては色分けなどで表示するものであるため、特に長時間に及ぶ会議映像の場合、重要な場面を探すのには依然相応の時間を要することになる。また色分けされた映像だけが表示されて重要な場面の位置は特定できたとしても、実際にその映像場面を再生して内容を確認しないことには、なかなか要点内容までを把握することは困難である。即ち従来の技術は、映像コンテンツなど時間情報のある情報の振り返りにおいてユーザフレンドリーの観点からそのコンテンツの表示方法に依然改良されるべき余地があった。 However, a technique for looking back on a conventional video (for example, Patent Document 1) displays a stream of video content along a time axis, and displays a video with high context importance by color coding or the like. Therefore, in the case of a conference video that lasts for a long time, it takes time to search for an important scene. Even if only the color-coded video is displayed and the position of the important scene can be specified, it is difficult to grasp the contents of the main point without actually replaying the video scene and checking the content. is there. That is, the conventional technique still has room for improvement in the display method of content from the viewpoint of user friendliness when looking back on information with time information such as video content.
本発明は、上記の点に鑑みてなされたものであって、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラムを提供することを目的とする。 The present invention has been made in view of the above points, and in reviewing information with time information such as video content, a content browsing device, a content display method, and a content browsing device capable of easily grasping important contexts and the contents of the main points are provided. An object is to provide a content display program.
上記の目的を達成するために、本発明に係るコンテンツ閲覧装置は、コンテンツを表示手段に表示するコンテンツ閲覧装置であって、映像コンテンツ及び前記映像コンテンツと時間軸上でリンク付けされた音声、静止画像のうち少なくともいずれかを有するデータ格納手段と、前記映像コンテンツから抽出された映像シーンが格納され、また前記音声、前記静止画像のうち少なくともいずれかから抽出されたキーワードと当該キーワード毎に解析された重要度とが対応付けて格納された解析データ格納手段と、前記解析データ格納手段から前記重要度が上位所定数のキーワードを読み出すとともに、読み出された前記キーワードの抽出元となった前記音声又は静止画像と、当該音声又は静止画像と同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出す読出制御手段と、前記読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、音声及び/又は静止画像、並びにキーワードのグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる表示制御手段と、を有することを特徴とする。 In order to achieve the above object, a content browsing device according to the present invention is a content browsing device that displays content on a display means, and is a video content and a voice, a still image linked to the video content on a time axis. Data storage means having at least one of images and a video scene extracted from the video content are stored, and a keyword extracted from at least one of the audio and the still image is analyzed for each keyword. Analysis data storage means in which the importance level is stored in association with each other, and the voice having the importance level extracted from the analysis data storage means and the voice from which the read keyword was extracted Or a video image linked to the still image and the same audio or still image on the same time axis. As a display data, and among the display data read by the read control means, a video scene, an audio and / or still image linked on the same time axis, and a group of keywords Display control means for arranging the plurality of groups and arranging them in time series for each group and displaying them on the display means.
また、上記の目的を達成するために、上記コンテンツ閲覧装置において、前記映像コンテンツから抽出された映像シーンと当該映像シーン毎に解析された重要度とが対応付けて格納された第2解析データ格納手段と、前記第2解析データ格納手段から前記重要度が上位所定数の映像シーンを読み出すとともに、読み出された前記映像シーンと同一の時間軸上でリンク付けされた音声及び静止画像とを第2表示データとして読み出す第2読出制御手段と、前記第2読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、並びに音声及び/又は静止画像のグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる第2表示制御手段と、を有することを特徴とする。 In order to achieve the above object, in the content browsing device, a second analysis data storage in which a video scene extracted from the video content and an importance level analyzed for each video scene are stored in association with each other And a voice and still image linked on the same time axis as the read video scene are read out from the second analysis data storage means Second reading control means for reading as two display data, and of the display data read by the second reading control means, a video scene linked on the same time axis, and an audio and / or still image A second display control means for displaying a group, and when there are a plurality of the groups, the display means arranges the data in time series and displays on the display means. Characterized in that it has a.
また、上記の目的を達成するために、上記コンテンツ閲覧装置において、前記表示制御手段は、前記抽出元となった音声又は静止画像は強調して表示し、前記第2表示制御手段は、前記重要度が上位所定数の映像シーンは強調して表示すること、を特徴とする。 In order to achieve the above object, in the content browsing apparatus, the display control means emphasizes and displays the voice or still image from which the extraction is performed, and the second display control means A predetermined number of video scenes with higher degrees are highlighted and displayed.
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。 In addition, what applied the arbitrary combination of the component of this invention, expression, or a component to a method, an apparatus, a system, a computer program, a recording medium, etc. is also effective as an aspect of this invention.
本発明によれば、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラムを提供することができる。 According to the present invention, it is possible to provide a content browsing apparatus, a content display method, and a content display program capable of easily grasping an important context and the contents of the main points in looking back information with time information such as video content.
以下、本発明を実施するための最良の形態について図面を参照して説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings.
[システム構成]
(概要)
本発明は、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能にするコンテンツ閲覧装置を提供するものであるが、コンテンツ閲覧する前に、映像コンテンツを取得、解析する必要があることから、以下の実施形態では、映像コンテンツを取得、解析、表示(閲覧)、再生を含む一連の処理機能を備える会議収録システム(便宜上このように呼ぶ)に本発明を適用した例を示す。
[System configuration]
(Overview)
The present invention provides a content browsing device that makes it possible to easily grasp important contexts and the contents of the main points in looking back information with time information such as video content. Since it is necessary to acquire and analyze, in the following embodiments, the present invention is applied to a conference recording system (referred to as such for convenience) having a series of processing functions including acquisition, analysis, display (browsing), and playback of video content. An example where is applied.
図1は、実施形態に係る会議収録システムの一連の処理の流れを示す図である。実施形態に係る会議収録システムは、映像コンテンツを取得、解析、表示(閲覧)、再生を含む一連の処理機能を備え、図に示されるように大きくS100〜400のステップの流れでその処理を進める。 FIG. 1 is a diagram illustrating a flow of a series of processes of the conference recording system according to the embodiment. The conference recording system according to the embodiment includes a series of processing functions including acquisition, analysis, display (browsing), and playback of video content, and the processing proceeds in a flow of steps of S100 to S400 as shown in the figure. .
S100:データ入力ステップである。本実施形態においてデータは会議に関する会議データをいい、具体的に映像コンテンツデータ、音声(映像コンテンツデータに含まれてもよい)、画像、マウス、キーボートからの入力指示データなどである。会議が進行されるにつれ、会議収録システムは各入力手段を介しこれら会議データを入力し続ける。会議が終了するとデータ入力も終了する。 S100: Data input step. In this embodiment, the data refers to conference data related to a conference, and specifically includes video content data, audio (may be included in the video content data), an image, a mouse, an input instruction data from a keyboard, and the like. As the conference proceeds, the conference recording system continues to input these conference data via each input means. When the conference is over, the data entry is also over.
S200:データ解析ステップである。S100で入力されたデータは格納手段(記憶手段)に格納されており、会議収録システムはこのデータに対してデータ解析を行う。データ解析は、例えば映像ストリームを分割したり、各シーンに対し重要度を算出したり、音声からテキストを抽出しその話者を特定したり、ホワイトボードやスライドを解析しキーワードを抽出したりまたその重要度の算出などを行う。データ解析結果は格納手段(記憶手段)に格納される。 S200: Data analysis step. The data input in S100 is stored in storage means (storage means), and the conference recording system performs data analysis on this data. Data analysis includes, for example, dividing a video stream, calculating importance for each scene, extracting text from speech to identify the speaker, analyzing whiteboards and slides to extract keywords, etc. The importance is calculated. The data analysis result is stored in storage means (storage means).
S300:データの読み出し及び表示ステップである。このステップはユーザが会議の映像コンテンツの振り返り閲覧を行う場面であり、例えばユーザは会議収録システムの表示手段から、1の会議を指定し所定操作を行うと、その会議コンテンツの中から、表示手段上表示可能なコマ数分の重要なコンテキストが表示される。また重要とされたコンテンツだけでなく、時間軸上同時刻の他のコンテキストも対応するように表示される。 S300: Data reading and display step. This step is a scene in which the user looks back on the video content of the meeting. For example, when the user designates one meeting and performs a predetermined operation from the display means of the meeting recording system, the display means is displayed from the meeting contents. As many important contexts as the number of frames that can be displayed are displayed. Further, not only the content regarded as important, but also other contexts at the same time on the time axis are displayed so as to correspond.
図2は、本実施形態に係る表示画面例を示す。当会議では、入力データとして、映像コンテンツデータ、音声データ、ホワイトボード画像、スライド(電子スライド)画像が入力されたため、データ解析の結果、映像シーン、話者、ホワイトボード、スライド、及びキーワードというコンテキストに分解、解析される。このうち重要度の高いコンテキスト(強枠表示のもの)が抽出されるとともに、その重要度の高いコンテキストと時間軸上同時刻の他のコンテキストも対応するよう並列して表示される。当会議では4つの重要度の高いコンテキストが抽出、表示されており、ユーザは当会議において特にこれら4つが重要な内容を持つ場面(映像シーン)であると認識するとともに、キーワードからより具体的にどのような内容であったかなどもあわせて認識できる。 FIG. 2 shows an example of a display screen according to the present embodiment. In this conference, video content data, audio data, whiteboard images, and slide (electronic slide) images were input as input data. As a result of data analysis, the context of video scenes, speakers, whiteboards, slides, and keywords It is decomposed and analyzed. Among these, contexts with high importance (those with a strong frame display) are extracted, and the contexts with high importance and other contexts at the same time on the time axis are displayed in parallel. In this meeting, four highly important contexts are extracted and displayed, and the user recognizes that these four particularly important scenes (video scenes) in this meeting, and more specifically from the keywords. You can also recognize what the content was.
S400:シーンの選択及び映像の再生ステップである。会議収録システムの表示手段上、いくつかの重要なコンテキストが表示されているので、ユーザはこの中から再生しようとする映像シーンを選択し再生できる。会議中、選択したシーンの時点から実際に映像コンテンツを再生し、ユーザは局所的に会議を振り返ることができる。例えば、いずれかのコンテキストを選択し、「再生」ボタンを押下すると、再生画面に切り替わりこの時刻から映像コンテンツが再生される。 S400: This is a scene selection and video playback step. Since some important contexts are displayed on the display means of the conference recording system, the user can select and reproduce a video scene to be reproduced. During the conference, the video content is actually reproduced from the point of the selected scene, and the user can look back on the conference locally. For example, when any context is selected and the “play” button is pressed, the screen is switched to the playback screen, and the video content is played from this time.
(ハードウェア)
ここで、会議収録システム(会議収録装置)1のハードウェア構成について簡単に説明しておく。図3は、会議収録システム1の一実施形態の主要構成を示すハードウェア構成図である。会議収録システム1は、主要な構成として、CPU101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、補助記憶装置104、記憶媒体読取装置105、入力装置106、表示装置107、通信装置108、及びインターフェース装置109を含む構成である。
(hardware)
Here, the hardware configuration of the conference recording system (conference recording device) 1 will be briefly described. FIG. 3 is a hardware configuration diagram showing the main configuration of one embodiment of the
CPU101は、マイクロプロセッサ及びその周辺回路から構成され、装置全体を制御する回路である。また、ROM102は、CPU101で実行される所定の制御プログラム(ソフトウェア部品)を格納するメモリであり、RAM103は、CPU101がROM102に格納された所定の制御プログラム(ソフトウェア部品)を実行して各種の制御を行うときの作業エリア(ワーク領域)として使用するメモリである。
The
補助記憶装置104は、汎用のOS(Operating System)、各種プログラムを含む各種情報を格納する装置であり、不揮発性の記憶装置であるHDD(Hard Disk Drive)などが用いられる。
The
入力装置106は、ユーザが各種入力操作を行うための装置である。入力装置106は、マウス、キーボード、表示装置107の表示画面上に重畳するように設けられたタッチパネルスイッチなどを含む。表示装置107は、各種データを表示画面に表示する装置である。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)などから構成される。
The
通信装置108は、ネットワークを介して他の機器との通信を行う装置である。有線ネットワークや無線ネットワークなど含む各種ネットワーク形態に応じた通信をサポートする。
The
インターフェース装置109は、外部の周辺機器と接続するためのインターフェースである。本実施形態では、ビデオカメラ(動画映像用)、デジタルカメラ(静止画用)、マイクなど主にデータキャプチャ機器と接続され、このインターフェース装置109を介してデータが入力される。
The
(機能構成)
次に、本実施形態に係る会議収録システム1の主要機能構成についてそれぞれ簡単に説明する。図4は、本実施形態に係る会議収録システム1の一実施形態の主要機能を示す機能ブロック図である。図に示すように会議収録システム1は、主要な機能として、データ入力手段201、計時手段202、データ登録手段203、データ格納手段204、データ解析手段205、解析データ格納手段206、表示制御手段207、表示データ読出制御手段208、操作手段209、表示手段210、再生手段211を含み構成される。
(Functional configuration)
Next, the main functional configuration of the
データ入力手段201は、データを入力する手段である。例えば上述のインターフェース装置109によって実現され、入力されるデータは、例えばビデオカメラの映像コンテンツデータ、マイクからの音声データ、カメラによるホワイトボードのスクリーンキャプチャ(静止画像)、スライドの資料データ(静止画像)などである。
The
計時手段202は、時間を秒単位などで計測し、データ登録手段203からの要求に応じて、その時点での時刻を返答する。 The time measuring means 202 measures the time in seconds or the like and returns the time at that time in response to a request from the data registration means 203.
データ登録手段203は、データ入力手段201から入力されたデータをデータ格納手段204に格納する。データ格納手段204にまだ登録されていないデータであれば、計時手段202に時刻を問い合わせ、その時刻情報を一緒にデータ格納手段204に登録する。すでに登録されている、例えば映像や音声のようなストリーミング情報の場合は、時刻を計時手段202に問い合せない。また静止画像の場合も計時手段202に時刻を問い合わせ、その時刻情報を一緒にデータ格納手段204に登録する。
The
データ格納手段204は、データ登録手段203から登録要求のあったデータを格納する。またその時刻情報も格納する。またデータ解析手段205や表示データ読出制御手段208からの要求に応じて、格納されたデータを取り出す。データ格納手段204は例えば上述の補助記憶装置104によって実現され、HDD(ハードディスク)などであってよい。なおデータ格納手段204はDB(データベース)によって格納データを管理する(具体例後述)。
The
データ解析手段205は、データ格納手段204に格納されたデータを取り出し、特定の処理を行ってメタデータを取り出す。またメタデータに基づいて重要度を算出する。データ解析手段205は、例えば、場面転換抽出手段、話者識別手段、キーフレーム抽出手段、スライド抽出手段、音声認識手段、キーワード抽出手段などから構成される。
The
解析データ格納手段206は、データ解析手段205によって解析されたデータを格納する。また解析データ格納手段206は表示データ読出制御手段208からの要求に応じてデータを取り出す。なお解析データ格納手段206はDBによって格納データを管理する(具体例後述)。
The analysis
表示制御手段207は、操作手段210によって操作された情報を基に表示データ読出制御手段208に対して読み出し要求を出す。また読み出した情報に従って表示手段209に対して表示要求を出す。
The
表示データ読出制御手段208は、表示制御手段209からの要求に応じて、解析データ格納手段206に対して解析データ(解析結果)の取り出しを要求する。またその解析データを比較演算し、データ格納手段204に対して必要なデータの取り出しを要求する。取り出したデータを表示データとして表示制御手段207に渡す。
The display data read
表示手段209は、表示制御手段207によって表示を要求されたものについて、表示を行う。表示手段209は例えば上述の表示装置107によって実現され、ディスプレイなどであってよい。
The
操作手段210は、ユーザに操作をさせる手段を提供する。操作手段210は例えば上述の入力装置106によって実現され、マウスやキーボード、ペン入力デバイスなどであってよい。
The operation means 210 provides means for causing the user to perform an operation. The
再生手段211は、データ格納手段204に格納された映像コンテンツの再生を行う。ユーザから対象となる映像コンテンツ及び再生時間等が指定されると、映像コンテンツを再生する。メディア再生プレーヤなどで実現されればよい。
The
以上これらの機能は、実際には装置のCPU101が実行するプログラムによりコンピュータに実現させるものである。
These functions are actually realized by a computer by a program executed by the
[情報処理]
上述したように、実施形態に係る会議収録システム1は、映像コンテンツを取得、解析、表示(閲覧)、再生を含む一連の処理機能を備え、大きくS100〜400のステップ(図1)の流れでその処理を進める。
[Information processing]
As described above, the
図5は、データ格納手段及び解析データ格納手段のDB構成例を示す図である。以下同図をあわせて参照しながら説明をしていく。 FIG. 5 is a diagram illustrating a DB configuration example of the data storage unit and the analysis data storage unit. The following description will be made with reference to the same figure.
(データ入力:S100)
実施形態に係る会議収録システム1は、データ入力のための周辺機器が接続され、本実施形態において入力されるデータは、映像コンテンツデータ、音声データ、ホワイトボード画像(静止画像)、スライドのスライド画像(静止画像)であるものとする。
(Data input: S100)
In the
例えば会議室には会議室全体を見渡すようにビデオカメラが設置される。またもしくは撮影者が随時ビデオカメラを扱って自由に撮影することもできる。ビデオカメラから取得された映像は時間情報を含むストリーミングデータである。また例えば会議室にはホワイトボードが設置され一定間隔又はユーザ操作によりホワイトボードの手書きのスクリーン画像がキャプチャされる。また例えば会議室ではユーザPCの電子資料データが壁側のスクリーンなど投影されたり、ユーザPC間で電子資料データが共有されており、このスライド画像がキャプチャされる。 For example, a video camera is installed in the conference room so as to look over the entire conference room. Alternatively, the photographer can handle the video camera at any time and shoot freely. The video acquired from the video camera is streaming data including time information. Further, for example, a whiteboard is installed in the conference room, and a handwritten screen image of the whiteboard is captured at regular intervals or by a user operation. Also, for example, in the conference room, the electronic material data of the user PC is projected on the screen on the wall side, or the electronic material data is shared between the user PCs, and this slide image is captured.
会議が開始されるとこれらデータが入力され始め、会議の終了とともにデータの入力を終了する。会議中、データはデータ登録手段203によりデータ格納手段204に格納される。なおデータ登録手段203は計時手段202に時刻を問い合わせ、その時刻情報を一緒にデータ格納手段204に登録しておく。
When the conference is started, the data starts to be input, and the input of the data is ended together with the end of the conference. During the meeting, the data is stored in the
図6は、映像コンテンツデータDB510構成例を示す。データ格納手段204は、映像コンテンツデータを格納するにあたり図に示されるDBでもってデータを管理する。映像コンテンツデータDB510は、ID、ファイルの場所、開始時間などから構成される。IDは、DB上映像を一意に特定するためのIDである。ファイルの場所は、その映像が格納されている場所を示すものである。ファイルパスのような記述によって格納場所を特定してもよい。そして例えば「0001.avi」が映像コンテンツデータ(実体)である。開始時間は、その映像の格納が開始された時間が計時手段202によって付与されたものであり、例えばUTCフォーマットで記録されたものである。本図例によると、3つのIDを持つ映像コンテンツデータが格納(登録)されていることから、3つの会議分の映像がDBに格納されていることが分かる。
FIG. 6 shows a configuration example of the video
図7は、音声データDB520構成例を示す。データ格納手段204は、音声データを格納するにあたり図に示されるDBでもってデータを管理する。音声データDB520は、ID、ファイルの場所、開始時間などから構成される。IDは、DB上音声を一意に特定するためのIDである。ファイルの場所は、その音声が格納されている場所を示すものである。そして例えば「0001.wav」が音声データ(実体)である。開始時間は、その音声の格納が開始された時間が計時手段202によって付与されたものである。本図例によると、3つのIDを持つ音声データが格納(登録)されていることから、3つの会議分の音声がDBに格納されていることが分かる。
FIG. 7 shows a configuration example of the
図8は、ホワイトボード画像DB530構成例を示す。データ格納手段204は、ホワイトボード画像を格納するにあたり図に示されるDBでもってデータを管理する。ホワイトボード画像DB530は、ID、ファイルの場所、開始時間などから構成される。IDは、DB上ホワイトボード画像を一意に特定するためのIDである。ファイルの場所は、そのホワイトボード画像が格納されている場所を示すものである。そして例えば「w0001.jpg」がホワイトボード画像データ(実体)である。開始時間は、そのホワイトボード画像の格納が開始された時間が計時手段202によって付与されたものである。。本図例のホワイトボード画像は、とくに時間情報(2010-04-05 13:10:33〜)に注目すれば、図6のID「m1」及び図7のID「a1」に対応する会議においてキャプチャされたホワイトボード画像データであることが分かる。
FIG. 8 shows a configuration example of the
図9は、スライド画像DB540構成例を示す。データ格納手段204は、スライド画像を格納するにあたり図に示されるDBでもってデータを管理する。スライド画像DB540は、ID、ファイルの場所、開始時間などから構成される。IDは、DB上スライド画像を一意に特定するためのIDである。ファイルの場所は、そのスライド画像が格納されている場所を示すものである。そして例えば「s0001.jpg」がスライド画像データ(実体)である。開始時間は、そのスライド画像の格納が開始された時間が計時手段202によって付与されたものである。本図例のスライド画像は、特に時間情報(2010-04-05 13:10:33〜)に注目すれば、図6のID「m1」及び図7のID「a1」に対応する会議においてキャプチャされたスライド画像データであることが分かる。
FIG. 9 shows a configuration example of the
(データ解析:S200)
上述したように入力されたデータはデータ格納手段204に格納されており、会議収録システム1はこのデータに対してデータ解析を行う。データ解析は、例えば映像ストリームを分割したり、各シーンに対し重要度を算出したり、音声からテキストを抽出しその話者を特定したり、ホワイトボードやスライドを解析しキーワードを抽出したりまたその重要度の算出などを行う。データ解析結果は解析データ格納手段206に格納される。以下図5をあわせて参照しながら説明する。
(Data analysis: S200)
The data input as described above is stored in the data storage means 204, and the
図10は、映像コンテンツデータから切り出された映像シーンDB511構成例を示す。データ解析手段205は、映像コンテンツデータのストリーミングから映像シーン毎にイメージを切り出し、これを映像シーンDB511に格納する。よって図10の映像IDは図6のIDに対応する。例えば図10のID「si1」は、図6の映像コンテンツデータ510のID「m1」の「0001.avi」から切り出され抽出されたものである。なお映像シーン画像が切り出された時間帯は時間情報として格納される。
FIG. 10 shows a configuration example of the
図11は、映像シーンから抽出された場面転換DB512構成例を示す。データ解析手段205は、映像シーンから特に重要と判断される映像シーンを抽出し、これを場面転換DB512に格納する。よって図11の映像シーンIDは図10のIDに対応する。例えば図11のID「sc1」は、図10の映像シーンDB511のID「si1」を重要と判断された結果、抽出されたものである。そしてデータ解析手段205は、各場面転換を示すと判断した映像シーンに対し重要度を計算し、あわせてDBに格納する。重要度は、場面転換について、どのくらいの情報が変化したのかを重要度として計算した結果を示すものであるが、この場面転換重要度の具体的算出方法は、例えば本出願人による特許4414254号などを参考にできる。
FIG. 11 shows a configuration example of the
図12は、音声データから取り出された音声認識データDB521構成例を示す。データ解析手段205は、音声データのストリーミングから音声認識処理を行い、これをテキストに変換、また所定文節に区切って音声認識データを作成し、これを音声認識データDB521に格納する。よって図12の音声IDは図7のIDに対応する。例えば図12のID「t1」は、図7の音声データDB520のID「a1」の「0001.wav」から抽出されたものである。時間情報は、音声の開始時間と経過時間から計算され、元の音声データにおける当該音声認識データの開始時間を示すものである。
FIG. 12 shows a configuration example of the voice
図13は、音声認識データから解析された話者DB522構成例を示す。データ解析手段205は、音声データ又は音声認識データから音声認識処理を行い、話者(話者ID)を特定し、これを話者DB522に格納する。よって図13の音声IDは図7のIDに対応する。例えば図13のID「a1」は、図7の音声データDB520のID「a1」の「0001.wav」から話者が特定されたものである。時間情報は、音声の開始時間と経過時間から計算され、元の音声データにおける当該音声認識データの開始時間を示すものである。なお話者を特定する方法としては、例えば予め想定される話者名、話者ID、話者写真画像及びそれぞれの声紋等を対応付けて登録しておき、音声データ又は音声認識データと照合することにより話者を特定できる。
FIG. 13 shows a configuration example of the
図14は、音声認識データ、ホワイトボード画像及びスライド画像から解析されたキーワードDB550構成例を示す。キーワードDB550は、ID、コンテンツ、キーワード、重要度、時間情報などから構成される。IDはDB上キーワードを一意に特定するためのIDである。コンテンツは、そのキーワードがどこから取得されたものかの抽出元を示し、音声認識データのDB、ホワイトボード画像のDB、スライド画像のDBなどのIDを示す。キーワードは、入力データ又は入力データから解析された解析データなどの音声認識データ、ホワイトボード画像、スライド画像から抽出されたキーワードあるいはキーフレーズを格納する。重要度は、計算によってキーワード重要度が演算されたものを格納したものである。
FIG. 14 shows a configuration example of the
データ解析手段205は、音声認識データ、ホワイトボード画像、スライド画像からキーワード抽出処理を行うとともに、抽出されたキーワードの重要度を算出し、これを解析データ格納手段206のDBに格納する。なおキーワードを抽出する方法としては、例えばホワイトボード画像、スライド画像からは文字認識処理(OCR)を行ってテキストを取り出す(ホワイトボード画像OCRDB531、スライド像画像OCRDB541に格納)。音声データからは音声認識データとして既にテキストとして取り出されており(音声認識データDB521に格納)、これらテキストを形態素に分解し、各々の形態素に対してTF(単語の出現頻度:Term Frequency)−IDF(逆出現頻度:Inverse Document Frequency)値等の重要度を表す指標を計算し、その指標(重要度)の一定以上高い形態素をキーワードとすることができる。
The
例えば図中、キーワードのID「k1」は、コンテンツ「sl1」(スライド画像)からキーワード「System」が抽出され、その重要度が「0.4」であることを示している。またキーワードのID「k2」は、コンテンツ「w1」(ホワイトボード画像)からキーワード「Architecture」が抽出され、その重要度が「0.2」であることを示している。また同様に、キーワードのID「k3」は、コンテンツ「t1」(音声認識データ)からキーワード「システム構成」が抽出され、その重要度が「0.6」であることを示している。なお音声認識データの「t1」(図12)は、そのコンテンツが「最初の議題は、システム構成についてです。」となっており、本会議の議題を示すキーワード「システム構成」には比較的高い重要度「0.6」が算出されている。 For example, in the figure, the keyword ID “k1” indicates that the keyword “System” is extracted from the content “sl1” (slide image), and the importance is “0.4”. The keyword ID “k2” indicates that the keyword “Architecture” is extracted from the content “w1” (whiteboard image) and the importance is “0.2”. Similarly, the keyword ID “k3” indicates that the keyword “system configuration” is extracted from the content “t1” (speech recognition data) and its importance is “0.6”. Note that “t1” (FIG. 12) of the speech recognition data has the content “The first agenda is about the system configuration.” The keyword “system configuration” indicating the agenda of the conference is relatively high. The importance “0.6” is calculated.
(データの読み出し及び表示:S300)
このステップはユーザが会議の映像コンテンツの閲覧を行う場面であり、例えばユーザは会議収録システム1の表示手段から、収録会議リストの中から1の会議を選択し、選択された会議について重要場面のコンテキストを表示する操作を行う。これを受け会議収録システム1は、選択された会議を対象として、解析データ格納手段206の解析データに基づいて、重要なコンテキストを抽出、表示する。
(Data reading and display: S300)
This step is a scene where the user browses the video content of the conference. For example, the user selects one conference from the recorded conference list from the display means of the
図15は、データの読み出し及び表示処理を説明するフローチャートである。本実施形態に係る会議収録システム1は、ユーザにより、1の会議が選択され、重要場面表示の操作を受けてフローチャートの処理を開始する。なおユーザは操作時、重要度判断の対象となるコンテキストを映像シーンにするか、キーワードにするか、それとも映像シーンとキーワードの両方にするか、の指定を行う。また重要場面表示に際し、何コマ(何シーン)を一度に表示させるかのコマ数の指定を行う。ここでは、「映像シーンとキーワードの両方」、「4コマ」と指定されたものとして説明する。
FIG. 15 is a flowchart for explaining data reading and display processing. In the
S301:まず表示データ読出制御手段208は、ユーザより選択された会議に基づき、キーワードDB550からこの会議に対応するキーワードを重要度順に並べる。なお解析データ格納手段206によりキーワードDB550は既に重要度順にソート済みであってもよい。
S301: First, the display data read
S302:同様に表示データ読出制御手段208は、ユーザより選択された会議に基づき、映像シーンDB511からこの会議に対応する映像シーンを重要度順に並べる。なお解析データ格納手段206により映像シーンDB511は既に重要度順にソート済みであってもよい。
S302: Similarly, the display data read
S303:表示データ読出制御手段208は、所定上位数のキーワード、映像シーンを表示データとして取得する(読み出す)。所定上位数は、指定コマ数により決定される値である。ここでは指定コマ数「4コマ」であるので、所定上位数は4であるので、上位4番目までのキーワード、映像シーンを取得する。取得方法としては、重要度判断の対象となるコンテンツが「キーワード」(のみ)である場合、重要度が上位4番目までのキーワードを取得する。また重要度判断の対象となるコンテンツが「映像シーン」(のみ)である場合、重要度が上位4番目までの映像シーンを取得する。また、重要度判断の対象となるコンテンツが「映像シーンとキーワードの両方」である場合には、それぞれ2つずつ、つまり重要度が上位2番目まで映像シーンとキーワードを取得してもよいし、どちらかを重視するのであれば重み付けによりいずれかを優先し取得するようにしてもよい。またもしくは映像シーンとキーワードの重要度が正規化(標準化)されているのであれば、映像シーン及びキーワードの両方を含めた中から重要度が上位4番目までの映像シーン及び/又はキーワードを取得するようにしてもよい。 S303: The display data reading control means 208 acquires (reads) a predetermined upper number of keywords and video scenes as display data. The predetermined upper number is a value determined by the designated number of frames. Here, since the designated number of frames is “4 frames”, the predetermined upper number is 4, so the keywords and video scenes up to the upper fourth are acquired. As an acquisition method, when the content whose importance is to be determined is “keyword” (only), keywords having the highest importance are acquired up to the fourth highest. If the content whose importance is to be judged is “video scene” (only), the video scenes with the fourth highest importance are acquired. In addition, when the content whose importance is determined is “both video scenes and keywords”, two video scenes and keywords may be acquired up to two, that is, the second highest importance, If one of them is emphasized, priority may be given to obtain either by weighting. Alternatively, if the importance level of the video scene and the keyword is normalized (standardized), the video scene and / or the keyword having the fourth highest importance level is acquired from both the video scene and the keyword. You may do it.
S304:また表示データ読出制御手段208は、取得されたキーワード、映像シーンと同時刻のコンテキストを表示データとして取得する。具体的に、重要度に基づきあるキーワードが取得された場合、このキーワードは音声認識データ、ホワイトボード画像、スライド画像のいずれかから抽出されているところ、この抽出元のコンテキストの時間情報を特定し、特定された時間情報と同時刻の他のコンテキストを取得する。
S304: Further, the display data reading
具体的に例えばS303にて、重要度「0.6」のキーワードID「k3」が所定上位数内に入ったためこのキーワード「システム構成」が取得されたとする。キーワードDB550を参照すると、このキーワード「システム構成」の抽出元はコンテンツ「t1」となっており、即ち音声認識データのID「t1」(図12)が抽出元である。そして音声認識データのID「t1」において、時間情報は「2010-04-05 13:10:32」である。従って、本キーワードと同時刻のコンテキストである音声認識データID「t1」を取得する。また同時刻の他のコンテキストとして、「2010-04-05 13:10:32」の映像シーン、「2010-04-05 13:10:32」のホワイトボード画像、「2010-04-05 13:10:32」のスライド画像、「2010-04-05 13:10:32」時点での話者をそれぞれ取得する。映像シーンは映像シーンDB511から、ホワイトボード画像はホワイトボード画像DB530(又はホワイトボード画像OCRDB531)から、スライド画像はスライド画像DB540(又はスライド画像OCRDB541)から、話者は話者DB522を読み出すことができる。なお図9のスライド画像DB540について、同時刻のスライド画像がなければ直近のスライド画像をこれに代えて取得する(スライドは切り替わり毎に画像を取得しているため)。
Specifically, it is assumed that, for example, in S303, the keyword “system configuration” is acquired because the keyword ID “k3” having the importance “0.6” is included in the predetermined upper number. Referring to the
図16は、読み出された解析データ例を示す。上述のS303及びS304を経て、図に示されるように5つのコンテキスト(要素)が抽出、読み出されることになる。ここでこれら5つのコンテキストは、会議の開催時間中、同時刻に発生したコンテキストであり、いわば同時刻コンテキストグループといえる。そしてここでは、上述の如く重要場面表示を一度に表示させるかの指定コマ数は「4コマ」であるので、この要領で表示データとして、4つの同時刻コンテキストグループが抽出、読み出されることになる。 FIG. 16 shows an example of read analysis data. Through S303 and S304 described above, five contexts (elements) are extracted and read out as shown in the figure. Here, these five contexts are contexts that occur at the same time during the conference, and can be said to be a simultaneous context group. Here, as described above, the designated number of frames for displaying the important scene display at a time is “4 frames”. Therefore, in this manner, four simultaneous context groups are extracted and read out as display data. .
S305:表示制御手段207は、表示データ読出制御手段208により読み出された表示データを表示手段209に表示させる。ここで再び図2を参照する。表示の方法は、例えば図2に示されるように同時刻コンテキストグループをコンテキストの種類順に縦に並べる。「13:10:32」の同時刻コンテキストグループ(図16)の場合、グループ内の各コンテキスト要素を上から「映像シーン」、「話者」、「ホワイトボード」、「スライド」、「キーワード」の順に縦に整列させる。同様の要領で、他3つの同時刻コンテキストグループについても縦に整列させる。そして横軸には時系列に縦に整列した同時刻コンテキストグループを並べていく。なおこれらコンテキストは重要度に基づき抽出されているため、その根拠となったコンテキストに対しては強調表示を行うようにする。
S305: The
(シーンの選択及び映像の再生:S400)
このステップでは、会議収録システム1の表示手段上、いくつかの重要なコンテキストが表示されているので、ユーザはこの中から再生しようとする映像シーンを選択し再生できる。再び図2を参照し、ユーザは再生しようとする映像シーン(又は同グループ内のコンテンツ)を選択し「再生」ボタンを押下する。再生手段211は、選択された映像シーンの時間情報が取得し、映像シーンに対応するファイルを特定(図6)し、同ファイルを取得した時間から再生を開始する。これまでの例でいえば、この会議の映像ファイル「0001.avi」が時間ストリーム上「13:10:32」(時間情報)から映像及び音声を含め再生される。
(Scene selection and video playback: S400)
In this step, since some important contexts are displayed on the display means of the
[総括]
以上本実施形態に係る会議収録システム1によれば、映像コンテンツデータの振り返りにおいて、映像コンテンツデータや、その他の入力データの中から重要度の高いものだけを時間軸に沿って一覧表示される。また表示されたコンテキストのうち重要度の高いものについてはユーザの視認性を高めるように強調表示(色分け含む)などで表示する。また会議場面にて同時刻に平行している他のコンテキストについても同時に表示する。これによりユーザは映像のみならず他の複数の要素から会議場面を思い起こし振り返ることができる。またそのうち、解析されたキーワードを付して表示することで、重要度の高い映像やコンテキスト(話者、ホワイトボード、スライド)とともに、その映像シーン時刻における要点内容までをユーザがキーワードとして一見で把握できるようにした。
[Summary]
As described above, according to the
即ち上述の本実施形態によれば、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置等を提供することが可能となる。 In other words, according to the above-described embodiment, it is possible to provide a content browsing device and the like that can easily grasp important contexts and the contents of the main points when looking back on time information such as video content.
各実施形態に基づき本発明の説明を行ってきたが、上記各実施形態にあげたその他の要素との組み合わせなど、ここで示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。また、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。 Although the present invention has been described based on each embodiment, the present invention is not limited to the requirements shown here, such as combinations with other elements listed in the above embodiments. With respect to these points, the present invention can be changed within a range that does not detract from the gist of the present invention, and can be appropriately determined according to the application form. Moreover, what applied the component, expression, or arbitrary combinations of the component of this invention to a method, an apparatus, a system, a computer program, a recording medium, etc. is also effective as an aspect of this invention.
1 会議支援システム
101 CPU
102 ROM
103 RAM
104 補助記憶装置
105 記憶媒体読取装置
106 入力装置
107 表示装置
108 通信装置
109 インターフェース装置
201 データ入力手段
202 計時手段
203 データ登録手段
204 データ格納手段
205 データ解析手段
206 解析データ格納手段
207 表示制御手段
208 表示データ読出制御手段
209 操作手段
210 表示手段
211 再生手段
510 映像コンテンツデータDB
511 映像シーンDB
512 場面転換DB
520 音声データDB
521 音声認識データDB
522 話者DB
530 ホワイトボード画像DB
531 ホワイトボード画像OCRDB
540 スライド画像DB
541 スライドOCR画像DB
550 キーワードDB
1
102 ROM
103 RAM
104
511 Video scene DB
512 Scene change DB
520 Audio data DB
521 Speech recognition data DB
522 Speaker DB
530 Whiteboard Image DB
531 Whiteboard Image OCRDB
540 slide image DB
541 Slide OCR image DB
550 Keyword DB
Claims (7)
映像コンテンツ及び前記映像コンテンツと時間軸上でリンク付けされた音声、静止画像のうち少なくともいずれかを有するデータ格納手段と、
前記映像コンテンツから抽出された映像シーンが格納され、また前記音声、前記静止画像のうち少なくともいずれかから抽出されたキーワードと当該キーワード毎に解析された重要度とが対応付けて格納された解析データ格納手段と、
前記解析データ格納手段から前記重要度が上位所定数のキーワードを読み出すとともに、読み出された前記キーワードの抽出元となった前記音声又は静止画像と、当該音声又は静止画像と同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出す読出制御手段と、
前記読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、音声及び/又は静止画像、並びにキーワードのグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる表示制御手段と、
を有することを特徴とするコンテンツ閲覧装置。 A content browsing device for displaying content on a display means,
Data storage means having at least one of video content, audio linked to the video content on a time axis, and a still image;
Analysis data in which a video scene extracted from the video content is stored, and a keyword extracted from at least one of the audio and the still image is associated with an importance level analyzed for each keyword Storage means;
The keyword with the highest degree of importance is read from the analysis data storage means, and the voice or still image from which the read keyword is extracted and on the same time axis as the voice or still image Read control means for reading out the linked video scene as display data;
Displaying video scenes, audio and / or still images, and keyword groups linked on the same time axis among the display data read by the read control means, and when there are a plurality of the groups Display control means arranged in time series for each group and displayed on the display means;
A content browsing apparatus comprising:
前記第2解析データ格納手段から前記重要度が上位所定数の映像シーンを読み出すとともに、読み出された前記映像シーンと同一の時間軸上でリンク付けされた音声及び静止画像とを第2表示データとして読み出す第2読出制御手段と、
前記第2読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、並びに音声及び/又は静止画像のグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる第2表示制御手段と、
を有することを特徴とする請求項1記載のコンテンツ閲覧装置。 A second analysis data storage means in which a video scene extracted from the video content and an importance level analyzed for each video scene are stored in association with each other;
A predetermined number of video scenes with higher importance are read from the second analysis data storage means, and audio and still images linked on the same time axis as the read video scene are displayed as second display data. Second read control means for reading as:
When the display data read by the second read control means displays video scenes and audio and / or still image groups linked on the same time axis, and there are a plurality of the groups. Includes a second display control means arranged in time series for each group and displayed on the display means,
The content browsing apparatus according to claim 1, further comprising:
前記第2表示制御手段は、前記重要度が上位所定数の映像シーンは強調して表示すること、
を特徴とする請求項2記載のコンテンツ閲覧装置。 The display control means emphasizes and displays the voice or still image that is the extraction source,
The second display control means emphasizes and displays the predetermined number of video scenes with the highest importance;
The content browsing apparatus according to claim 2.
前記コンテンツ閲覧装置は、
映像コンテンツ及び前記映像コンテンツと時間軸上でリンク付けされた音声、静止画像のうち少なくともいずれかを有するデータ格納手段と、
前記映像コンテンツから抽出された映像シーンが格納され、また前記音声、前記静止画像のうち少なくともいずれかから抽出されたキーワードと当該キーワード毎に解析された重要度とが対応付けて格納された解析データ格納手段と、
を備え、
前記解析データ格納手段から前記重要度が上位所定数のキーワードを読み出すとともに、読み出された前記キーワードの抽出元となった前記音声又は静止画像と、当該音声又は静止画像と同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出す読出制御手順と、
前記読出制御手順により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、音声及び/又は静止画像、並びにキーワードのグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる表示制御手順と、
を有することを特徴とするコンテンツ表示方法。 A content display method in a content browsing apparatus for displaying content on a display means,
The content browsing device
Data storage means having at least one of video content, audio linked to the video content on a time axis, and a still image;
Analysis data in which a video scene extracted from the video content is stored, and a keyword extracted from at least one of the audio and the still image is associated with an importance level analyzed for each keyword Storage means;
With
The keyword with the highest degree of importance is read from the analysis data storage means, and the voice or still image from which the read keyword is extracted and on the same time axis as the voice or still image A readout control procedure for reading out linked video scenes as display data;
Displaying video scenes, audio and / or still images, and keyword groups linked on the same time axis among the display data read by the read control procedure, and when there are a plurality of the groups Is arranged in time series for each group, and a display control procedure for displaying on the display means,
A content display method characterized by comprising:
前記映像コンテンツから抽出された映像シーンと当該映像シーン毎に解析された重要度とが対応付けて格納された第2解析データ格納手段と、
を備え、
前記第2解析データ格納手段から前記重要度が上位所定数の映像シーンを読み出すとともに、読み出された前記映像シーンと同一の時間軸上でリンク付けされた音声及び静止画像とを第2表示データとして読み出す第2読出制御手順と、
前記第2読出制御手順により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、並びに音声及び/又は静止画像のグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる第2表示制御手順と、
を有することを特徴とする請求項4記載のコンテンツ表示方法。 The content browsing device
A second analysis data storage means in which a video scene extracted from the video content and an importance level analyzed for each video scene are stored in association with each other;
With
A predetermined number of video scenes with higher importance are read from the second analysis data storage means, and audio and still images linked on the same time axis as the read video scene are displayed as second display data. A second reading control procedure to read as
In the display data read out by the second readout control procedure, a video scene and a group of audio and / or still images linked on the same time axis are displayed and there are a plurality of the groups. Includes a second display control procedure arranged in time series for each group and displayed on the display means;
5. The content display method according to claim 4, further comprising:
前記第2表示制御手順は、前記重要度が上位所定数の映像シーンは強調して表示すること、
を特徴とする請求項5記載のコンテンツ表示方法。 The display control procedure emphasizes and displays the voice or still image that is the extraction source,
The second display control procedure is to emphasize and display the predetermined number of video scenes with higher importance.
The content display method according to claim 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010198132A JP2012053855A (en) | 2010-09-03 | 2010-09-03 | Content browsing device, content display method and content display program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010198132A JP2012053855A (en) | 2010-09-03 | 2010-09-03 | Content browsing device, content display method and content display program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012053855A true JP2012053855A (en) | 2012-03-15 |
Family
ID=45907054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010198132A Pending JP2012053855A (en) | 2010-09-03 | 2010-09-03 | Content browsing device, content display method and content display program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012053855A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015130176A (en) * | 2014-01-07 | 2015-07-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Apparatus and method for structuring contents of meeting |
WO2017009959A1 (en) * | 2015-07-14 | 2017-01-19 | 日立マクセル株式会社 | Information processing device and information processing method |
CN108710619A (en) * | 2016-09-16 | 2018-10-26 | 卡西欧计算机株式会社 | Show information generation device, information management system, display information generating method and recording medium |
JP2018169977A (en) * | 2017-03-30 | 2018-11-01 | Kddi株式会社 | Minute book support device, minute book support method, and computer program |
-
2010
- 2010-09-03 JP JP2010198132A patent/JP2012053855A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015130176A (en) * | 2014-01-07 | 2015-07-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Apparatus and method for structuring contents of meeting |
WO2017009959A1 (en) * | 2015-07-14 | 2017-01-19 | 日立マクセル株式会社 | Information processing device and information processing method |
CN108710619A (en) * | 2016-09-16 | 2018-10-26 | 卡西欧计算机株式会社 | Show information generation device, information management system, display information generating method and recording medium |
CN108710619B (en) * | 2016-09-16 | 2021-11-23 | 卡西欧计算机株式会社 | Display information generating device and method, information management system, and recording medium |
JP2018169977A (en) * | 2017-03-30 | 2018-11-01 | Kddi株式会社 | Minute book support device, minute book support method, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3185505B2 (en) | Meeting record creation support device | |
KR100752568B1 (en) | Event-driven annotation techniques | |
US7730407B2 (en) | Systems and methods for bookmarking live and recorded multimedia documents | |
US9031389B2 (en) | Image editing apparatus, image editing method and program | |
JP4171157B2 (en) | Notebook creation system, notebook creation method, and operation method of notebook creation system | |
US7995074B2 (en) | Information presentation method and information presentation apparatus | |
US7598975B2 (en) | Automatic face extraction for use in recorded meetings timelines | |
KR20140139859A (en) | Method and apparatus for user interface for multimedia content search | |
US20130086051A1 (en) | Logging events in media files including frame matching | |
JP2007004784A (en) | Method, system, and device for digital information processing | |
JP3895892B2 (en) | Multimedia information collection management device and storage medium storing program | |
JP2005267279A (en) | Information processing system and information processing method, and computer program | |
WO2023160288A1 (en) | Conference summary generation method and apparatus, electronic device, and readable storage medium | |
JP2019186784A (en) | Apparatus, method and program for creating image work | |
JP2012053855A (en) | Content browsing device, content display method and content display program | |
JP2007141092A (en) | Device, method and program for presenting information and information recording medium | |
WO2008087742A1 (en) | Moving picture reproducing system, information terminal device and information display method | |
JP4686990B2 (en) | Content processing system, content processing method, and computer program | |
JP4269980B2 (en) | Content processing system, content processing method, and computer program | |
JP2005167822A (en) | Information reproducing device and information reproduction method | |
JP2008090526A (en) | Conference information storage device, system, conference information display device, and program | |
JP2002288178A (en) | Multimedia information collection and management device and program | |
WO2006030995A9 (en) | Index-based authoring and editing system for video contents | |
JP2012118859A (en) | Conference minutes system and conference minutes program | |
JP2005260512A (en) | System and method for processing content, and computer program |