JP6231762B2 - Receiving apparatus and program - Google Patents

Receiving apparatus and program Download PDF

Info

Publication number
JP6231762B2
JP6231762B2 JP2013082330A JP2013082330A JP6231762B2 JP 6231762 B2 JP6231762 B2 JP 6231762B2 JP 2013082330 A JP2013082330 A JP 2013082330A JP 2013082330 A JP2013082330 A JP 2013082330A JP 6231762 B2 JP6231762 B2 JP 6231762B2
Authority
JP
Japan
Prior art keywords
sound
dialog
program
unit
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013082330A
Other languages
Japanese (ja)
Other versions
JP2014206559A (en
Inventor
靖茂 中山
靖茂 中山
岳大 杉本
岳大 杉本
今井 篤
篤 今井
大竹 剛
剛 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2013082330A priority Critical patent/JP6231762B2/en
Publication of JP2014206559A publication Critical patent/JP2014206559A/en
Application granted granted Critical
Publication of JP6231762B2 publication Critical patent/JP6231762B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、受信装置及びプログラムに関するものであり、特に、放送された情報及びインターネット通信において送信された情報の双方を受信できる受信装置及びプログラムに関するものである。   The present invention relates to a receiving apparatus and a program, and more particularly to a receiving apparatus and a program capable of receiving both broadcast information and information transmitted in Internet communication.

放送番組の音声に対する要望は、多言語放送や解説放送の充実化、さらに聞き取りやすいダイアログ音声レベルの設定など様々である。中でも、聞き取りやすい音声を求める要望は大きく、放送局は、例えば、番組制作にラウドネスメータを導入することにより、聞き取りやすい番組音声実現に向けた取り組みを始めている。しかし、音声が聞きとりやすいように番組制作が行われても、音声の聞き取りやすさは、放送信号の受信側の環境や聴取者(聴取者の聴覚能力)によっても変化してしまうものである。   There are various demands for sound of broadcast programs, such as enhancement of multilingual broadcasting and explanation broadcasting, and setting of dialog sound level that is easy to hear. In particular, there is a great demand for easy-to-listen audio, and broadcasters have begun efforts to realize easy-to-listen program audio, for example, by introducing a loudness meter in program production. However, even if a program is produced so that it is easy to hear the sound, the ease of hearing the sound changes depending on the environment on the receiving side of the broadcast signal and the listener (listener's hearing ability). .

そのため、既に放送局側で制作された番組音声から所望の音声のみを抽出することは困難であるものの、聞き取りやすさを追求するためには、ダイアログ音声のレベルを受信装置側で調整できることが望まれる。従来、受信装置が、チャンネル間の相関を利用して、ダイアログ音声(例えば、ナレーション音声)とそれ以外の音声(例えば、背景音や効果音)との音量差を制御する手法が提案されている(例えば、特許文献1参照)。特許文献1に記載の手法では、受信装置が、まず、放送信号に含まれる2チャンネルの音声信号中から、相関が高い同相成分であるダイアログ音声信号を抽出し、このダイアログ音声信号に対して増幅・減衰・フィルタ処理などの処理を施す。そして、受信装置が、同相成分値を抽出した2チャンネルの音声信号に対して、処理済みのダイアログ音声信号を加算する。これにより、音声信号中のダイアログ音声信号に対して、種々の処理が施されることになる。   Therefore, although it is difficult to extract only the desired audio from the program audio already produced on the broadcasting station side, it is desirable that the level of the dialog audio can be adjusted on the receiving device side in order to pursue ease of listening. It is. Conventionally, a method has been proposed in which a receiving apparatus uses a correlation between channels to control a volume difference between dialog sound (for example, narration sound) and other sound (for example, background sound or sound effect). (For example, refer to Patent Document 1). In the method described in Patent Document 1, the receiving apparatus first extracts a dialog voice signal that is an in-phase component with high correlation from two-channel audio signals included in a broadcast signal, and amplifies the dialog voice signal.・ Apply processing such as attenuation and filtering. Then, the reception device adds the processed dialog audio signal to the 2-channel audio signal from which the in-phase component value is extracted. As a result, various processes are performed on the dialog voice signal in the voice signal.

特許第4970174号公報Japanese Patent No. 4970174

しかし、ダイアログ音声信号の相関のみが高いとは限らず、特許文献1に記載の従来手法では、例えば、背景音などのモノ信号は、相関が高いとみなされ、ダイアログ音声信号と共に抽出されてしまう。この場合、受信装置は、ダイアログ音声信号のみを増幅したり、減衰したりできなくなる。   However, not only the correlation of the dialog voice signal is high, but in the conventional method described in Patent Document 1, for example, a mono signal such as a background sound is considered to have a high correlation and is extracted together with the dialog voice signal. . In this case, the receiving apparatus cannot amplify or attenuate only the dialog voice signal.

また、従来手法は、単に、ダイアログ音声を強調したり、弱めたりすることを目的にするものであり、受信装置側でダイアログ音声の差し替えを可能にするものではない。つまり、従来の受信装置は、放送信号以外を受信するものではないため、ダイアログ音声に対して処理が施された放送信号に、放送信号以外の別の信号を合成することはできない。そのため、従来手法では、放送信号中の元のダイアログ音声(例えば、日本語)を別のダイアログ音声(例えば、英語)に置き換えるために、元のダイアログ音声を削除する、つまり元のダイアログ音声のレベルをゼロにすることについては何ら想定されていない。仮に、従来手法によってダイアログ音声の削除が試されても、上記理由により、相関値の利用ではダイアログ音声のみの削除は困難であり、効果が不十分である。   Further, the conventional method is merely intended to emphasize or weaken the dialog sound, and does not allow the dialog sound to be replaced on the receiving device side. That is, since the conventional receiving apparatus does not receive anything other than the broadcast signal, another signal other than the broadcast signal cannot be combined with the broadcast signal that has been processed for the dialog sound. Therefore, in the conventional method, in order to replace the original dialog sound (for example, Japanese) in the broadcast signal with another dialog sound (for example, English), the original dialog sound is deleted, that is, the level of the original dialog sound. There is no assumption about zero. Even if the dialog voice is deleted by the conventional method, for the above reason, it is difficult to delete only the dialog voice by using the correlation value, and the effect is insufficient.

従って、上記のような問題点に鑑みてなされた本発明の目的は、受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供することにある。   Accordingly, an object of the present invention made in view of the above problems is to provide a receiving apparatus and a program capable of adjusting the level of only dialog sound included in a received broadcast signal.

上記課題を解決するために、本発明に係る受信装置は、
放送された番組音声を受信する第1受信部と、
インターネット通信により前記番組音声のダイアログ音声を受信する第2受信部と、
前記番組音声及び前記ダイアログ音声に基づいて、各フレームの有効性を判断する判断部と、
前記判断部で有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定する推定部と、
前記ゲイン量に基づいて前記ダイアログ音声を調整する調整部と、
前記調整部で調整された前記ダイアログ音声と前記番組音声との合成を行う合成部と、
を備える。
In order to solve the above problems, a receiving apparatus according to the present invention provides:
A first receiver for receiving broadcast program audio;
A second receiver for receiving the dialog voice of the program voice by Internet communication;
A determination unit that determines the validity of each frame based on the program sound and the dialog sound;
An estimation unit configured to estimate a gain amount of a dialog sound included in the program sound based on the program sound and the dialog sound of the frame determined to be valid by the determination unit;
An adjusting unit for adjusting the dialog sound based on the gain amount;
A synthesizing unit that synthesizes the dialog audio adjusted by the adjusting unit and the program audio;
Is provided.

また、本発明に係る受信装置は、
前記判断部が、前記ダイアログ音声のフレームエネルギー、及び前記番組音声と前記ダイアログ音声との類似性に基づいて、前記各フレームの有効性を判断する。
The receiving device according to the present invention is
The determination unit determines the validity of each frame based on the frame energy of the dialog sound and the similarity between the program sound and the dialog sound.

また、本発明に係る受信装置は、
前記判断部が、前記番組音声及び前記ダイアログ音声の帯域を複数に分割して、少なくとも1つの帯域で類似性を有するフレームを有効と判断する。
The receiving device according to the present invention is
The determination unit divides a band of the program sound and the dialog sound into a plurality of bands, and determines that a frame having similarity in at least one band is valid.

また、本発明に係る受信装置は、
前記推定部が、有効と判断されなかったフレームの前記ゲイン量を、1つ前のフレームのゲイン量と同一とする。
The receiving device according to the present invention is
The estimation unit sets the gain amount of a frame that is not determined to be valid to be the same as the gain amount of the previous frame.

また、本発明に係る受信装置は、
前記調整部が、前記ダイアログ音声を逆位相化して前記ゲイン量を乗算することにより、前記ダイアログ音声を調整する。
The receiving device according to the present invention is
The adjustment unit adjusts the dialog sound by dephasing the dialog sound and multiplying the gain by the gain amount.

また本発明に係る受信装置は、
前記合成部で合成した結果と、第2受信部によって受信したダイアログ音声のうち、前記ダイアログ音声とは異なるダイアログ音声とを更に合成する第2合成部を備える。
Moreover, the receiving device according to the present invention includes:
A second synthesizing unit that further synthesizes the result synthesized by the synthesizing unit and the dialog sound different from the dialog sound among the dialog sounds received by the second receiving unit .

また、本発明に係るプログラムは、
受信装置のコンピュータに、
放送された番組音声を取得するステップと、
インターネット通信により前記番組音声のダイアログ音声を取得するステップと、
前記番組音声と前記ダイアログ音声に基づいて、フレームの有効性を判断するステップと、
有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定するステップと、
前記ゲイン量に基づいて前記ダイアログ音声を調整するステップと、
前記調整するステップで調整された前記ダイアログ音声及び前記番組音声の合成を行うステップと、を実行させる。
The program according to the present invention is
In the computer of the receiving device,
Obtaining broadcast program audio; and
Obtaining a dialog sound of the program sound by Internet communication;
Determining the validity of a frame based on the program audio and the dialog audio;
Estimating a gain amount of the dialog sound included in the program sound based on the program sound and the dialog sound of the frame determined to be valid;
Adjusting the dialog sound based on the gain amount;
And synthesizing the dialog sound and the program sound adjusted in the adjusting step .

本発明によれば、受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the receiver and program which can adjust the level of only the dialog audio | voice contained in the received broadcast signal can be provided.

図1は、本発明の第1実施形態に係る受信装置の概略構成を示す機能ブロック図である。FIG. 1 is a functional block diagram showing a schematic configuration of a receiving apparatus according to the first embodiment of the present invention. 図2は、本発明の第1実施形態に係る受信装置の処理を示すフローチャートである。FIG. 2 is a flowchart showing processing of the receiving apparatus according to the first embodiment of the present invention. 図3は、本発明の第2実施形態に係る受信装置の概略構成を示す機能ブロック図である。FIG. 3 is a functional block diagram showing a schematic configuration of a receiving apparatus according to the second embodiment of the present invention. 図4は、本発明の第2実施形態に係る受信装置の処理を示すフローチャートである。FIG. 4 is a flowchart showing processing of the receiving apparatus according to the second embodiment of the present invention.

以下、本発明の実施形態に係る受信装置について、図面を参照して説明する。受信装置は、放送信号を受信できるものであり、例えば、テレビ受像機等の放送受信端末である。受信装置は、以下に説明される計算処理を行うコンピュータを含むものである。なお、受信装置は、放送信号を受信できればよく、受信された放送信号の情報を表示する表示部(ディスプレイ)の有無に限定されるものではない。そのため、受信装置には、チューナ搭載のレコーダ、単体チューナなどが含まれる。   Hereinafter, a receiving apparatus according to an embodiment of the present invention will be described with reference to the drawings. The receiving device can receive broadcast signals, and is a broadcast receiving terminal such as a television receiver, for example. The receiving apparatus includes a computer that performs calculation processing described below. The receiving device is not limited to the presence or absence of a display unit (display) that displays information on the received broadcast signal, as long as it can receive the broadcast signal. For this reason, the receiver includes a recorder equipped with a tuner, a single tuner, and the like.

放送とは、放送局から公衆(不特定多数)に向けた放送信号の送信であり、例えば、テレビジョン放送である。放送信号は、放送局が提供する番組の映像(番組映像)と音声(番組音声)の2つの信号が合成されたものである。番組音声には、人声に関するナレーション、アナウンサーコメント、ヴォーカルなどのダイアログ音声と、それ以外の音声(背景音や効果音など)とが含まれる。また、番組音声に含まれるダイアログ音声は、番組の制作の過程でレベル変化処理されることにより、時刻とともにそのレベルが変化するものとなっている。   Broadcasting refers to transmission of a broadcast signal from a broadcasting station to the public (unspecified majority), for example, television broadcasting. The broadcast signal is a combination of two signals of a program video (program video) and audio (program audio) provided by a broadcasting station. The program audio includes dialog voices such as voice narrations, announcer comments, vocals, and other sounds (background sounds, sound effects, etc.). In addition, the level of the dialog sound included in the program sound is changed with time by being subjected to a level change process in the process of producing the program.

そして、本受信装置は、放送信号だけでなく、インターネットを介した通信信号を放送局から受信するものである。そのため、受信装置と放送局とは、有線接続又は無線接続されている。このような放送信号と通信信号の双方を受信する受信装置は、例えば、放送通信連携サービスの基盤システムであるHybridcast(ハイブリッドキャスト)(登録商標)における受信装置である。   And this receiving apparatus receives not only a broadcast signal but the communication signal via the internet from a broadcast station. For this reason, the receiving device and the broadcasting station are wired or wirelessly connected. A receiving apparatus that receives both a broadcast signal and a communication signal is, for example, a receiving apparatus in Hybridcast (registered trademark), which is a basic system of a broadcast communication cooperation service.

(第1実施形態)
図1は、本発明の第1実施形態に係る受信装置1の概略構成を示す機能ブロック図である。本実施形態の受信装置1は、第1受信部3と、第2受信部5と、判断部7と、推定部9と、調整部11と、合成部13とを備える。第1受信部3は、判断部7と合成部13とに接続され、第2受信部5は判断部7と調整部11に接続されている。なお、図示は省略するが、受信装置1は、各機能を実現する処理内容を記述したプログラムを実行する制御部、例えば、CPU(中央処理装置)やDSP(デジタルシグナルプロセッサ)等を備えることができる。また、受信装置1は、各機能を実現する処理内容を記述したプログラムや各種情報を記憶し、また、バッファとしても機能可能な記憶部、例えば、RAM(Random Access Memory)等の揮発性の記憶媒体やROM(Read Only Memory)等の不揮発性の記憶媒体等を備えることができる。
(First embodiment)
FIG. 1 is a functional block diagram showing a schematic configuration of a receiving apparatus 1 according to the first embodiment of the present invention. The receiving device 1 of the present embodiment includes a first receiving unit 3, a second receiving unit 5, a determining unit 7, an estimating unit 9, an adjusting unit 11, and a combining unit 13. The first receiving unit 3 is connected to the determining unit 7 and the combining unit 13, and the second receiving unit 5 is connected to the determining unit 7 and the adjusting unit 11. Although not shown, the receiving device 1 includes a control unit that executes a program describing processing contents for realizing each function, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor), and the like. it can. In addition, the receiving device 1 stores a program describing various processing contents for realizing each function and various types of information, and a volatile storage such as a RAM (Random Access Memory) that can also function as a buffer. A non-volatile storage medium such as a medium or ROM (Read Only Memory) can be provided.

第1受信部3は、放送局によって放送された放送信号を受信し、放送信号を構成する番組映像と番組音声とを分離する。そして、第1受信部3は、番組音声をフレームごとに判断部7及び合成部13に送る。   The 1st receiving part 3 receives the broadcast signal broadcast by the broadcasting station, and isolate | separates the program video and program audio | voice which comprise a broadcast signal. Then, the first receiving unit 3 sends the program audio to the determining unit 7 and the synthesizing unit 13 for each frame.

第2受信部5は、放送局からインターネットを介して通信信号を受信するものである。本実施形態において通信信号は、レベル変化処理される前のダイアログ音声である。すなわち、上記の第1受信部3を介した番組音声に含まれるダイアログ音声と、第2受信部5を介したダイアログ音声とは、レベルが異なるものであり、また、レベルの差が時刻とともに変化する。なお、上記の第1受信部3から取得した番組音声に含まれるダイアログ音声と、第2受信部5から取得したダイアログ音声とは、レベルを除いては、時間軸上で同期する。第2受信部5は、受信したダイアログ音声をフレームごとに判断部7及び調整部11に送る。   The second receiving unit 5 receives a communication signal from the broadcasting station via the Internet. In this embodiment, the communication signal is a dialog sound before the level change process. That is, the dialog sound included in the program sound via the first receiving unit 3 and the dialog sound via the second receiving unit 5 have different levels, and the level difference changes with time. To do. The dialog sound included in the program sound acquired from the first receiving unit 3 and the dialog sound acquired from the second receiving unit 5 are synchronized on the time axis except for the level. The second reception unit 5 sends the received dialog voice to the determination unit 7 and the adjustment unit 11 for each frame.

判断部7は、番組音声及びダイアログ音声用の2つの入力を有し、それぞれ第1受信部3と第2受信部5とに接続されている。また、判断部7は番組音声及びダイアログ音声用の2つの出力を有し、それぞれ推定部9に接続されている。   The determination unit 7 has two inputs for program audio and dialog audio, and is connected to the first receiving unit 3 and the second receiving unit 5, respectively. The determination unit 7 has two outputs for program sound and dialog sound, and is connected to the estimation unit 9.

判断部7が、第1受信部3から取得した番組音声及び第2受信部5から取得したダイアログ音声に基づいて、各フレームの有効性を判断するための処理について、以下に説明する。なお、本実施形態において、番組音声及びダイアログ音声はデジタル信号として扱い、それらの信号は時間軸において適切なサンプリング周波数で標本化(サンプリング)されているものとする。また、以下の処理は、すべて所定の単位時間における、所定の周波数サンプル数を塊としたフレーム処理を前提とする。また、本実施形態において、番組音声を1chのモノ信号として説明するが、これに限られず、番組音声が2ch以上の場合にも、本発明は適用可能である。   A process for the determination unit 7 to determine the validity of each frame based on the program sound acquired from the first reception unit 3 and the dialog sound acquired from the second reception unit 5 will be described below. In the present embodiment, program audio and dialog audio are handled as digital signals, and these signals are sampled (sampled) at an appropriate sampling frequency on the time axis. The following processing is premised on frame processing in which a predetermined number of frequency samples are collected in a predetermined unit time. In this embodiment, the program sound is described as a mono signal of 1ch. However, the present invention is not limited to this, and the present invention can also be applied when the program sound is 2ch or more.

判断部7は、第2受信部5から取得したダイアログ音声のフレームエネルギーEdを算出する。ダイアログ音声のフレームエネルギーEd[dB]は、例えば以下の式により与えられる。   The determination unit 7 calculates the frame energy Ed of the dialog sound acquired from the second reception unit 5. The frame energy Ed [dB] of the dialog voice is given by the following equation, for example.

Figure 0006231762
ここで、d(n)はダイアログ音声の時間表現であり、abs()は絶対値、maxは最大値をとる関数である。またmは、log(0)を防ぐための、d(n)に比べて非常に小さな値である。フレームエネルギーEdは、フレーム内のダイアログ音声のエネルギーの最大値を表し、判断部7は、Edの値が所定の値よりも大きいフレームを、有意なエネルギーを有するフレームと判断する。本実施形態では、Ed>−20[dB]を満たしたフレームを、有意なエネルギーを有すると判断する。これにより、ダイアログ音声に含まれ得る、無音の時間(“ま”)からなるフレーム又は十分なエネルギーを有しないフレームを用いてゲイン量が推定されることを防ぐことができる。
Figure 0006231762
Here, d (n) is a time expression of dialog voice, abs () is an absolute value, and max is a function that takes a maximum value. Further, m is a very small value compared to d (n) for preventing log (0). The frame energy Ed represents the maximum value of the dialog voice energy in the frame, and the determination unit 7 determines that a frame having a value of Ed larger than a predetermined value is a frame having significant energy. In the present embodiment, it is determined that a frame that satisfies Ed> −20 [dB] has significant energy. As a result, it is possible to prevent the gain amount from being estimated using a frame consisting of a silent time (“ma”) or a frame that does not have sufficient energy, which can be included in the dialog voice.

さらに判断部7は、同一フレームの番組音声とダイアログ音声との類似性を求める。本実施形態において、判断部7は、フィルターバンクとして、離散フーリエ変換(FFT)を用いて番組音声及びダイアログ音声それぞれの振幅周波数特性を求める。ダイアログ音声の振幅周波数特性D(k)及び番組音声の振幅周波数特性B(k)は、以下の式により与えられる。   Further, the determination unit 7 obtains the similarity between the program sound and the dialog sound of the same frame. In this embodiment, the determination part 7 calculates | requires the amplitude frequency characteristic of each program audio | voice and dialog audio | voice using a discrete Fourier transform (FFT) as a filter bank. The amplitude frequency characteristic D (k) of the dialog sound and the amplitude frequency characteristic B (k) of the program sound are given by the following equations.

Figure 0006231762
ここで、d(n)はダイアログ音声の時間表現、b(n)は番組音声の時間表現であり、kは周波数上のサンプリングインデックスを表す。またFFT()は離散フーリエ変換を表し、abs()は絶対値をとる関数である。
Figure 0006231762
Here, d (n) is a time expression of dialog sound, b (n) is a time expression of program sound, and k represents a sampling index on the frequency. FFT () represents a discrete Fourier transform, and abs () is a function that takes an absolute value.

さらに、本実施形態において、判断部7は、番組音声の振幅周波数特性B(k)及びダイアログ音声の振幅周波数特性D(k)をそれぞれ複数の帯域に分割して、それぞれ同じ帯域成分同士の相関係数を計算する。なお、ダイアログ音声は、一般の音声信号と比較して、低い帯域にエネルギーが集中しているため、本実施形態においては、伝送された番組音声における一部の帯域のみを計算する。ここで、各フレームのサンプル数を2048とすると、離散フーリエ変換により周波数表現されたものは1024サンプルで表現することが可能である。本実施形態においては、時間サンプリング周波数を48kHzとし、簡易化のために計算の上限を5kHzと設定することにより、各フレームの1024周波数サンプルのうち、およそ200周波数サンプルについて計算する。また、本実施形態においては、200周波数サンプル以下の帯域を4分割する例を示すが、これに限られず、4分割よりも多い分割数又は少ない分割数で分割してもよく、また、帯域を分割せずに計算することも可能である。ダイアログ音声の振幅周波数特性D(k)及び番組音声の振幅周波数特性B(k)は、以下の式により帯域ごとに4分割される。   Further, in the present embodiment, the determination unit 7 divides the amplitude frequency characteristic B (k) of the program audio and the amplitude frequency characteristic D (k) of the dialog audio into a plurality of bands, respectively, Calculate the number of relationships. Note that since the dialog voice has energy concentrated in a lower band than a general voice signal, in this embodiment, only a part of the band in the transmitted program voice is calculated. Here, assuming that the number of samples in each frame is 2048, what is expressed by frequency by discrete Fourier transform can be expressed by 1024 samples. In the present embodiment, the time sampling frequency is set to 48 kHz, and the upper limit of calculation is set to 5 kHz for simplification, thereby calculating about 200 frequency samples among the 1024 frequency samples of each frame. In this embodiment, an example of dividing a band of 200 frequency samples or less into four is shown, but the present invention is not limited to this, and the band may be divided by more or less than four divisions. It is also possible to calculate without dividing. The amplitude frequency characteristic D (k) of the dialog sound and the amplitude frequency characteristic B (k) of the program sound are divided into four for each band by the following formula.

Figure 0006231762
さらに判断部7は、D(k)及びB(k)の帯域成分ごとの相関関数の最大値MCを以下の式により求める。
Figure 0006231762
Further, the determination unit 7 obtains the maximum value MC of the correlation function for each band component of D (k) and B (k) by the following formula.

Figure 0006231762
上式(5)のMCが1に近いほど、番組音声の帯域成分はダイアログ音声の同じ帯域成分と類似していることを示す。本実施形態においては、MC>0.9を満たしたフレームを類似度が高いと判断する。
Figure 0006231762
As MC in the above formula (5) is closer to 1, it indicates that the band component of the program sound is similar to the same band component of the dialog sound. In the present embodiment, it is determined that a frame satisfying MC> 0.9 has a high similarity.

判断部7は、ダイアログ音声のフレームエネルギーEd、ならびに番組音声とダイアログ音声との類似性に基づいて、各フレームの有効性を判断する。すなわち、判断部7は、上述したフレームエネルギーEd[dB]が、Ed>−20を満たし、且つ、帯域成分ごとの相関関数の最大値MCが、MC>0.9を満たすフレームを有効と判断する。そして、判断部7は、有効と判断されたフレームの番組音声及びダイアログ音声を推定部9に送る。   The determination unit 7 determines the validity of each frame based on the frame energy Ed of the dialog sound and the similarity between the program sound and the dialog sound. That is, the determination unit 7 determines that a frame in which the above-described frame energy Ed [dB] satisfies Ed> −20 and the maximum value MC of the correlation function for each band component satisfies MC> 0.9 is valid. Then, the determination unit 7 sends the program sound and dialog sound of the frame determined to be valid to the estimation unit 9.

なお、本実施形態においては、判断部7での処理を、番組音声及びダイアログ音声の時間表現b(n)、d(n)を用いて行っているが、第1受信部3及び第2受信部5でデコードされる前の番組音声及びダイアログ音声が、周波数領域で表現されている場合には、そのまま周波数領域で表現された番組音声及びダイアログ音声を用いて判断部7での処理を行うことも可能である。   In the present embodiment, the processing in the determination unit 7 is performed using the time expressions b (n) and d (n) of the program audio and the dialog audio, but the first reception unit 3 and the second reception are performed. When the program audio and dialog audio before being decoded by the unit 5 are expressed in the frequency domain, the program audio and dialog audio expressed in the frequency domain are used as they are to perform the processing in the determination unit 7 Is also possible.

推定部9は、判断部7で有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Gを推定する。ここで、ゲイン量Gとは、あるフレームのダイアログ音声にゲイン量Gを乗算することで、当該フレームの番組音声に含まれるダイアログ音声と同一のレベルが得られる値である。番組音声に含まれるダイアログ音声のゲイン量Gは、以下の式により与えられる。   The estimation unit 9 estimates the gain amount G of the dialog sound included in the program sound based on the program sound and the dialog sound of the frame determined to be valid by the determination unit 7. Here, the gain amount G is a value at which the same level as the dialog sound included in the program sound of the frame can be obtained by multiplying the dialog sound of a certain frame by the gain amount G. The gain amount G of the dialog sound included in the program sound is given by the following equation.

Figure 0006231762
Figure 0006231762

また、推定部9は、判断部7で有効と判断されなかったフレームのゲイン量Gを、1つ前のフレームのゲイン量Gと同一とする。なお、本実施形態において推定部9は、判断部7で最初のフレームが有効と判断されなかった場合には、当該フレームのゲイン量Gを1とする。推定部9は、各フレームのゲイン量Gを、調整部11に送る。   In addition, the estimation unit 9 sets the gain amount G of the frame that is not determined to be valid by the determination unit 7 to be the same as the gain amount G of the previous frame. In this embodiment, the estimation unit 9 sets the gain amount G of the frame to 1 when the determination unit 7 does not determine that the first frame is valid. The estimation unit 9 sends the gain amount G of each frame to the adjustment unit 11.

調整部11は、推定部9から取得したゲイン量Gに基づいて、第2受信部5から取得したダイアログ音声を調整する。すなわち、本実施形態において調整部11は、第2受信部5から取得したダイアログ音声を逆位相化するとともにゲイン量Gを乗算することにより、ダイアログ音声のレベルを調整する。したがって、本実施形態において、調整部11で調整されたダイアログ音声は、番組音声に含まれるダイアログ音声の逆位相信号となる。調整部11は、調整されたダイアログ音声を、合成部13に送る。   The adjustment unit 11 adjusts the dialog sound acquired from the second reception unit 5 based on the gain amount G acquired from the estimation unit 9. That is, in the present embodiment, the adjusting unit 11 adjusts the level of the dialog sound by dephasing the dialog sound acquired from the second receiving unit 5 and multiplying by the gain amount G. Therefore, in the present embodiment, the dialog sound adjusted by the adjusting unit 11 is an antiphase signal of the dialog sound included in the program sound. The adjustment unit 11 sends the adjusted dialog voice to the synthesis unit 13.

合成部13は、調整部11から取得した調整されたダイアログ音声と、第1受信部3から取得した番組音声とを合成する。本実施形態では、調整部11で調整されたダイアログ音声が、番組音声に含まれるダイアログ音声の逆位相信号であるため、合成部13の処理により、調整されたダイアログ音声と、番組音声に含まれるダイアログ音声とは打ち消しあうことになる。よって、合成部13は、番組音声からダイアログ音声が除去されたダイアログ音声除去番組音声(つまり、ダイアログ音声以外の音声)を、例えば音出力部(図示せず)に出力することができる。なお、番組音声が2ch以上の場合には、それぞれのチャンネルで上記手法を適用することによりダイアログ音声を取り去ることが可能である。   The synthesizing unit 13 synthesizes the adjusted dialog sound acquired from the adjusting unit 11 and the program sound acquired from the first receiving unit 3. In the present embodiment, since the dialog sound adjusted by the adjustment unit 11 is an antiphase signal of the dialog sound included in the program sound, the dialog sound adjusted by the synthesis unit 13 and the program sound are included in the program sound. Dialogue audio will be canceled out. Therefore, the synthesizing unit 13 can output the dialog sound-removed program sound (that is, sound other than the dialog sound) from which the dialog sound is removed from the program sound, for example, to a sound output unit (not shown). When the program sound is 2ch or more, the dialog sound can be removed by applying the above method to each channel.

続いて、図2を用いて、受信装置1の処理について説明する。図2は、本発明の第1実施形態に係る受信装置1の処理を示すフローチャートである。   Next, processing of the receiving device 1 will be described using FIG. FIG. 2 is a flowchart showing processing of the receiving device 1 according to the first embodiment of the present invention.

まず、第1受信部3は、放送局により放送された放送信号を受信し、放送信号から番組音声を取り出し、フレームごとに判断部7及び合成部13に送る(ステップS101)。そして、第2受信部5は、インターネット通信により、番組音声に含まれるダイアログ音声(通信信号)を放送局から受信し、フレームごとに判断部7及び調整部11に送る(ステップS102)。   First, the 1st receiving part 3 receives the broadcast signal broadcast by the broadcasting station, takes out a program audio | voice from a broadcast signal, and sends it to the judgment part 7 and the synthetic | combination part 13 for every flame | frame (step S101). Then, the second receiving unit 5 receives the dialog sound (communication signal) included in the program sound from the broadcasting station through the Internet communication, and sends it to the determination unit 7 and the adjustment unit 11 for each frame (step S102).

そして、判断部7は、番組音声及びダイアログ音声の各フレームの有効性を、ダイアログ音声のフレームエネルギー、ならびに番組音声とダイアログ音声との類似性に基づいて判断し、有効と判断されたフレームの番組音声及びダイアログ音声を推定部9に送る(ステップS103)。   Then, the determination unit 7 determines the validity of each frame of the program sound and the dialog sound based on the frame energy of the dialog sound and the similarity between the program sound and the dialog sound, and the program of the frame determined to be valid The voice and dialog voice are sent to the estimation unit 9 (step S103).

そして、推定部9は、有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Gを推定し、有効と判断されなかったフレームのゲイン量Gは、1つ前のフレームのゲイン量Gと同一として、各フレームのゲイン量Gを調整部11に送る(ステップS104)。   Then, the estimation unit 9 estimates the gain amount G of the dialog sound included in the program sound based on the program sound and dialog sound of the frame determined to be valid, and the gain amount G of the frame not determined to be effective is The gain amount G of each frame is sent to the adjustment unit 11 as the same as the gain amount G of the previous frame (step S104).

そして、調整部11は、第2受信部5から取得したダイアログ音声を逆位相化するとともにゲイン量Gを乗算して、ダイアログ音声を調整し、合成部13に送る(ステップS105)。   Then, the adjustment unit 11 dephases the dialog sound acquired from the second reception unit 5 and multiplies the dialog sound by the gain amount G, adjusts the dialog sound, and sends the dialog sound to the synthesis unit 13 (step S105).

そして、合成部13は、第1受信部3から取得した番組音声と、調整部11から取得した調整されたダイアログ音声とを合成する(ステップS106)。合成部13は、ダイアログ音声除去番組音声を出力することになる。   Then, the synthesizing unit 13 synthesizes the program audio acquired from the first receiving unit 3 and the adjusted dialog audio acquired from the adjusting unit 11 (step S106). The synthesizer 13 outputs the dialog sound removal program sound.

このように本実施形態では、判断部7は、番組音声及びダイアログ音声に基づいて、各フレームの有効性を判断し、推定部9は、有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Gを推定する。つまり、本実施形態における受信装置1は、有効なフレームに限定してゲイン量Gの推定を行うため、信頼性の高いゲイン量Gを得ることができる。その結果、受信した放送信号に含まれるダイアログ音声のみのレベルを調整することが可能となる。   As described above, in the present embodiment, the determination unit 7 determines the validity of each frame based on the program sound and the dialog sound, and the estimation unit 9 is based on the program sound and the dialog sound of the frame determined to be valid. Thus, the gain amount G of the dialog sound included in the program sound is estimated. That is, since the receiving apparatus 1 according to the present embodiment estimates the gain amount G only for valid frames, the gain amount G with high reliability can be obtained. As a result, it is possible to adjust the level of only the dialog sound included in the received broadcast signal.

また、本実施形態における受信装置1は、判断部7が、ダイアログ音声のフレームエネルギー、及び番組音声とダイアログ音声との類似性に基づいて、各フレームの有効性を判断する。つまり、レベル調整の対象であるダイアログ音声のうち、無音又は微小レベルの音声のフレームに対してはゲイン量Gの推定を行わず、ダイアログ音声が十分なエネルギーを有し、番組音声とダイアログ音声とが十分に類似したフレームに限定して、ゲイン量Gの推定を行うため、より信頼性の高いゲイン量Gを得ることができ、放送信号の番組音声に含まれるダイアログ音声のレベルを、より厳密に調整することが可能となる。また、本実施形態における受信装置1は、番組音声及びダイアログ音声の帯域を複数に分割して、少なくとも1つの帯域で類似性を有するフレームを有効と判断することにより、より信頼性の高いゲイン量Gを得ることができ、放送信号の番組音声に含まれるダイアログ音声のレベルを、より厳密に調整することが可能となる。また、本実施形態における受信装置1は、推定部109が、有効と判断されなかったフレームのゲイン量Gを、1つ前のフレームのゲイン量Gと同一とすることで、より信頼性の高いゲイン量Gを用いてダイアログ音声のレベルを調整することが可能となる。さらに、本実施形態における受信装置1は、調整部11がダイアログ音声を逆位相化してゲイン量Gを乗算することによりダイアログ音声を調整し、合成部13が調整したダイアログ音声と番組音声とを合成することにより、時刻とともにレベルが変化する番組音声に含まれるダイアログ音声のみを適切に消去することが可能となる。   In the receiving apparatus 1 according to the present embodiment, the determination unit 7 determines the validity of each frame based on the frame energy of the dialog sound and the similarity between the program sound and the dialog sound. That is, the gain amount G is not estimated with respect to a frame of silent or minute level audio among the dialog audio to be level-adjusted, the dialog audio has sufficient energy, and the program audio and the dialog audio Since the gain amount G is estimated only for frames that are sufficiently similar to each other, a more reliable gain amount G can be obtained, and the level of the dialog sound included in the program sound of the broadcast signal is more strict. It becomes possible to adjust to. Also, the receiving apparatus 1 in the present embodiment divides the program audio and dialog audio bands into a plurality of bands, and determines that a frame having similarity in at least one band is valid, thereby providing a more reliable gain amount. G can be obtained, and the level of the dialog sound included in the program sound of the broadcast signal can be adjusted more strictly. In addition, the receiving apparatus 1 according to the present embodiment is more reliable by the estimation unit 109 making the gain amount G of a frame that is not determined to be valid the same as the gain amount G of the previous frame. It is possible to adjust the level of the dialog sound using the gain amount G. Furthermore, in the receiving apparatus 1 according to the present embodiment, the adjusting unit 11 adjusts the dialog sound by dephasing the dialog sound and multiplying by the gain amount G, and synthesizes the dialog sound adjusted by the combining unit 13 and the program sound. By doing so, it is possible to appropriately delete only the dialog sound included in the program sound whose level changes with time.

(第2実施形態)
第1実施形態では、受信装置1の出力信号の1つとしてダイアログ音声除去番組音声を出力する場合について説明したが、第2実施形態では、ダイアログ音声除去番組音声に更なる信号を付加する場合について説明する。
(Second Embodiment)
In the first embodiment, the case where the dialog sound removal program sound is output as one of the output signals of the receiving apparatus 1 has been described. However, in the second embodiment, a case where a further signal is added to the dialog sound removal program sound. explain.

図3は、本発明の第2実施形態に係る受信装置101の概略構成を示す機能ブロック図である。本実施形態の受信装置101は、第1受信部103と、第2受信部105と、判断部107と、推定部109と、第1調整部111と、第1合成部113と、第2調整部112と、第2合成部114とを備える。第1受信部103、判断部107、推定部109、第1調整部111、及び第1合成部113の機能は、それぞれ対応する第1実施形態の第1受信部3、判断部7、推定部9、調整部11、及び合成部13の機能と同一であるため、説明は省略する。   FIG. 3 is a functional block diagram showing a schematic configuration of the receiving apparatus 101 according to the second embodiment of the present invention. The receiving apparatus 101 of this embodiment includes a first receiving unit 103, a second receiving unit 105, a determining unit 107, an estimating unit 109, a first adjusting unit 111, a first combining unit 113, and a second adjustment. Unit 112 and a second combining unit 114. The functions of the first receiving unit 103, the determining unit 107, the estimating unit 109, the first adjusting unit 111, and the first combining unit 113 correspond to the first receiving unit 3, the determining unit 7, and the estimating unit of the corresponding first embodiment. 9, since it is the same as the function of the adjustment part 11 and the synthetic | combination part 13, description is abbreviate | omitted.

本実施形態における第2受信部105は、放送局からインターネットを介して通信信号を受信し、受信したダイアログ音声を判断部107、第1調整部111、及び第2調整部112に送る。   The second receiving unit 105 in the present embodiment receives a communication signal from a broadcasting station via the Internet, and sends the received dialog sound to the determination unit 107, the first adjustment unit 111, and the second adjustment unit 112.

第2調整部112は、第2受信部105から取得したダイアログ音声に所定の値を乗算して調整し、調整されたダイアログ音声を第2合成部114に送る。   The second adjustment unit 112 multiplies the dialog voice acquired from the second reception unit 105 by a predetermined value for adjustment, and sends the adjusted dialog voice to the second synthesis unit 114.

第2合成部114は、第2調整部112から取得した調整されたダイアログ音声と、第1合成部113から取得したダイアログ音声除去番組音声とを合成する。これにより、番組音声に含まれるレベル変化処理されたダイアログ音声を、第2調整部112で適切に調整されたダイアログ音声に置き換えた番組音声を出力することができる。なお、第2調整部112においてダイアログ音声に乗算する所定の値は、予め受信装置101で設定された値としてもよいし、あるいは、例えば受信装置101がボリューム用つまみ等の入力部を備え、当該入力部の操作によりユーザが適宜入力した値とすることもできる。   The second synthesis unit 114 synthesizes the adjusted dialog sound acquired from the second adjustment unit 112 and the dialog sound removal program sound acquired from the first synthesis unit 113. As a result, it is possible to output the program sound obtained by replacing the dialog sound subjected to the level change process included in the program sound with the dialog sound appropriately adjusted by the second adjustment unit 112. Note that the predetermined value multiplied by the dialog voice in the second adjustment unit 112 may be a value set in advance by the receiving device 101, or the receiving device 101 includes an input unit such as a volume knob, for example. It can also be a value appropriately input by the user by operating the input unit.

続いて、図4を用いて、受信装置101の処理について説明する。図4は、本発明の第2実施形態に係る受信装置101の処理を示すフローチャートである。   Subsequently, processing of the reception apparatus 101 will be described with reference to FIG. FIG. 4 is a flowchart showing processing of the receiving apparatus 101 according to the second embodiment of the present invention.

まず、第1実施形態におけるステップS101と同様、第1受信部103は、放送局により放送された放送信号を受信し、放送信号から番組音声を取り出し、フレームごとに判断部107及び第1合成部113に送る(ステップS201)。そして、第2受信部105は、インターネット通信により、番組音声に含まれるダイアログ音声(通信信号)を放送局から受信し、フレームごとに判断部107、第1調整部111、及び第2調整部102に送る(ステップS202)。   First, similarly to step S101 in the first embodiment, the first receiving unit 103 receives a broadcast signal broadcast by a broadcasting station, extracts program audio from the broadcast signal, and determines the determination unit 107 and the first combining unit for each frame. 113 (step S201). Then, the second receiving unit 105 receives the dialog sound (communication signal) included in the program sound from the broadcasting station by Internet communication, and determines the determination unit 107, the first adjustment unit 111, and the second adjustment unit 102 for each frame. (Step S202).

そして、判断部107は、第1実施形態におけるステップS103と同様、番組音声及びダイアログ音声の各フレームの有効性を、ダイアログ音声のフレームエネルギーEd、ならびに番組音声とダイアログ音声との類似性に基づいてから判断し、番組音声及びダイアログ音声の有効と判断されたフレームを推定部109に送る(ステップS203)。   Then, as in step S103 in the first embodiment, the determination unit 107 determines the validity of each frame of the program audio and the dialog audio based on the frame energy Ed of the dialog audio and the similarity between the program audio and the dialog audio. The frame determined to be valid for the program audio and the dialog audio is sent to the estimation unit 109 (step S203).

そして、推定部109は、第1実施形態におけるステップS104と同様、有効と判断されたフレームの番組音声及びダイアログ音声に基づいて、番組音声に含まれるダイアログ音声のゲイン量Gを推定し、有効と判断されなかったフレームのゲイン量Gは、1つ前のフレームのゲイン量Gと同一として、各フレームのゲイン量Gを第1調整部111に送る(ステップS204)。   Then, as in step S104 in the first embodiment, the estimation unit 109 estimates the gain amount G of the dialog sound included in the program sound based on the program sound and the dialog sound of the frame determined to be valid, and The gain amount G of the frame that has not been determined is assumed to be the same as the gain amount G of the previous frame, and the gain amount G of each frame is sent to the first adjustment unit 111 (step S204).

そして、第1調整部111は、第1実施形態におけるステップS105と同様、ダイアログ音声を逆位相化するとともにゲイン量Gを乗算することによりダイアログ音声を調整し、第1合成部113に送る(ステップS205)。   Then, the first adjustment unit 111 adjusts the dialog voice by dephasing the dialog voice and multiplying it by the gain amount G, and sends it to the first synthesis unit 113 (step S105), as in step S105 in the first embodiment. S205).

そして、第1合成部113は、第1実施形態におけるステップS106と同様、第1受信部103から取得した番組音声と、第1調整部111から取得した調整されたダイアログ音声とを合成する(ステップS206)。   Then, the first synthesizing unit 113 synthesizes the program audio acquired from the first receiving unit 103 and the adjusted dialog audio acquired from the first adjusting unit 111 (step S106 in the first embodiment). S206).

そして、第2調整部112は、ダイアログ音声に所定の値を乗算して、ダイアログ音声を調整し、第2合成部114に送る(ステップS207)。   Then, the second adjustment unit 112 adjusts the dialog sound by multiplying the dialog sound by a predetermined value, and sends the dialog sound to the second synthesis unit 114 (step S207).

そして、第2合成部114は、第1合成部113で合成された、ダイアログ音声除去番組音声と、第2調整部112から取得した調整されたダイアログ音声とを合成する(ステップS208)。第2合成部114は、番組音声に含まれたレベル変化処理されたダイアログ音声を、第2調整部112で適切に調整されたダイアログ音声に置き換えた番組音声を出力することになる。   Then, the second synthesizing unit 114 synthesizes the dialog sound removing program sound synthesized by the first synthesizing unit 113 and the adjusted dialog sound acquired from the second adjusting unit 112 (step S208). The second synthesizing unit 114 outputs the program sound obtained by replacing the dialog sound subjected to the level change process included in the program sound with the dialog sound appropriately adjusted by the second adjusting unit 112.

このように本実施形態における受信装置101は、受信した放送信号に含まれるダイアログ音声を消去し、さらに第2調整部112で適切に調整されたダイアログ音声を合成することにより、所望のレベルのダイアログ音声を含む番組音声を出力することが可能となる。   As described above, the receiving apparatus 101 according to the present embodiment deletes the dialog sound included in the received broadcast signal, and further synthesizes the dialog sound appropriately adjusted by the second adjustment unit 112, so that the dialog at a desired level is obtained. It is possible to output program audio including audio.

かくして本発明によって、受信した放送信号に含まれるダイアログ音声のみのレベルを調整できる受信装置及びプログラムを提供することが可能となった。   Thus, according to the present invention, it is possible to provide a receiving apparatus and a program that can adjust the level of only dialog sound included in the received broadcast signal.

1、101 受信装置
3、103 第1受信部
5、105 第2受信部
7、107 判断部
9、109 推定部
11、111 調整部(第1調整部)
13、113 合成部(第1合成部)
112 第2調整部
114 第2合成部
DESCRIPTION OF SYMBOLS 1,101 Receiving device 3,103 1st receiving part 5,105 2nd receiving part 7,107 Judgment part 9,109 Estimating part 11,111 Adjustment part (1st adjustment part)
13, 113 synthesis unit (first synthesis unit)
112 2nd adjustment part 114 2nd synthetic | combination part

Claims (7)

放送された番組音声を受信する第1受信部と、
インターネット通信により前記番組音声のダイアログ音声を受信する第2受信部と、
前記番組音声及び前記ダイアログ音声に基づいて、各フレームの有効性を判断する判断部と、
前記判断部で有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定する推定部と、
前記ゲイン量に基づいて前記ダイアログ音声を調整する調整部と、
前記調整部で調整された前記ダイアログ音声と前記番組音声との合成を行う合成部と、を備える受信装置。
A first receiver for receiving broadcast program audio;
A second receiver for receiving the dialog voice of the program voice by Internet communication;
A determination unit that determines the validity of each frame based on the program sound and the dialog sound;
An estimation unit configured to estimate a gain amount of a dialog sound included in the program sound based on the program sound and the dialog sound of the frame determined to be valid by the determination unit;
An adjusting unit for adjusting the dialog sound based on the gain amount;
A receiving device comprising: a synthesizing unit that synthesizes the dialog sound adjusted by the adjusting unit and the program sound.
前記判断部が、前記ダイアログ音声のフレームエネルギー、及び前記番組音声と前記ダイアログ音声との類似性に基づいて、前記各フレームの有効性を判断する、請求項1に記載の受信装置。   The receiving apparatus according to claim 1, wherein the determination unit determines the validity of each frame based on frame energy of the dialog sound and similarity between the program sound and the dialog sound. 前記判断部が、前記番組音声及び前記ダイアログ音声の帯域を複数に分割して、少なくとも1つの帯域で類似性を有するフレームを有効と判断する、請求項2に記載の受信装置。   The receiving device according to claim 2, wherein the determination unit divides a band of the program audio and the dialog audio into a plurality of frames and determines that a frame having similarity in at least one band is valid. 前記推定部が、有効と判断されなかったフレームの前記ゲイン量を、1つ前のフレームのゲイン量と同一とする、請求項1〜3の何れか一項に記載の受信装置。   The receiving apparatus according to any one of claims 1 to 3, wherein the estimation unit makes the gain amount of a frame that is not determined to be valid the same as the gain amount of the previous frame. 前記調整部が、前記ダイアログ音声を逆位相化して前記ゲイン量を乗算することにより、前記ダイアログ音声を調整する、請求項1〜4の何れか一項に記載の受信装置。   The receiving device according to any one of claims 1 to 4, wherein the adjustment unit adjusts the dialog voice by dephasing the dialog voice and multiplying the gain by the gain amount. 前記合成部で合成した結果と、第2受信部によって受信したダイアログ音声のうち、前記ダイアログ音声とは異なるダイアログ音声とを更に合成する第2合成部を備える、請求項1〜5の何れか一項に記載の受信装置。 6. The apparatus according to claim 1, further comprising: a second synthesis unit that further synthesizes the result synthesized by the synthesis unit and the dialog voice different from the dialog voice among the dialog voices received by the second reception unit. The receiving device according to item. 受信装置のコンピュータに、
放送された番組音声を取得するステップと、
インターネット通信により前記番組音声のダイアログ音声を取得するステップと、
前記番組音声と前記ダイアログ音声に基づいて、各フレームの有効性を判断するステップと、
有効と判断されたフレームの前記番組音声及び前記ダイアログ音声に基づいて、前記番組音声に含まれるダイアログ音声のゲイン量を推定するステップと、
前記ゲイン量に基づいて前記ダイアログ音声を調整するステップと、
前記調整するステップで調整された前記ダイアログ音声及び前記番組音声の合成を行うステップと、を実行させるためのプログラム。
In the computer of the receiving device,
Obtaining broadcast program audio; and
Obtaining a dialog sound of the program sound by Internet communication;
Determining the validity of each frame based on the program audio and the dialog audio;
Estimating a gain amount of the dialog sound included in the program sound based on the program sound and the dialog sound of the frame determined to be valid;
Adjusting the dialog sound based on the gain amount;
A program for executing the step of synthesizing the dialog sound and the program sound adjusted in the adjusting step .
JP2013082330A 2013-04-10 2013-04-10 Receiving apparatus and program Active JP6231762B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013082330A JP6231762B2 (en) 2013-04-10 2013-04-10 Receiving apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013082330A JP6231762B2 (en) 2013-04-10 2013-04-10 Receiving apparatus and program

Publications (2)

Publication Number Publication Date
JP2014206559A JP2014206559A (en) 2014-10-30
JP6231762B2 true JP6231762B2 (en) 2017-11-15

Family

ID=52120172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013082330A Active JP6231762B2 (en) 2013-04-10 2013-04-10 Receiving apparatus and program

Country Status (1)

Country Link
JP (1) JP6231762B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6508831B2 (en) * 2015-09-29 2019-05-08 シャープ株式会社 Receiving device, receiving method, broadcast system and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114982A1 (en) * 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5586511B2 (en) * 2011-03-25 2014-09-10 日本放送協会 Synchronous control device and program

Also Published As

Publication number Publication date
JP2014206559A (en) 2014-10-30

Similar Documents

Publication Publication Date Title
US8891778B2 (en) Speech enhancement
US10311880B2 (en) System for perceived enhancement and restoration of compressed audio signals
JP5461437B2 (en) Apparatus and method for synchronization of multi-channel extension data with audio signals and processing of audio signals
EP2291002B1 (en) Acoustic processing apparatus
US8885839B2 (en) Signal processing method and apparatus
JP2017507348A (en) Signal quality based enhancement and compensation of compressed audio signals
KR20190085988A (en) Method and Apparatus for Adaptive Control of Correlation Release Filters
EP2984857A1 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US11238882B2 (en) Dry sound and ambient sound separation
JP2015070589A (en) Sound field measuring apparatus, sound field measuring method and sound field measuring program
WO2018066383A1 (en) Information processing device and method, and program
US9913036B2 (en) Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
CN110996238B (en) Binaural synchronous signal processing hearing aid system and method
CN109791773B (en) Audio output generation system, audio channel output method, and computer readable medium
JP6231762B2 (en) Receiving apparatus and program
JP4922427B2 (en) Signal correction device
JP6078358B2 (en) Noise reduction device, broadcast reception device, and noise reduction method
CN106328159B (en) Audio stream processing method and device
JP6196437B2 (en) Receiver and program
KR102721794B1 (en) Signal processing processor and controlling method thereof
JP6531418B2 (en) Signal processor
JP2016208189A (en) Program audio channel number conversion device, broadcast program receiver and program audio channel number conversion program
Ritcher et al. Automated Method of Noise Removal from Multichannel Audio
JP2014219470A (en) Speech processing device and program
JP2017175390A (en) Noise level estimation device, receiving device and noise level estimation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171020

R150 Certificate of patent or registration of utility model

Ref document number: 6231762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250