KR102290417B1 - Method and apparatus for 3D sound reproducing using active downmix - Google Patents
Method and apparatus for 3D sound reproducing using active downmix Download PDFInfo
- Publication number
- KR102290417B1 KR102290417B1 KR1020210019367A KR20210019367A KR102290417B1 KR 102290417 B1 KR102290417 B1 KR 102290417B1 KR 1020210019367 A KR1020210019367 A KR 1020210019367A KR 20210019367 A KR20210019367 A KR 20210019367A KR 102290417 B1 KR102290417 B1 KR 102290417B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- channel
- downmix matrix
- input channel
- modified
- Prior art date
Links
- 238000000034 method Methods 0.000 title description 94
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000009877 rendering Methods 0.000 claims description 56
- 230000005236 sound signal Effects 0.000 claims description 54
- 238000004091 panning Methods 0.000 description 13
- 230000001066 destructive effect Effects 0.000 description 7
- 230000006866 deterioration Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 210000005069 ears Anatomy 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 235000009508 confectionery Nutrition 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
높이 입력 채널 신호를 포함하는 복수의 입력 채널 신호를 수신하고, 복수의 입력 채널 신호에 기초하여 위상 정렬을 위한 파라미터를 생성하고, 복수의 입력 채널 신호의 제1 주파수 범위를 위상 정렬하기 위해, 위상 정렬을 위한 파라미터에 기초하여 제1 다운믹스 매트릭스를 수정하고, 복수의 입력 채널 신호의 모든 주파수 범위를 위상 정렬하기 위해, 위상 정렬을 위한 파라미터에 기초하여 제2 다운믹스 매트릭스를 수정하고, 수정된 제1 다운믹스 매트릭스 및 수정된 제2 다운믹스 매트릭스 중 하나에 기초하여 복수의 입력 채널 신호를 복수의 출력 채널 신호로 다운믹싱하는 단계를 포함하고, 제1 주파수 범위는 2.8 kHz 미만 및 10 kHz 초과를 포함하고, 높이 입력 채널 신호는 고도 정보에 기초하여 식별되고, 수정된 제1 다운믹스 매트릭스는 일반 장면을 위해 사용되고 수정된 제2 다운믹스 매트릭스는 고도로 디코릴레이트된(highly decorrelated) 광대역 장면을 위해 사용되고, 다운믹싱하는 것은 수신된 플래그에 따라 선택되는 수정된 제1 다운믹스 매트릭스 및 수정된 제2 다운믹스 매트릭스 중 하나에 의해 수행되는 것인, 오디오 신호 렌더링 방법이 개시된다.Receive a plurality of input channel signals including a height input channel signal, generate a parameter for phase alignment based on the plurality of input channel signals, and phase align a first frequency range of the plurality of input channel signals; modify the first downmix matrix based on the parameter for the alignment, modify the second downmix matrix based on the parameter for the phase alignment, to phase align all frequency ranges of the plurality of input channel signals, and downmixing the plurality of input channel signals into a plurality of output channel signals based on one of the first downmix matrix and the modified second downmix matrix, wherein the first frequency range is less than 2.8 kHz and greater than 10 kHz wherein a height input channel signal is identified based on the elevation information, a first modified downmix matrix is used for a general scene and a second modified downmix matrix is used for a highly decorrelated wideband scene. and downmixing is performed by one of a modified first downmix matrix and a modified second downmix matrix selected according to a received flag.
Description
본 발명은 입체 음향 재생 방법 및 장치에 관한 것으로, 특히 고도감을 제공하는 다채널 오디오 신호를 재생하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for reproducing a stereophonic sound, and more particularly, to a method and apparatus for reproducing a multi-channel audio signal providing a sense of height.
영상 및 음향 처리 기술의 발달에 힘입어 고화질 고음질의 컨텐츠가 다량 생산되고 있다. 고화질 고음질의 컨텐츠를 요구하던 사용자는 현실감 있는 영상 및 음향을 원하고 있으며, 이에 따라 입체 영상 및 입체 음향에 대한 연구가 활발히 진행되고 있다. Thanks to the development of image and sound processing technology, high-definition and high-quality content is being produced in large quantities. Users who have requested high-definition and high-quality content want realistic images and sounds, and accordingly, research on stereoscopic images and stereophonic sounds is being actively conducted.
입체 음향은 복수 개의 스피커를 수평면상의 다른 위치에 배치하고, 각각의 스피커에서 동일한 또는 상이한 음향 신호를 출력함으로써 사용자가 공간감을 느끼도록 하는 기술이다. 그러나, 실제 음향은 수평면상의 다양한 위치에서 발생할 뿐만 아니라 상이한 고도에서도 발생할 수 있다. 따라서, 상이한 고도에서 발생하는 음향 신호를 수평면상에 배치된 스피커를 통해 재생하는 기술이 필요하다.Stereoscopic sound is a technology that allows a user to feel a sense of space by arranging a plurality of speakers at different positions on a horizontal plane and outputting the same or different sound signals from each speaker. However, actual sound can occur not only at various locations on the horizontal plane, but also at different altitudes. Accordingly, there is a need for a technique for reproducing sound signals generated at different altitudes through speakers arranged on a horizontal plane.
본 발명은 입체 음향 재생 방법 및 장치에 관한 것으로, 다운 믹스 방식에 따라 입체 음향을 재생하는 방법에 관한 것입니다.The present invention relates to a method and apparatus for reproducing a stereophonic sound, and to a method for reproducing a stereophonic sound according to a downmix method.
실시 예에 의한 오디오 신호 렌더링 방법은 높이 입력 채널 신호를 포함하는 복수의 입력 채널 신호를 수신하는 단계, 상기 복수의 입력 채널 신호에 기초하여 위상 정렬을 위한 파라미터를 생성하는 단계, 상기 복수의 입력 채널 신호의 제1 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제1 다운믹스 매트릭스를 수정하는 단계, 상기 복수의 입력 채널 신호의 모든 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제2 다운믹스 매트릭스를 수정하는 단계 및 상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 기초하여 상기 복수의 입력 채널 신호를 복수의 출력 채널 신호로 다운믹싱하는 단계를 포함하고, 상기 제1 주파수 범위는 2.8 kHz 미만 및 10 kHz 초과를 포함하고, 상기 높이 입력 채널 신호는 고도 정보에 기초하여 식별되고, 상기 수정된 제1 다운믹스 매트릭스는 일반 장면을 위해 사용되고 상기 수정된 제2 다운믹스 매트릭스는 고도로 디코릴레이트된(highly decorrelated) 광대역 장면을 위해 사용되고, 상기 다운믹싱하는 단계는 수신된 플래그에 따라 선택되는 상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 의해 수행되는 것일 수 있다. An audio signal rendering method according to an embodiment includes receiving a plurality of input channel signals including a height input channel signal, generating a parameter for phase alignment based on the plurality of input channel signals, the plurality of input channels modifying a first downmix matrix based on the parameter for phase alignment to phase align a first frequency range of a signal, to phase align all frequency ranges of the plurality of input channel signals, the phase alignment modifying a second downmix matrix based on a parameter for wherein the first frequency range includes less than 2.8 kHz and greater than 10 kHz, wherein the height input channel signal is identified based on elevation information, and wherein the modified first downmix matrix is a general the modified second downmix matrix is used for a scene and is used for a highly decorrelated wideband scene, wherein the downmixing comprises the modified first downmix matrix selected according to a received flag and It may be performed by one of the modified second downmix matrices.
실시 예에 따른 오디오 신호 렌더링 장치는 프로세서 및 상기 프로세서에 의해 실행되는 적어도 하나의 인스트럭션을 저장하는 메모리를 포함하고, 상기 프로세서는 높이 입력 채널 신호를 포함하는 복수의 입력 채널 신호를 수신하고, 상기 복수의 입력 채널 신호에 기초하여 위상 정렬을 위한 파라미터를 생성하고, 상기 복수의 입력 채널 신호의 제1 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제1 다운믹스 매트릭스를 수정하고, 상기 복수의 입력 채널 신호의 모든 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제2 다운믹스 매트릭스를 수정하고, 및 상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 기초하여 상기 복수의 입력 채널 신호를 복수의 출력 채널 신호로 다운믹싱하고, 여기서, 상기 제1 주파수 범위는 2.8 kHz 미만 및 10 kHz 초과를 포함하고, 상기 높이 입력 채널 신호는 고도 정보에 기초하여 식별되고, 상기 수정된 제1 다운믹스 매트릭스는 일반 장면을 위해 사용되고 상기 수정된 제2 다운믹스 매트릭스는 고도로 디코릴레이트된(highly decorrelated) 광대역 장면을 위해 사용되고, 상기 다운믹싱은 수신된 플래그에 따라 선택되는 상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 의해 수행될 수 있다. An audio signal rendering apparatus according to an embodiment includes a processor and a memory storing at least one instruction executed by the processor, wherein the processor receives a plurality of input channel signals including a height input channel signal, and the plurality of generate a parameter for phase alignment based on the input channel signal of , modify a second downmix matrix based on the parameter for the phase alignment to phase align all frequency ranges of the plurality of input channel signals, and the modified first downmix matrix and the modified second downmix the plurality of input channel signals into a plurality of output channel signals based on one of a downmix matrix, wherein the first frequency range comprises less than 2.8 kHz and greater than 10 kHz, and wherein the height input channel signal comprises: identified based on elevation information, wherein the modified first downmix matrix is used for a general scene and the modified second downmix matrix is used for a highly decorrelated wideband scene, wherein the downmixing is one of the modified first downmix matrix and the modified second downmix matrix selected according to the received flag.
본 발명의 일 실시 예에 의하면, 액티브다운 믹스 방식에 따라 음향 신호 믹싱을 수행할 때, 고도감이 감소되지 않게 믹싱을 수행할 수 있다.According to an embodiment of the present invention, when performing acoustic signal mixing according to the active-down mixing method, the mixing may be performed so that the sense of height is not reduced.
본 발명의 일 실시 예에 있어서, 액티브다운 믹스 방식에 의한 효과가 실질적으로 나타날 수 있는 저주파 신호에 대하여 액티브다운 믹스 방식을 적용함으로써 액티브다운 믹스 방식에 따라 믹싱되는 경우 발생될 수 있는 연산량 증가 및 고도감 저하를 최소화할 수 있다.In an embodiment of the present invention, by applying the active-down mixing method to a low-frequency signal in which the effect of the active-down mixing method can be substantially exhibited, the amount of calculation that may be generated when mixing according to the active-down mixing method is increased and high It is possible to minimize the deterioration of sense.
도 1 및 도 2는 본 발명의 일 실시 예에 의한 입체 음향 재생 장치의 내부 구조를 나타낸 블록도이다.
도 3은 본 발명의 일 실시 예에 있어서, 3D 렌더러 및 믹서의 내부 구조를 나타낸 블록도이다.
도 4 및 도 5는 본 발명의 일 실시 예에 의한 입체 음향 재생 방법을 도시한 순서도이다.
도 6은 본 발명의 일 실시 예에 의한 액티브다운 믹싱 방식의 일 예를 나타낸 예시도이다.1 and 2 are block diagrams illustrating an internal structure of a stereophonic sound reproducing apparatus according to an embodiment of the present invention.
3 is a block diagram illustrating internal structures of a 3D renderer and a mixer according to an embodiment of the present invention.
4 and 5 are flowcharts illustrating a 3D sound reproduction method according to an embodiment of the present invention.
6 is an exemplary diagram illustrating an example of an active-down mixing method according to an embodiment of the present invention.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, detailed descriptions of well-known functions or configurations that may obscure the gist of the present invention in the following description and accompanying drawings will be omitted. Also, it should be noted that throughout the drawings, the same components are denoted by the same reference numerals as much as possible.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.The terms or words used in the present specification and claims described below should not be construed as being limited to conventional or dictionary meanings, and the inventor shall appropriately define his or her invention in terms of the best way to describe it. Based on the principle that it can be done, it should be interpreted as meaning and concept consistent with the technical idea of the present invention. Therefore, the embodiments described in this specification and the configurations shown in the drawings are only the most preferred embodiment of the present invention, and do not represent all the technical ideas of the present invention, so at the time of the present application, various It should be understood that there may be equivalents and variations.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part "includes" a certain element throughout the specification, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art can easily carry out the present invention. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings.
도 1 및 도 2는 본 발명의 일 실시 예에 의한 입체 음향 재생 장치의 내부 구조를 나타낸 블록도이다.1 and 2 are block diagrams illustrating an internal structure of a stereophonic sound reproducing apparatus according to an embodiment of the present invention.
본 발명의 일 실시 예에 의한 입체 음향 재생 장치(100)는 재생될 채널로 다운 믹싱된 다채널 오디오 신호를 출력할 수 있다. The stereoscopic
입체 음향이란, 음의 고저, 음색뿐만 아니라 방향이나 거리감까지 재생하여 임장감을 가지게 하고, 음원이 발생한 공간에 위치하지 않은 청취자에게 방향감, 거리감 및 공간감을 지각할 수 있게 하는 공간 정보를 부가한 음향을 의미한다.Stereophonic sound is a sound to which spatial information is added, which reproduces not only the pitch and tone of the sound, but also the direction and sense of distance to have a sense of presence, and to allow listeners who are not located in the space where the sound source is located to perceive the sense of direction, distance, and space. it means.
이하 설명에서 오디오 신호의 채널은 음향이 출력되는 스피커의 개수를 의미할 수 있다. 채널 수가 많을수록, 음향이 출력되는 스피커의 개수가 많아질 수 있다. 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(100)는 채널 수가 많은 다채널 오디오 신호가 채널 수가 적은 환경에서 출력되고 재생될 수 있도록 다채널 오디오 신호를 재생될 채널로 렌더링하고 믹싱할 수 있다. 이때 다채널 오디오 신호는 고도 음향을 출력할 수 있는 채널을 포함할 수 있다. In the following description, a channel of an audio signal may mean the number of speakers from which sound is output. As the number of channels increases, the number of speakers outputting sound may increase. The stereophonic
고도 음향을 출력할 수 있는 채널은 고도감을 느낄 수 있도록 청취자의 머리 위에 위치한 스피커를 통해 음향 신호를 출력할 수 있는 채널을 의미할 수 있다. 수평면 채널은 청취자와 수평한 면에 위치한 스피커를 통해 음향 신호를 출력할 수 있는 채널을 의미할 수 있다.A channel capable of outputting a high-level sound may mean a channel capable of outputting an acoustic signal through a speaker located above a listener's head so as to feel a sense of elevation. The horizontal plane channel may mean a channel capable of outputting an acoustic signal through a speaker positioned on a horizontal plane with the listener.
상술된 채널 수가 적은 환경은 고도 음향을 출력할 수 있는 채널을 포함하지 않고, 수평면 채널에 따라 수평면 상에 배치된 스피커를 통해 음향을 출력할 수 있는 환경을 의미할 수 있다.The above-described environment in which the number of channels is small may mean an environment in which a sound may be output through a speaker disposed on a horizontal plane according to a horizontal plane channel without including a channel capable of outputting a high-level sound.
*또한, 이하 설명에서 수평면 채널(horizontal channel)은 수평면 상에 배치된 스피커를 통해 출력될 수 있는 오디오 신호를 포함하는 채널을 의미할 수 있다. 오버헤드 채널(Overhead channel)은 수평면이 아닌 고도 상에 배치되어 고도음을 출력할 수 있는 스피커를 통해 출력될 수 있는 오디오 신호를 포함하는 채널을 의미할 수 있다.* Also, in the following description, a horizontal channel may mean a channel including an audio signal that may be output through a speaker disposed on a horizontal plane. The overhead channel may refer to a channel including an audio signal that is disposed on an elevation rather than a horizontal plane and may be output through a speaker capable of outputting an elevation sound.
도 1을 참조하면, 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(100)는 렌더러(110) 및 믹서(120)를 포함할 수 있다. 그러나 도시된 구성요소가 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 입체 음향 재생 장치(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 입체 음향 재생 장치(100)가 구현될 수 있다.Referring to FIG. 1 , a stereoscopic
이하 상기 구성요소들에 대해 차례로 살펴본다.Hereinafter, the components will be described in turn.
본 발명의 일 실시 예에 의한, 입체 음향 재생 장치(100)는 다채널 오디오 신호를 렌더링하고, 믹싱하여 재생될 채널로 출력할 수 있다. 예를 들면, 다채널 오디오 신호는 22.2 채널 신호이고, 재생될 채널은 5.1 또는 7.1 채널일 수 있다. 입체 음향 재생 장치(100)는 다채널 오디오 신호의 각 채널들을 대응시킬 채널을 정함으로써 렌더링을 수행하고 재생될 채널과 대응된 각 채널들의 신호를 합쳐 최종 신호로 출력함으로써 렌더링된 오디오 신호들을 믹싱할 수 있다.According to an embodiment of the present invention, the 3D
렌더러(110)는 다채널 오디오 신호를 채널 및 주파수에 따라 렌더링할 수 있다. 렌더러(110)는 다채널 오디오 신호를 오버헤드 채널과 수평면 채널에 따른 신호를 각각 3D(dimensional) 렌더링 및 2D(dimensional) 렌더링할 수 있다. The
렌더러(110)는 오버헤드 채널을 3D 렌더링하기 위해 HRTF(Head Related Transfer filter) 변형 필터를 통과한 오버헤드 채널을 주파수에 따라 각각 다른 방법으로 렌더링할 수 있다. HRTF 변형 필터는 두 귀간의 레벨 차이 및 두 귀 간에서 음향 시간이 도달하는 시간 차이 등의 단순한 경로 차이뿐만 아니라, 머리 표면에서의 회절, 귓바퀴에 의한 반사 등 복잡한 경로상의 특성이 음의 도래 방향에 따라 변화하는 현상에서 발생하는 음색의 변형을 적용시켜 다른 방향에서 도달하는 음향의 음색으로 변형시킨다. HRTF 변형 필터는 오디오 신호의 음질을 변화시킴으로써 입체 음향이 인식될 수 있도록 오버헤드 채널에 포함된 오디오 신호들을 처리할 수 있다.The
렌더러(110)는 오버해드 채널 신호 중 저주파 신호에 대하여는 애드-투-클로지스트-채널(Add to the closest channel) 방법에 따라 렌더링하고, 고주파 신호에 대하여는 멀티채널 패닝(Multichannel panning) 방법에 따라 렌더링할 수 있다. 멀티 채널 패닝 방법에 의하면, 다채널 오디오 신호의 각 채널의 신호가 각 채널 신호에 렌더링될 채널마다 서로 다르게 설정된 게인 값이 적용되어 적어도 하나의 수평면 채널에 각각 렌더링될 수 있다. 게인 값이 적용된 각 채널의 신호들은 믹싱을 통해 합쳐짐으로써 최종 신호로 출력될 수 있다.The
저주파 신호는 회절성이 강하므로, 멀티 채널 패닝 방법에 따라 다채널 오디오 신호의 각 채널을 여러 채널에 각각 나누어 렌더링하지 않고, 하나의 채널에만 렌더링하여도 청취자가 듣기에 비슷한 음질을 가질 수 있다. 따라서, 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(100)는 저주파 신호를 애드-투-클로지스트-채널 방법에 따라 랜더링함으로써 하나의 출력 채널에 여러 채널이 믹싱됨에 따라 발생될 수 있는 음질 열화를 방지할 수 있다. 즉, 하나의 출력 채널에 여러 채널이 믹싱되면 각 채널 신호 간의 간섭에 따라 음질이 증폭되거나 감소되어 열화될 수 있으므로, 하나의 출력 채널에 하나의 채널을 믹싱함으로써 음질 열화를 방지할 수 있다.Since the low-frequency signal has strong diffraction properties, according to the multi-channel panning method, each channel of the multi-channel audio signal is not divided into several channels and rendered, but only one channel can be rendered to have similar sound quality for listeners to hear. Accordingly, the stereophonic
애드 투 클로지스트 채널 방법에 의하면, 다채널 오디오 신호의 각 채널은 여러 채널에 나누어 렌더링하는 대신 재생될 채널들 중 가장 가까운 채널에 렌더링될 수 있다.According to the add-to-close channel method, each channel of the multi-channel audio signal may be rendered to the nearest channel among channels to be reproduced instead of being divided into multiple channels for rendering.
또한, 입체 음향 재생 장치(100)는 주파수에 따라 다른 방법으로 렌더링을 수행함으로써 스위트 스팟(sweet spot)을 음질 열화 없이 넓힐 수 있다. 즉, 회절 특성이 강한 저주파 신호에 대하여는 애드 투 클로지스트 채널 방법에 따라 렌더링함으로써, 하나의 출력 채널에 여러 채널이 믹싱됨에 따라 발생될 수 있는 음질 열화를 방지할 수 있다. 스위트 스팟이란, 청취자가 왜곡되지 않은 입체 음향을 최적으로 청취할 수 있는 소정 범위를 의미한다. 스위트 스팟이 넓을수록 청취자는 넓은 범위에서 왜곡되지 않은 입체 음향을 최적으로 청취할 수 있고, 청취자가 스위트 스팟에 위치하지 않는 경우, 음질 또는 음상 등이 왜곡된 음향을 청취할 수 있다. Also, the stereophonic
믹서(120)는 렌더러(110)에 의해 수평 채널과 대응된 각 채널들의 신호를 합쳐 최종 신호로 출력할 수 있다. 믹서(120)는 소정 구간별로 각 채널들의 신호를 믹싱할 수 있다. 예를 들면, 믹서(120)는 1 프레임 별로 각 채널들의 신호를 믹싱할 수 있다. The
본 발명의 일 실시 예에 의한 믹서(120)는 주파수에 따라 렌더링된 신호들을 액티브다운 믹스(Active downmix) 방식으로 믹싱할 수 있다. 자세히 설명하면, 믹서(120)는 저주파 신호에 대하여는 액티브다운 믹스 방식으로 믹싱할 수 있다. 또한, 믹서(120)는 고주파 신호에 대하여는 재생될 각 채널들에 렌더링된 신호들의 파워 값에 기초하여 최종 신호의 진폭 또는 최종 신호에 적용될 게인(gain)을 결정하는 파워 보존 방식(Power preserving module)으로 믹싱할 수 있다. 더하여, 믹서(120)는 고주파 신호에 대하여, 파워 보존 방식에 한하지 않고, 각 신호의 위상이 보정되어 믹싱되는 방식을 제외한 다른 방법에 따라 믹싱할 수도 있다. The
액티브다운 믹스 방식이란, 믹싱될 채널로 합해지는 신호들 간의 공분산 매트릭스(covariance matrix)를 사용하여 다운믹싱할 때 각 신호의 위상(phase)을 보정하여 믹싱하는 방법을 의미한다. 예를 들면, 다운믹싱되는 신호들 중 에너지가 가장 큰 신호를 기준으로 각 신호들의 위상이 보정될 수 있다. 액티브다운 믹스 방식에 의하면, 합해지는 신호들 간에 보강 간섭이 이루어질 수 있도록 각 신호의 위상이 보정됨으로써, 믹싱될 때 발생될 수 있는 상쇄 간섭으로 인한 음질의 왜곡을 방지할 수 있다. 특히, 액티브다운 믹스 방식에 따라 음향 신호를 믹싱하는 경우, 각 신호의 위상이 맞지 않아 상쇄 간섭이 발생됨으로 인해 믹싱된 음향 신호의 음색이 변화하거나 소리가 사라지는 현상을 방지할 수 있다.The active-down mixing method refers to a method of mixing by correcting a phase of each signal when downmixing using a covariance matrix between signals added to a channel to be mixed. For example, the phase of each signal may be corrected based on a signal having the greatest energy among downmixed signals. According to the active-down mixing method, the phase of each signal is corrected so that constructive interference between the signals to be combined can be made, thereby preventing distortion of sound quality due to destructive interference that may occur during mixing. In particular, when sound signals are mixed according to the active-down mixing method, it is possible to prevent the tone of the mixed sound signal from changing or the sound from disappearing due to destructive interference caused by the mismatch of phases of the respective signals.
한편, 오버헤드 채널 신호를 HRTF 변형 필터를 통과시키고 멀티 채널 패닝을 통하여 입체 음향 신호를 재생하는 가상 렌더링 기술은 좌우 써라운드 스피커(surround speaker)을 통해 동기가 맞는 음원이 재생됨으로써 고도감 있는 입체 음향이 출력될 수 있다. 특히, 좌우 써라운드 스피커를 통해 동기가 맞는 음원이 재생됨으로써 동일한 양이 입력 신호(binaural signal)가 제공됨에 따라 음상에 고도감이 부여될 수 있다.On the other hand, a virtual rendering technology that passes an overhead channel signal through an HRTF transform filter and reproduces a stereophonic sound signal through multi-channel panning is a high-level stereophonic sound by reproducing a synchronized sound source through left and right surround speakers. This can be output. In particular, as a synchronized sound source is reproduced through the left and right surround speakers, the same amount of a binaural signal is provided, so that a sense of height can be imparted to the sound image.
그러나, 액티브다운 믹스 방식에 따라 신호들을 다운믹싱하는 경우, 신호들의 위상이 제각각 달라질 수 있으므로, 각 채널간 신호들의 동기가 어긋남에 따라 고도감이 제공되지 않을 수 있다. 예를 들면, 오버헤드 채널에 대한 신호들의 동기가 믹싱 과정에서 어긋나는 경우, 두 귀간 음향 시간이 도달하는 시간 차이에 따라 인식될 수 있는 고도감이 없어지므로, 액티브다운 믹스의 적용으로 인해 음질이 열화될 수 있다.However, when downmixing signals according to the active-down mixing method, since phases of the signals may be different, a sense of height may not be provided as the synchronization of signals between channels is out of sync. For example, if the synchronization of the signals to the overhead channel is out of sync during the mixing process, the sense of height that can be recognized according to the time difference between the two ears is reached, so the sound quality deteriorates due to the application of the active down mix. can be
따라서, 믹서(120)는 회절성이 강한 저주파 신호에 대하여는 두 귀간 음향 시간이 도달하는 시간 차이가 거의 인식되지 않고, 저주파 성분에서 위상 중첩 현상이 두드러지는 점에서 액티브다운 믹스 방식에 따라 저주파 신호를 믹싱할 수 있다. 또한, 믹서(120)는 두 귀간 음향 시간이 도달하는 시간 차이에 따라 인식될 수 있는 고도감 정도가 강한 고주파 신호에 대하여는 위상이 보정되지 않는 믹싱 방식에 따라 믹싱할 수 있다. 예를 들면, 믹서(120)는 파워 보존 방식에 따라 상쇄 간섭이 발생됨에 의해 상쇄된 에너지를 보존시킴으로써 상쇄 간섭으로 인한 음질의 왜곡을 최소화하면서 고주파 신호를 믹싱할 수 있다.Accordingly, the
더하여, 본 발명의 일 실시 예에 있어서, QMF(quadrature mirror filter) 필터뱅크에서 특정 크로스오버 주파수 이상의 밴드 성분은 고주파로 간주하고, 나머지는 저주파로 간주하는 방식으로 구현됨으로써 저주파 신호와 고주파 신호에 대해 각각 렌더링 및 믹싱이 수행될 수 있다. QMF 필터는 입력 신호를 저주파와 고주파로 나누어 출력하는 필터를 의미할 수 있다.In addition, in an embodiment of the present invention, in the QMF (quadrature mirror filter) filter bank, band components above a specific crossover frequency are regarded as high frequency and the rest are considered as low frequency, so that the low frequency signal and the high frequency signal are implemented in such a way that Rendering and mixing may be performed respectively. The QMF filter may refer to a filter that divides an input signal into a low frequency and a high frequency and outputs it.
더하여, 액티브다운 믹스는 주파수 밴드 별로 수행될 수 있는데, 다운 믹스가 이루어지는 채널들 간 공분산(covariance)를 산출해야 하는 등의 매우 높은 연산량을 가지고 있어, 저주파 신호만 액티브다운 믹스로 믹싱하면 그 자체의 연산량을 줄일 수 있다. 예를 들어, 음향 신호 재생 장치(100)에서 48kHz로 샘플링된 신호를 QMF 필터뱅크에서 3kHz 이하의 소리만 액티브다운 믹스를 적용하고 그 이상의 주파수의 소리는 파워 보존 모듈을 적용하는 경우, 연산량이 약 1/3 정도로 감소될 수 있다. In addition, active-down mixing can be performed for each frequency band, and it has a very high amount of computation, such as having to calculate covariance between channels for down-mixing. The amount of computation can be reduced. For example, when an active-down mix is applied to a signal sampled at 48 kHz by the acoustic
뿐만 아니라, 실질적으로 녹음된 음원과 같은 경우에는 고주파 신호들일수록 한 채널 신호가 다른 채널과 위상이 같을 확률이 낮아 액티브다운 믹스에 의해 믹싱 시 불필요한 연산이 수행되기도 한다.In addition, in the case of a substantially recorded sound source, the more high-frequency signals, the less the probability that one channel signal is in phase with another channel, so unnecessary calculations are sometimes performed during mixing by active-down mixing.
도 2를 참조하면, 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(200)는 음향 분석부(210), 렌더러(220), 믹서(230) 및 출력부(240)를 포함할 수 있다. 도 2의 입체 음향 재생 장치(200), 렌더러(220) 및 믹서(230)는 도 1의 입체 음향 재생 장치(100), 렌더러(210) 및 믹서(220)와 대응되고, 중복되는 설명은 생략하기로 한다. 그러나 도시된 구성요소가 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 입체 음향 재생 장치(200)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 입체 음향 재생 장치(200)가 구현될 수 있다.Referring to FIG. 2 , the stereoscopic
이하 상기 구성요소들에 대해 차례로 살펴본다.Hereinafter, the components will be described in turn.
음향 분석부(210)는 다채널 오디오 신호를 분석하여 렌더링 모드를 선택하고, 다채널 오디오 신호에 포함된 일부 신호를 분리하여 출력할 수 있다. 음향 분석부(210)는 렌더링 모드 선택부(211)와 렌더링 신호 분리부(212)를 포함할 수 있다.The
렌더링 모드 선택부(211)는 다채널 오디오 신호에 박수 소리나 빗(rain) 소리와 같이 트랜지언트(transient)한 신호가 많은지 여부를 소정 구간별로 판단할 수 있다. 이하 설명에서 박수(applause) 소리나 빗소리와 같이 트랜지언트(transient)한, 즉 순간적이고 일시적인 신호가 많은 오디오 신호를 어플라우즈(applause) 신호로 지칭하기로 한다. The
본 발명의 일 실시 예에 의한 입체 음향 재생 장치(200)는 어플라우즈 신호를 분리하여, 어플라우즈 신호의 특징에 따라 채널 렌더링 및 믹싱을 처리할 수 있다.The stereoscopic
렌더링 모드 선택부(211)는 어플라우즈 신호가 다채널 오디오 신호에 포함되어 있는지 여부에 따라 렌더링 모드를 일반(general) 모드 또는 어플라우즈 모드 중 하나로 선택할 수 있다. 렌더러(220)는 렌더링 모드 선택부(211)에 의해 선택된 모드에 따라 렌더링할 수 있다. 즉, 렌더러(220)는 선택된 모드에 따라 어플라우즈 신호에 대한 렌더링을 수행할 수 있다.The
렌더링 모드 선택부(211)는 어플라우즈 신호가 다채널 오디오 신호에 포함되어 있지 않은 경우, 일반 모드를 선택할 수 있다. 일반 모드에 의하면, 오버헤드 채널 신호는 3D 렌더러(221)에 의해 렌더링될 수 있고, 수평 채널 신호는 2D 렌더러(222)에 의해 렌더링될 수 있다. 즉, 어플라우즈 신호의 고려 없이 렌더링이 수행될 수 있다.The
렌더링 모드 선택부(211)는 어플라우즈 신호가 다채널 오디오 신호에 포함되어 있는 경우, 어플라우즈 모드를 선택할 수 있다. 어플라우즈 모드에 의하면, 어플라우즈 신호가 분리되고, 분리된 어플라우즈 신호에 대해 렌더링이 수행될 수 있다.The
렌더링 모드 선택부(211)는 다채널 오디오 신호에 포함되어 있거나 다른 장치로부터 별도로 수신된 어플라우즈 비트 정보를 이용하여 어플라우즈 신호가 다채널 오디오 신호에 포함되어 있는지 여부를 소정 구간별로 판단할 수 있다. 어플라우즈 비트 정보는 MPEG 계열의 코덱에 의하면 bsTsEnable 또는 bsTempShapeEnableChannel 플래그 정보를 포함하여, 상술된 플래그 정보에 의해 렌더링 모드가 렌더링 모드 선택부(211)에 의해 선택될 수 있다.The
또한, 렌더링 모드 선택부(211)는 판단하고자 하는 소정 구간의 다채널 오디오 신호의 특성에 기초하여 렌더링 모드를 선택할 수 있다. 즉, 렌더링 모드 선택부(211)는 소정 구간의 다채널 오디오 신호의 특성이 어플라우즈 신호를 포함하는 오디오 신호의 특성을 가지는지 여부에 따라 렌더링 모드를 선택할 수 있다. Also, the
렌더링 모드 선택부(211)는 소정 구간의 다채널 오디오 신호에 다수의 입력 채널에 토널(Tonal) 하지 않은 광대역(wideband) 신호가 존재하고, 그 신호의 레벨이 채널 별로 유사한지 여부, 짧은 구간의 임펄스(impulse) 형태가 반복되는지 여부 및 채널 간 연관성(correlation)이 낮은지 여부 중 적어도 하나의 조건에 기초하여 어플라우즈(applause) 신호가 다채널 오디오 신호에 포함되어 있는지 여부를 판단할 수 있다. The
렌더링 모드 선택부(211)는 어플라우즈(applause) 신호가 현재 구간에서 다채널 오디오 신호에 포함되어 있는 것으로 판단한 경우, 렌더링 모드를 어플라우즈 모드로 선택할 수 있다.The rendering
렌더링 신호 분리부(212)는 렌더링 신호 선택부(211)에 의해 어플라우즈 모드가 선택된 경우, 다채널 오디오 신호에 포함된 어플라우즈 신호를 일반 음향 신호와 분리할 수 있다. The rendering
MPEG USAC 계열에서의 bsTsdEnable 플래그가 사용되는 경우, 해당 채널의 고도(elevation)에 관련 없이 플래그 정보에 따라 수평 채널 신호와 같이 2D 렌더링될 수 있다. 또한, 오버헤드 신호도 플래그 정보에 따라 수평 채널 신호로 가정되어 믹싱될 수 있다. 즉, 렌더링 신호 분리부(212)는 플래그 정보에 따라 소정 구간의 다채널 오디오 신호에 포함된 어플라우즈 신호를 분리할 수 있고, 분리된 어플라우즈 신호는 수평 채널 신호와 같이 2D 랜더링될 수 있다.When the bsTsdEnable flag in the MPEG USAC series is used, 2D rendering may be performed like a horizontal channel signal according to flag information regardless of the elevation of the corresponding channel. In addition, the overhead signal may also be mixed by being assumed to be a horizontal channel signal according to flag information. That is, the rendering
플래그가 사용되지 않는 경우, 렌더링 신호 분리부(212)는 채널들간의 신호를 분석하여 어플라우즈 신호 성분을 분리할 수 있다. 오버헤드 신호 중에서 분리된 어플라우즈 신호는 2D 렌더링되고, 어플라우즈 신호가 아닌 나머지 신호는 3D 렌더링될 수 있다.When the flag is not used, the rendering
렌더러(220)는 오버 헤드 신호를 3D 랜더링 방법에 따라 렌더링하는 3D 렌더러(221)와 수평면 채널 신호 또는 어플라우즈 신호를 2D 랜더링 방법에 따라 렌더링하는 2D 렌더러(222)를 포함할 수 있다.The
3D 렌더러(221)는 오버 헤드 신호를 주파수에 따라 각각 다른 방법으로 렌더링할 수 있다. 3D 랜더러(221)는 저주파 신호는 애드 투 클로지스트 채널 방법으로 랜더링하고, 고주파 신호는 3D 랜더링 방법에 따라 랜더링할 수 있다. 이하에서, 3D 랜더링 방법은 오버헤드 신호를 랜더링하는 방법을 의미하는 것으로, 3D 랜더링 방법은 멀티 채널 패닝 방법을 포함할 수 있다.The
2D 렌더러(222)는 수평면 채널 신호 또는 어플라우즈 신호를 2D 랜더링 방법, 애드 투 클로지스트 채널 방법 및 에너지 부스트(energy boost) 방법 중 적어도 하나의 방법에 따라 렌더링할 수 있다. 이하에서 2D 랜더링 방법은 수평면 채널 신호를 랜더링하는 방법을 의미하는 것으로, 2D 랜더링 방법은 다운믹스 수식(Downmix Equation) 또는 VBAP 방법을 포함할 수 있다.The
믹서(230)는 렌더링된 신호들을 각 채널별로 연산하여 최종 신호를 출력할 수 있다. 본 발명의 일 실시 예에 의한 믹서(230)는 주파수에 따라 렌더링된 신호들을 액티브다운 믹스(Active downmix) 방식으로 믹싱할 수 있다. 따라서, 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(200)는 저주파 신호에 대하여 액티브다운 믹스 방식으로 믹싱함으로써 상쇄 간섭에 따라 발생될 수 있는 음색 왜곡을 감소시킬 수 있다. 또한, 입체 음향 재생 장치(200)는 저주파 신호를 제외한 고주파 신호에 대하여는 액티브다운 믹스 방식 외에 예를 들면, 파워 보존 모듈에 따라 믹싱함으로써 액티브다운 믹스의 적용으로 발생될 수 있는 고도감 저하를 방지할 수 있다.The
출력부(240)는 믹서(230)에 의해 믹싱된 신호를 스피커를 통해 최종 출력시킬 수 있다. 이때 출력부(240)는 믹싱된 신호의 채널에 따라 각각 다른 스피커를 통해 음향 신호를 출력시킬 수 있다.The
도 3은 본 발명의 일 실시 예에 있어서, 3D 렌더러 및 믹서의 내부 구조를 나타낸 블록도이다. 도 3의 3D 렌더러(301) 및 믹서(302)는 도 2의 3D 렌더러(221) 및 믹서(230)와 대응되며 중복되는 설명은 생략하기로 한다. 그러나 도시된 구성요소가 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 3D 렌더러(301) 및 믹서(302)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 3D 렌더러(301) 및 믹서(302)가 구현될 수 있다.3 is a block diagram illustrating internal structures of a 3D renderer and a mixer according to an embodiment of the present invention. The
이하 상기 구성요소들에 대해 차례로 살펴본다.Hereinafter, the components will be described in turn.
도 5를 참조하면, 3D 렌더러(301)는 HRTF 변형 필터(310), LPF(320), HPF(330), 애드-투-클로지스트 채널(340) 및 멀티채널 패닝(350)을 포함할 수 있다.Referring to FIG. 5 , the
HRTF 변형 필터(310)는 다채널 오디오 신호 중 오버헤드 채널 신호를 HRTF 변형 필터링할 수 있다.The
LPF(320)는 HRTF 변형 필터링된 오버헤드 채널 신호 중 저주파 성분을 분리하여 출력할 수 있다.The
HPF(320)는 HRTF 변형 필터링된 오버헤드 채널 신호 중 고주파 성분을 분리하여 출력할 수 있다.The
애드 투 클로지스트 채널(340)는 오버헤드 채널 신호 중 저주파 성분을 각 채널 수평면에 투영하였을 경우 가장 가까운 채널로 렌더링할 수 있다.The add-to-
멀티 채널 패닝(350)는 오버헤드 채널 신호 중 고주파 성분을 멀티 채널 패닝 방법에 따라 렌더링할 수 있다.The
또한, 도 3을 참조하면, 믹서(302)는 액티브다운 믹스 모듈(360) 및 파워 보존 모듈(370)을 포함할 수 있다.Also, referring to FIG. 3 , the
액티브다운 믹스 모듈(360)은 3D 렌더러(301)에 의해 렌더링된 신호 중 애드 투 클로지스트 채널(540)에 의해 렌더링된 오버헤드 채널 신호 중 저주파 성분에 대하여 액티브다운 믹싱 방식으로 믹싱할 수 있다. 액티브다운 믹스 모듈(360)은 보강 간섭을 유도하기 위해 각 채널별로 합해지는 신호들의 위상을 보정하는 액티브다운 믹스 방식에 따라 저주파 성분을 믹싱할 수 있다.The active-
파워 보존 모듈(370)은 3D 렌더러(301)에 의해 렌더링된 신호 중 멀티 채널 패닝(350)에 의해 렌더링된 오버헤드 채널 신호 중 고주파 성분에 대하여 파워 보존 방식에 따라 믹싱할 수 있다. 파워 보존 모듈(370)은 고주파 성분에 대하여 각 채널들에 렌더링된 신호들의 파워 값에 기초하여 최종 신호의 진폭 또는 최종 신호에 적용될 게인(gain)을 결정하는 파워 보존 방식으로 믹싱할 수 있다. 본 발명의 일 실시 예에 의한 파워 보존 모듈(370)은 상술된 파워 보존 방식으로 고주파 성분의 신호를 믹싱할 수 있으나 이에 한하지 않고, 다른 방법에 따라 믹싱할 수도 있다.The
믹서(302)는 액티브다운 믹스 모듈(360) 및 파워 보존 모듈(370)에 의해 믹싱된 신호들을 합하여 믹싱된 3D 음향 신호를 출력할 수 있다.The
이하에서는 상술된 액티브다운 믹스 방식에 따라 입체 음향을 재생하는 방법에 대해 도 4 및 도 5를 참조하여 자세히 살펴보기로 한다.Hereinafter, a method of reproducing a stereophonic sound according to the active-down mixing method described above will be described in detail with reference to FIGS. 4 and 5 .
도 4 및 도 5는 본 발명의 일 실시 예에 의한 입체 음향 재생 방법을 도시한 순서도이다.4 and 5 are flowcharts illustrating a 3D sound reproduction method according to an embodiment of the present invention.
도 4를 참조하면, 단계 S401에서, 입체 음향 재생 장치(100)는 재생하고자 하는 다채널 오디오 신호를 획득할 수 있다.Referring to FIG. 4 , in step S401 , the stereophonic
단계 S403에서, 입체 음향 재생 장치(100)는 각 채널별로 렌더링할 수 있다. 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(100)는 주파수에 따라 렌더링할 수 있으나, 이에 한하지 않고, 다양한 방법으로 렌더링할 수 있다.In operation S403 , the stereophonic
단계 S405에서, 입체 음향 재생 장치(100)는 단계 S403에서 렌더링된 신호들을 주파수에 따라 액티브다운 믹스 방식으로 믹싱할 수 있다. 자세히 설명하면, 입체 음향 재생 장치(100)는 저주파 성분에 대하여는 액티브다운 믹스 방식으로 믹싱하고, 고주파 성분에 대하여는 다른 방식으로 믹싱할 수 있다. 예를 들면, 입체 음향 재생 장치(100)는 고주파 성분에 대하여는 각 채널별로 렌더링된 신호들의 파워값에 따라 결정된 게인을 적용함으로써 상쇄 간섭에 의해 상쇄된 에너지를 보존될 수 있도록 믹싱하는 파워 보존 방식으로 믹싱할 수 있다.In operation S405, the stereophonic
따라서, 본 발명의 일 실시 예에 의한 입체 음향 재생 장치(100)는 액티브다운 믹스 방식을 고주파 성분에 적용함에 따라 발생될 수 있는 고도감의 저하를 최소화할 수 있다.Accordingly, the stereophonic
도 5는 도 4에 도시된 입체 음향 재생 방법에서 주파수별로 렌더링하고 믹싱하는 방법이 더 상세히 도시된 순서도이다.FIG. 5 is a flowchart illustrating in more detail a method of rendering and mixing for each frequency in the stereophonic sound reproduction method illustrated in FIG. 4 .
도 5를 참조하면, 단계 S501에서, 입체 음향 재생 장치(100)는 재생하고자 하는 다채널 오디오 신호를 획득할 수 있다. 이때, 입체 음향 재생 장치(100)는 어플라우즈 신호가 삽입되어 있는 경우, 어플라우즈 신호를 분리하여, 어플라우즈 신호의 특징에 따라 채널 렌더링 및 믹싱을 처리할 수 있다. Referring to FIG. 5 , in step S501 , the stereophonic
단계 S503에서, 입체 음향 재생 장치(100)는 단계 S501에서 획득한 입체 음향 신호를 오버헤드 채널 신호와 수평면 채널의 신호로 분리하여 렌더링 및 믹싱을 각각 수행할 수 있다. 즉, 입체 음향 재생 장치(100)는 오버헤드 채널 신호는 3D 렌더링 및 믹싱, 수평면 채널 신호는 2D 렌더링 및 믹싱 처리를 수행할 수 있다.In operation S503, the stereophonic
단계 S505에서, 입체 음향 재생 장치(100)는 고도감이 제공될 수 있도록 오버헤드 채널 신호를 HRTF 변형 필터로 필터링할 수 있다.In operation S505 , the stereophonic
단계 S507에서, 입체 음향 재생 장치(100)는 오버헤드 채널 신호를 고주파와 저주파로 분리하여, 렌더링 및 믹싱 처리를 수행할 수 있다.In operation S507, the stereophonic
단계 S509에서, 입체 음향 재생 장치(100)는 오버헤드 채널 신호 중 고주파 신호에 대하여, 단계 S511에서, 3D 렌더링 방법에 따라 렌더링할 수 있다. 3D 렌더링 방법은 멀티 채널 패닝 방법을 포함할 수 있다. 멀티 채널 패닝(panning)이란 다채널 오디오 신호의 각 채널 신호들이 재생될 채널들에 배분되는 것을 의미할 수 있다. 이때, 패닝 계수가 적용된 각 채널 신호들이 재생될 채널들에 배분될 수 있다. 고주파 신호의 경우, 고도감이 올라갈수록 두 귀간의 레벨 차이(Interaural level difference, ILD)가 줄어드는 특성을 제공하기 위해 서라운드 채널에 신호가 배분될 수 있다. 또한, 프론트 채널과 패닝되는 다수의 채널의 개수에 의해 음향 신호의 방향이 정위될 수 있다.In operation S509 , the stereophonic
단계 S513에서, 입체 음향 재생 장치(100)는 단계 S511에서 렌더링된 고주파 신호를 액티브다운 믹스 방식 이외의 방식으로 믹싱할 수 있다. 예를 들어, 입체 음향 재생 장치(100)는 렌더링된 고주파 신호를 파워 보존 모듈에 따라 믹싱할 수 있다.In operation S513, the stereophonic
또한, 단계 S515에서, 입체 음향 재생 장치(100)는 오버헤드 채널 신호 중 저주파 신호는 상술된 애드 투 클로지스트 채널 방법에 따라 렌더링할 수 있다. 하나의 채널에 많은 신호, 즉 다채널 오디오 신호의 여러 개의 채널 신호가 섞이게 되면 각기 다른 위상으로 인해 음질이 상쇄되거나 증폭됨에 따라 음질 열화가 발생될 수 있다. 애드 투 클로지스트 채널 방법에 의하면, 입체 음향 재생 장치(100)는 상술된 음질 열화의 발생을 방지하기 위해 각 채널 수평면에 투영하였을 경우 가장 가까운 채널로 매핑할 수 있다.Also, in operation S515 , the stereophonic
다채널 오디오 신호가 주파수 신호 또는 필터 뱅크 신호인 경우, 저주파에 해당하는 빈(bin) 또는 밴드(band)는 애드 투 클로지스트 채널 방법, 고주파에 해당하는 빈(bin) 또는 밴드(band)는 멀티 채널 패닝 방법에 따라 렌더링될 수 있다. 빈(bin) 또는 밴드(band)는 주파수 도메인에서의 소정 단위만큼의 신호 구간을 의미할 수 있다.When the multi-channel audio signal is a frequency signal or filter bank signal, the bin or band corresponding to the low frequency is the add-to-close channel method, and the bin or band corresponding to the high frequency is the multi-channel method. It may be rendered according to a channel panning method. A bin or a band may mean a signal period of a predetermined unit in the frequency domain.
단계 S521에서, 입체 음향 재생 장치(100)는 단계 S519에서 렌더링된 수평면 채널의 신호를 파워 보존 모듈에 따라 믹싱할 수 있다.In operation S521, the stereophonic
단계 S523에서, 입체 음향 재생 장치(100)는 오버헤드 채널 신호와 수평면 채널 신호의 믹싱된 최종 신호를 출력할 수 있다.In operation S523, the stereophonic
도 6은 본 발명의 일 실시 예에 의한 액티브다운 믹싱 방식의 일 예를 나타낸 예시도이다.6 is an exemplary diagram illustrating an example of an active-down mixing method according to an embodiment of the present invention.
신호(610)과 신호(620)이 믹싱되는 경우, 각 신호의 위상이 일치하지 않아 상쇄 간섭이 발생되어 음질이 왜곡될 수 있다. 따라서, 액티브다운 믹스 방식에 따라 에너지가 상대적으로 적은 신호(610)의 위상을 신호(620)에 맞추어 보정하고, 각 신호를 믹싱할 수 있다. 믹싱된 신호(630)를 참조하면, 신호(610)의 위상이 뒤로 시프트됨에 따라 보강 간섭이 발생될 수 있다.When the signal 610 and the signal 620 are mixed, the phases of the respective signals do not match, so destructive interference may occur and sound quality may be distorted. Accordingly, according to the active-down mixing method, the phase of the signal 610 having relatively low energy may be corrected to match the signal 620 , and each signal may be mixed. Referring to the
본 발명의 일 실시 예에 의하면, 액티브다운 믹스 방식에 따라 음향 신호 믹싱을 수행할 때, 고도감이 감소되지 않게 믹싱을 수행할 수 있다.According to an embodiment of the present invention, when performing acoustic signal mixing according to the active-down mixing method, the mixing may be performed so that the sense of height is not reduced.
본 발명의 일 실시 예에 있어서, 액티브다운 믹스 방식에 의한 효과가 실질적으로 나타날 수 있는 저주파 신호에 대하여 액티브다운 믹스 방식을 적용함으로써 액티브다운 믹스 방식에 따라 믹싱되는 경우 발생될 수 있는 연산량 증가 및 고도감 저하를 최소화할 수 있다.In an embodiment of the present invention, by applying the active-down mixing method to a low-frequency signal in which the effect of the active-down mixing method can be substantially exhibited, the amount of calculation that may be generated when mixing according to the active-down mixing method is increased and high It is possible to minimize the deterioration of sense.
본 발명의 일 실시 예에 의한 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.The method according to an embodiment of the present invention can be implemented as computer-readable codes on a computer-readable recording medium (including all devices having an information processing function). The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. Examples of computer-readable recording devices include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device.
비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.Although the foregoing description has focused on novel features of the invention as applied to various embodiments, those skilled in the art will recognize the apparatus and method described above without departing from the scope of the invention. It will be understood that various deletions, substitutions, and changes are possible in the form and details of Accordingly, the scope of the present invention is defined by the appended claims rather than by the above description. All modifications within the scope of equivalents of the claims are included in the scope of the present invention.
Claims (2)
상기 복수의 입력 채널 신호에 기초하여 위상 정렬을 위한 파라미터를 생성하는 단계;
상기 복수의 입력 채널 신호의 제1 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제1 다운믹스 매트릭스를 수정하는 단계;
상기 복수의 입력 채널 신호의 모든 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제2 다운믹스 매트릭스를 수정하는 단계; 및
상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 기초하여 상기 복수의 입력 채널 신호를 복수의 출력 채널 신호로 다운믹싱하는 단계를 포함하고,
상기 제1 주파수 범위는 2.8 kHz 미만 및 10 kHz 초과를 포함하고,
상기 높이 입력 채널 신호는 고도 정보에 기초하여 식별되고,
상기 수정된 제1 다운믹스 매트릭스는 일반 장면을 위해 사용되고 상기 수정된 제2 다운믹스 매트릭스는 고도로 디코릴레이트된(highly decorrelated) 광대역 장면을 위해 사용되고,
상기 다운믹싱하는 단계는 수신된 플래그에 따라 선택되는 상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 의해 수행되는 것인, 오디오 신호 렌더링 방법.receiving a plurality of input channel signals comprising a height input channel signal;
generating a parameter for phase alignment based on the plurality of input channel signals;
modifying a first downmix matrix based on the parameter for phase alignment to phase align a first frequency range of the plurality of input channel signals;
modifying a second downmix matrix based on the parameter for phase alignment to phase align all frequency ranges of the plurality of input channel signals; and
downmixing the plurality of input channel signals into a plurality of output channel signals based on one of the modified first downmix matrix and the modified second downmix matrix;
wherein the first frequency range includes less than 2.8 kHz and greater than 10 kHz;
the height input channel signal is identified based on altitude information;
the modified first downmix matrix is used for a general scene and the modified second downmix matrix is used for a highly decorrelated wideband scene;
and the downmixing is performed by one of the modified first downmix matrix and the modified second downmix matrix selected according to a received flag.
프로세서; 및
상기 프로세서에 의해 실행되는 적어도 하나의 인스트럭션을 저장하는 메모리를 포함하고,
상기 프로세서는
높이 입력 채널 신호를 포함하는 복수의 입력 채널 신호를 수신하고,
상기 복수의 입력 채널 신호에 기초하여 위상 정렬을 위한 파라미터를 생성하고,
상기 복수의 입력 채널 신호의 제1 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제1 다운믹스 매트릭스를 수정하고,
상기 복수의 입력 채널 신호의 모든 주파수 범위를 위상 정렬하기 위해, 상기 위상 정렬을 위한 파라미터에 기초하여 제2 다운믹스 매트릭스를 수정하고, 및
상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 기초하여 상기 복수의 입력 채널 신호를 복수의 출력 채널 신호로 다운믹싱하고,
여기서, 상기 제1 주파수 범위는 2.8 kHz 미만 및 10 kHz 초과를 포함하고,
상기 높이 입력 채널 신호는 고도 정보에 기초하여 식별되고,
상기 수정된 제1 다운믹스 매트릭스는 일반 장면을 위해 사용되고 상기 수정된 제2 다운믹스 매트릭스는 고도로 디코릴레이트된(highly decorrelated) 광대역 장면을 위해 사용되고,
상기 다운믹싱은 수신된 플래그에 따라 선택되는 상기 수정된 제1 다운믹스 매트릭스 및 상기 수정된 제2 다운믹스 매트릭스 중 하나에 의해 수행되는, 오디오 신호 렌더링 장치.An audio signal rendering apparatus comprising:
processor; and
a memory for storing at least one instruction executed by the processor;
the processor
receiving a plurality of input channel signals including a height input channel signal;
generating a parameter for phase alignment based on the plurality of input channel signals;
modify a first downmix matrix based on the parameter for phase alignment to phase-align a first frequency range of the plurality of input channel signals;
modify a second downmix matrix based on the parameter for phase alignment to phase align all frequency ranges of the plurality of input channel signals, and
downmix the plurality of input channel signals into a plurality of output channel signals based on one of the modified first downmix matrix and the modified second downmix matrix;
wherein the first frequency range includes less than 2.8 kHz and greater than 10 kHz,
the height input channel signal is identified based on altitude information;
the modified first downmix matrix is used for a general scene and the modified second downmix matrix is used for a highly decorrelated wideband scene;
and the downmixing is performed by one of the modified first downmix matrix and the modified second downmix matrix selected according to a received flag.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210019367A KR102290417B1 (en) | 2020-09-18 | 2021-02-10 | Method and apparatus for 3D sound reproducing using active downmix |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200120307A KR102217832B1 (en) | 2020-09-18 | 2020-09-18 | Method and apparatus for 3D sound reproducing using active downmix |
KR1020210019367A KR102290417B1 (en) | 2020-09-18 | 2021-02-10 | Method and apparatus for 3D sound reproducing using active downmix |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200120307A Division KR102217832B1 (en) | 2020-09-18 | 2020-09-18 | Method and apparatus for 3D sound reproducing using active downmix |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210020961A KR20210020961A (en) | 2021-02-24 |
KR102290417B1 true KR102290417B1 (en) | 2021-08-17 |
Family
ID=74688741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210019367A KR102290417B1 (en) | 2020-09-18 | 2021-02-10 | Method and apparatus for 3D sound reproducing using active downmix |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102290417B1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020071574A1 (en) | 2000-12-12 | 2002-06-13 | Aylward J. Richard | Phase shifting audio signal combining |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010008200A2 (en) * | 2008-07-15 | 2010-01-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
FR2966634A1 (en) * | 2010-10-22 | 2012-04-27 | France Telecom | ENHANCED STEREO PARAMETRIC ENCODING / DECODING FOR PHASE OPPOSITION CHANNELS |
-
2021
- 2021-02-10 KR KR1020210019367A patent/KR102290417B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020071574A1 (en) | 2000-12-12 | 2002-06-13 | Aylward J. Richard | Phase shifting audio signal combining |
Also Published As
Publication number | Publication date |
---|---|
KR20210020961A (en) | 2021-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102160254B1 (en) | Method and apparatus for 3D sound reproducing using active downmix | |
KR102392773B1 (en) | Method and apparatus for rendering sound signal, and computer-readable recording medium | |
KR101567461B1 (en) | Apparatus for generating multi-channel sound signal | |
US9749767B2 (en) | Method and apparatus for reproducing stereophonic sound | |
KR102380231B1 (en) | Method and apparatus for rendering acoustic signal, and computer-readable recording medium | |
JP6660982B2 (en) | Audio signal rendering method and apparatus | |
KR102290417B1 (en) | Method and apparatus for 3D sound reproducing using active downmix | |
KR102217832B1 (en) | Method and apparatus for 3D sound reproducing using active downmix | |
KR102443055B1 (en) | Method and apparatus for 3D sound reproducing | |
KR102380232B1 (en) | Method and apparatus for 3D sound reproducing | |
US11373662B2 (en) | Audio system height channel up-mixing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |