CN103733256A

CN103733256A - 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端

Info

Publication number: CN103733256A
Application number: CN201280038627.5A
Authority: CN
Inventors: 李男淑
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-06-07
Filing date: 2012-06-07
Publication date: 2014-04-16
Also published as: KR20140037118A; EP2720223A2; WO2012169808A2; WO2012169808A3

Abstract

一种音频信号处理方法包括：当第一多个输入声道被缩混为第二多个输出声道时，对第一多个输入声道的位置与第二多个输出声道的位置进行比较；将第一多个输入声道中的具有与第二多个输出声道的位置相同的位置的声道缩混到第二多个输出声道中的在相同位置处的声道；搜索第一多个输入声道中的剩余的声道中的每个声道的至少一个邻近声道；考虑声道之间的距离、信号之间的相关性和恢复期间的误差中的至少一个，来确定搜索到的邻近声道的加权因子；基于确定的加权因子将第一多个输入声道中的剩余的声道中的每个声道缩混到所述邻近声道。

Description

音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端

技术领域

与示例性实施例一致的设备和方法涉及音频编码/解码，更具体地讲，涉及一种能够在多声道音频信号被恢复时使声音质量的恶化最小化的音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端。

背景技术

最近，随着多媒体内容的普及，用户期望体验相对逼真和丰富的声源环境的需求已增加。为了满足用户的这些需求，已积极地进行多声道音频的研究。

多声道音频信号根据传输环境需要高效的数据压缩率。具体地讲，空间参数用于恢复多声道音频信号。在提取空间参数的处理中，由于混响信号的影响会发生失真。随后，当多声道音频信号被恢复时，会发生声音质量的恶化。

因此，需要能够减少或去除在使用空间参数恢复多声道音频信号时会发生的声音质量的恶化的多声道音频编解码器技术。

发明内容

技术问题

一个或更多个示例性实施例的多方面提供能够在多声道音频信号被恢复时使声音质量的恶化最小化的音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端。

解决方案

根据一个或更多个示例性实施例的一方面，提供一种音频信号处理方法，包括：当第一多个输入声道被缩混（down-mix）为第二多个输出声道时，对第一多个输入声道的位置与第二多个输出声道的位置进行比较；将第一多个输入声道中的具有与第二多个输出声道的位置相同的位置的声道缩混到第二多个输出声道中的在相同位置处的声道；搜索第一多个输入声道中的剩余的声道中的每个声道的至少一个邻近声道；考虑声道之间的距离、信号之间的相关性和恢复期间的误差中的至少一个，来确定搜索到的邻近声道的加权因子；基于确定的加权因子，将第一多个输入声道中的剩余的声道中的每个声道缩混到所述邻近声道。

附图说明

图1是根据示例性实施例的音频信号处理系统的框图；

图2是根据示例性实施例的音频编码设备的框图；

图3是根据示例性实施例的音频解码设备的框图；

图4示出根据示例性实施例的10.2声道音频信号和5.1声道音频信号之间的声道匹配；

图5是根据示例性实施例的缩混方法的流程图；

图6是根据示例性实施例的增混（up-mix）方法的流程图；

图7是根据示例性实施例的空间参数编码设备的框图；

图8a和图8b示出根据针对缩混声道的每个帧的频带中的能量值的可变量化步长；

图9是示出针对整个声道的频谱数据的按照频带的能量分布的曲线图；

图10a至图10c是示出通过改变阈值调整的总比特率的曲线图；

图11是根据示例性实施例的产生空间参数的方法的流程图；

图12是根据另一示例性实施例的产生空间参数的方法的流程图；

图13是根据示例性实施例的音频信号处理方法的流程图；

图14a至图14c示出用于描述图11的操作1110或图13的操作1330的示例；

图15示出用于描述图11的操作1110或图13的操作1330的另一示例；

图16a至图16d示出用于描述图11的操作1110或图13的操作1330的另一示例；

图17是示出角度参数的总和的曲线图；

图18用于描述根据示例性实施例的角度参数的计算；

图19是根据示例性实施例的集成多声道编解码器和核心编解码器的音频信号处理系统的框图；

图20是根据示例性实施例的音频编码设备的框图；

图21是根据示例性实施例的音频解码设备的框图。

具体实施方式

本发明可允许各种改变或修改以及形式上的各种改变，特定实施例将被示出在附图中并在说明书中被详细描述。然而，应理解特定实施例不将本发明限制为特定公开形式而是包括本发明的精神和技术范围内的所有修改的、等同的或替代的实施例。在以下描述中，将不详细描述公知的功能或构造，以免使用不必要的细节来模糊本发明。

尽管诸如“第一”和“第二”的术语可用于描述各种元件，但所述元件不能被所述术语限制。所述术语可用于将特定元件与另一元件分开。

在本发明中使用的术语仅用于描述特定实施例，而不具有任何限制本发明的意图。尽管在考虑在本发明中的功能的同时尽可能将当前广泛使用的通用术语选作在本发明中使用的术语，但它们可根据本领域的普通技术人员的意图、司法先例或新技术的出现而改变。另外，在特定情况下，可使用由申请人有意地选择的术语，在这种情况下，将在本发明的相应描述中公开这些术语的含义。因此，在本发明中使用的术语不应由术语的简单名称来定义，而应由术语的含义和整个本发明构思中的内容来定义。

除非上下文清楚地另有所指，否则单数形式意在包括复数形式。在本发明中，应理解，诸如“包括”和“具有”的术语用于指示存在实现的特征、数字、步骤、操作、元件、部件或它们的组合，而不预先排除存在或添加一个或更多个其他特征、数字、步骤、操作、元件、部件或它们的组合的可能性。

现将参照示出本发明的示例性实施例的附图来更全面地描述本发明。附图中的相同的标号表示相同的元件，因此将省略它们的重复的描述。

图1是根据示例性实施例的音频信号处理系统100的框图。音频信号处理系统100与多媒体装置相应，并可包括电话、移动电话等的语音通信专用终端、包括TV、MP3播放器等的广播或音乐专用终端、或语音通信专用终端和广播或音乐专用终端的混合型终端，但不限于此。音频信号处理系统100可用作客户机、服务器或布置在客户机和服务器之间的换能器。

参照图1，音频信号处理系统100包括编码设备110和解码设备120。根据示例性实施例，音频信号处理系统100可包括编码设备110和解码设备120两者，根据另一示例性实施例，音频信号处理系统100可包括编码设备110和解码设备120中的任何一个。

编码设备110接收使用多个声道形成的原始信号（即，多声道音频信号），并通过对原始信号进行缩混来产生缩混的音频信号。编码设备110产生预测参数并对预测参数进行编码。预测参数被应用于从缩混的音频信号恢复原始信号。详细地，预测参数是与用于对原始信号进行缩混的缩混矩阵关联的值、包括在缩混矩阵中的每个系数值等。例如，预测参数可包括空间参数。预测参数可根据编码设备110或解码设备120的产品规格、设计规格等而变化，并可被设置为通过实验优化的值。这里，声道可指示扬声器。

解码设备120通过使用预测参数对缩混的音频信号进行增混来产生与原始信号相应的恢复信号（即，多声道音频信号）。

图2是根据示例性实施例的音频编码设备200的框图。

参照图2，音频编码设备200可包括缩混单元210、边信息产生单元220和编码单元230。所述组件可被集成为至少一个模块，并被实现为至少一个处理器（未示出）。

缩混单元210接收N声道音频信号并对接收的N声道音频信号进行缩混。缩混单元210可通过对N声道音频信号进行缩混来产生单声道音频信号或M声道音频信号（M<N）。例如，缩混单元210可通过对10.2-声道音频信号进行缩混来产生三声道音频信号或六声道音频信号，以便与2.1-声道音频信号或5.1-声道音频信号相应。

根据示例性实施例，缩混单元210通过选择N声道中的两个声道并对选择的两个声道进行缩混来产生第一单声道，并通过对产生的第一单声道和另一声道进行缩混来产生第二单声道。可通过重复对作为缩混结果而产生的单声道和另一声道进行缩混的处理来产生最终的单声道音频信号或M声道音频信号。

为了在使熵最小化的同时对N声道音频信号进行缩混，优选的是相似的声道被缩混。因此，缩混单元210可通过对在声道之间具有高相关性的声道进行缩混来以相对高的压缩率对多声道音频信号进行缩混。

边信息产生单元220产生从缩混的声道恢复多声道所需的边信息。每当缩混单元210依次对多声道进行缩混时，边信息产生单元220产生从缩混的声道恢复多声道所需的边信息。此时，边信息产生单元220可产生用于确定将被缩混的两个声道的强度的信息和用于确定这两个声道的相位的信息。

另外，每当缩混被执行时，边信息产生单元220产生指示哪些声道已被缩混的信息。当声道以基于相关性计算的顺序而不是固定的顺序被缩混时，边信息产生单元220可产生声道的缩混顺序作为边信息。

每当缩混被执行时，边信息产生单元220重复产生将缩混的声道恢复到单声道所需的信息。例如，如果通过对12声道依次进行缩混11次来产生单声道，则产生11次关于缩混顺序的信息、用于确定声道的强度的信息和用于确定声道的相位的信息。根据示例性实施例，当针对多个频带中的每个频带产生用于确定声道的强度的信息和用于确定声道的相位的信息时，如果频带的数量是k，则可产生11×k条用于确定声道的强度的信息，并可产生11×k条用于确定声道的相位的信息。

编码单元230可对由缩混单元210进行缩混并产生的单声道音频信号或M声道音频信号进行编码。如果从缩混单元210输出的音频信号是模拟信号，则将模拟信号转换为数字信号，并且根据预定算法对符号进行编码。编码算法不限，并且用于通过对音频信号进行编码来产生比特流的所有算法可用于编码单元230。另外，编码单元230可对由边信息产生单元220产生的用于从单声道音频信号恢复多声道音频信号的边信息进行编码。

图3是根据示例性实施例的音频解码设备300的框图。

参照图3，音频解码设备300可包括提取单元310、解码单元320、增混单元330。所述组件可被集成为至少一个模块，并被实现为至少一个处理器（未示出）。

提取单元310从接收的音频数据（即，比特流）提取编码的音频和编码的边信息。可通过将N个声道缩混到单声道或M个声道（M<N）并根据预定算法对音频信号进行编码来产生编码的音频。

解码单元320对由提取单元310提取的编码的音频和编码的边信息进行解码。在这种情况下，解码单元320通过使用与用于进行编码的算法相同的算法来对编码的音频和编码的边信息进行解码。作为音频解码的结果，单声道音频信号或M声道音频信号被恢复。

增混单元330通过对由解码单元320解码的音频信号进行增混来恢复在缩混之前的N声道音频信号。此时，增混单元330基于由解码单元320解码的边信息恢复N声道音频信号。

也就是说，增混单元330通过参考边信息（即，空间参数）反向执行缩混处理来将缩混的音频信号增混到多声道音频信号。此时，通过参考包括关于声道的缩混顺序的信息的边信息来从单声道依次分离声道。可通过根据用于确定已被缩混的声道的强度和相位的信息来确定已被缩混的声道的强度和相位，来从单声道依次分离声道。

图4示出根据示例性实施例的10.2-声道音频信号410和5.1-声道音频信号420之间的声道匹配。

当输入的多声道音频信号是10.2-声道音频信号时，被缩混到比10.2声道更少数量的声道的多声道音频信号（诸如，7.1-声道音频信号、5.1-声道音频信号或2.0声道音频信号）可用作输出的多声道音频信号。

如图4中所示，当10.2-声道音频信号410被缩混到5.1-声道音频信号420时，如果5.1声道中的FL声道和RL声道被确认为10.2声道中的LW声道的邻近声道，则可考虑位置、相关性或恢复期间的误差来确定FL声道和RL声道的加权因子。根据示例性实施例，如果确定FL声道的加权因子是0并且RL声道的加权因子是1，则10.2声道中的LW声道的声道信号可被缩混到5.1声道中的RL声道。

另外，10.2声道中的L声道和Ls声道可分别被分配到在相同位置处的5.1声道中的FL声道和RL声道。

图5是根据示例性实施例的缩混方法的流程图。

参照图5，在操作510，从第一布局信息检查输入声道的数量和位置。例如，第一布局信息是IC（1）、IC（2）、…、IC（N），并且可从第一布局信息检查N个输入声道的位置。

在操作520，从第二布局信息检查缩混的声道（即，输出声道）的数量和位置。例如，第二布局信息时DC（1）、DC（2）、…、DC（N），可从第二布局信息检查M个输出声道的位置（M<N）。

在操作530，从输入声道的第一声道IC（1）开始确定在输入声道和输出声道中是否存在具有相同的输出位置的声道。

在操作540，如果在输入声道和输出声道中存在具有相同的输出位置的声道，则将相应的输入声道的声道信号分配到相同位置处的输出声道。例如，如果输入声道IC（n）和输出声道DC（m）的输出位置相同，则DC（m）可以是DC（m）+IC（n）。

在操作550，如果在输入声道和输出声道中不存在具有相同的输出位置的声道，则从输入声道的第一声道IC（1）开始确定输出声道中是否存在与输入声道IC（n）邻近的声道。

在操作560，如果在操作550确定存在多个邻近声道，则通过使用与多个邻近声道中的每个邻近声道相应的预定加权因子来将输入声道IC（n）的声道信号分布到多个邻近声道中的每个邻近声道。例如，如果确定输出声道的DC（i）、DC（j）和DC（k）是输入声道IC（n）的邻近声道，则加权因子w_i，w_j和w_k可分别被设置用于输入声道IC（n）和输出声道DC（i）、输入声道IC（n）和输出声道DC（j）以及输入声道IC（n）和输出声道DC（k）。可通过使用设置的加权因子w_i、w_j和w_k将输入声道IC（n）的声道信号分布为DC(i)=DC(i)+w_i×IC(n)、DC(j)=DC(j)+w_j×IC(n)、以及DC(k)=DC(k)+w_k×IC(n)。

可通过下述方法设置加权因子。

根据示例性实施例，可根据多个邻近声道与输入声道IC（n）之间的关系确定加权因子。关于多个邻近声道和输入声道IC（n）之间的关系，多个邻近声道与输入声道IC（n）之间的声道长度、多个邻近声道中的每个邻近声道的声道信号与输入声道IC（n）的声道信号之间的相关性以及多个邻近声道的恢复期间的误差中的至少一个可被应用。

根据另一示例性实施例，加权因子可根据多个邻近声道与输入声道IC（n）之间的关系被确定为0或1。例如，可将多个邻近声道中的与输入声道IC（n）最接近的邻近声道确定为1，并可将剩余的邻近声道确定为0。可选择地，可将具有多个邻近声道的声道信号中的与输入声道IC（n）的声道信号具有最高相关性的声道信号的邻近声道确定为1，并可将剩余的邻近声道确定为0。可选择地，可将多个邻近声道中的在恢复期间具有最少误差的邻近声道确定为1，并将剩余的邻近声道确定为0。

在操作570，确定是否已检查所有的输入声道，并且如果没有检查所有输入声道，则方法进行到操作530以重复操作530至操作560。

在操作580，如果已检查所有输入声道，则最终产生具有在操作540分配的信号和在操作560分布的信号的缩混的声道的配置信息和相应的空间参数。

可以以声道、帧、频带或频谱为单位执行根据示例性实施例的缩混方法，因此，可根据环境调整性能提高的精确度。在此，频带是对音频频谱的采样点进行分组的单位，并可通过反映阈值频带具有均匀长度或非均匀长度。在非均匀长度的情况下，一个帧可被设置为使得包括在每个频带中的采样点的数量从开始采样点到最后采样点渐渐增加。如果支持多比特率，则可将包括在与不同的比特率相应的每个频带中的采样点的数量设置为相同。可预先确定包括在一个帧或一个频带中的采样点的数量。

在根据示例性实施例的缩混方法中，可与缩混的声道的布局和输入声道的布局相应地确定用于声道缩混的加权因子。因此，缩混方法可适应性地处理各种布局，可考虑声道的位置、声道信号之间的相关性或恢复期间的误差来确定加权因子，从而提高声音质量。另外，考虑声道的位置、声道信号之间的相关性或恢复期间的误差来缩混的声道被配置，因此，如果音频解码设备具有与缩混的声道的数量相同的声道，则即使用户在没有单独的增混处理的情况下仅听到缩混的声道，用户也无法识别主观的声音质量的恶化。

图6是根据示例性实施例的增混方法的流程图。

参照图6，在操作610，接收通过如图5所示的处理产生的缩混声道的配置信息和相应的空间参数。

在操作620，通过使用在操作610接收的缩混的声道的配置信息和相应的空间参数对缩混的声道进行增混，来恢复输入声道音频信号。

图7是根据示例性实施例的可包括在图2的编码单元230中的空间参数编码设备700的框图。

参照图7，空间参数编码设备700可包括能量计算单元710、量化步长确定单元720、量化单元730和复用单元740。所示组件可被集成为至少一个模块并被实现为至少一个处理器（未示出）。

能量计算单元710接收从缩混单元（参照图2的210）提供的缩混的声道信号，并以声道、帧、频带或频谱为单位计算能量值。这里，能量值的示例可以是范数值。

量化步长确定单元720通过使用从能量计算单元710提供的以声道、帧、频带或频谱为单位计算的能量值来确定量化步长。例如，对于具有大能量值的声道、帧、频带或频谱，量化步长可以小，对于具有小能量值的声道、帧、频带或频谱，量化步长可以大。在这种情况下，可设置两个量化步长，并且可根据将能量值与预定阈值进行比较的结果来选择两个量化步长之一。当与能量值的分布相应地适应性地分配量化步长时，可选择与能量值的分布匹配的量化步长。因此，可基于听觉的重要性来调整将分配用于量化的比特，从而提高声音质量。根据示例性实施例，可在保持根据每个缩混的声道的能量分布而分配的加权因子的同时，通过可变地改变阈值频率来调整总比特率。

量化和无损编码单元730通过使用由量化步长确定单元720确定的量化步长以声道、帧、频带或频谱为单位对空间参数进行量化，并对量化的空间参数进行无损编码。

复用单元740通过对无损编码的空间参数和无损编码的缩混的音频信号进行复用来产生比特流。

图8a和图8b示出根据缩混的声道的每个帧的频带中的能量值的可变量化步长，其中，声道1和声道2被缩混，声道3和声道4被缩混。在图8a和图8b中，d0表示声道1和声道2的缩混的声道的能量值，d1表示声道3和声道4的缩混的声道的能量值。

图8a和图8b指示设置了两个量化步长，阴影部分与具有等于或大于预定阈值的能量值的频带相应，因此，将小量化步长设置用于阴影部分。

图9是示出针对整个声道的频谱数据的按照频带的能量分布的曲线图，图10a至图10c是示出在根据每个声道的能量值分配加权因子的情况下通过考虑能量分布改变阈值频率调整的总比特率的曲线图。

图10a示出基于初始阈值频率100a，对左边部分设置小量化步长（即，小于阈值频率100a的低频区域110a、120a和130a），对右边部分设置大量化步长（即，大于初始阈值频率100a的高频带110b、120b和130b）的示例。图10b示出高于初始阈值频率100a的阈值频率100b用于增加设置了小量化步长的区域140a、150a和160a从而增加总比特率的示例。图10c示出低于初始阈值频率100a的阈值频率100c用于减少设置了小量化步长的区域170a、180a和190a从而减少总比特率的示例。

图11是根据示例性实施例的可由图2的编码设备200执行的产生空间参数的方法的流程图。

参照图11，在操作1110，产生N个角度参数。

在操作1120，独立地对N个角度参数中的（N-1）个角度参数进行编码。

在操作1130，从（N-1）角度参数预测剩余的一个角度参数。

在操作1140，对预测的角度参数进行残差编码来产生剩余的一个角度参数的残差。

图12是根据另一示例性实施例的可由图3的解码设备200执行的产生空间参数的方法的流程图。

参照图12，在操作1210，接收N个角度参数中的（N-1）个角度参数。

在操作1220，从（N-1）角度参数预测剩余的一个角度参数。

在操作1230，通过添加预测的角度参数和残差来产生剩余的一个角度参数。

图13是根据示例性实施例的音频信号处理方法的流程图。

参照图13，在操作1310，对作为多声道信号的第一声道信号ch1至第n声道信号chn进行缩混。详细地，可将第一声道信号ch1至第n声道信号chn缩混为一个单声道信号DM。可由缩混单元210执行操作1310。

在操作1320，对第一声道信号ch1至第n声道信号chn中的（n-1）个声道信号进行相加，或者对第一声道信号ch1至第n声道信号chn进行相加。详细地，可对第一声道信号ch1至第n声道信号chn中的除参考声道信号以外的声道信号进行相加，并且相加的信号成为第一相加信号。可选择地，可对第一声道信号ch1至第n声道信号chn进行相加，并且相加的信号成为第二相加信号。

在操作1330，可使用作为在操作1320产生的信号的第一相加信号与参考声道信号之间的相关性来产生第一空间参数。可选择地，在操作1330，代替产生第一空间参数，可使用作为在操作1320产生的信号的第二相加信号与参考声道信号之间的相关性来产生第二空间参数。

参考声道信号可以是第一声道信号ch1至第n声道信号chn中的每个声道信号。因此，参考声道信号的数量可以是n并且可产生与n个参考声道信号相应的n个空间参数。

因此，操作1330还可包括通过将第一声道信号ch1至第n声道信号chn中的每个声道信号设置为参考声道信号来产生第一空间参数至第n空间参数。

可由缩混单元210执行操作1320和1330。

在操作1340，在操作1330中产生的空间参数SP被编码和发送到解码设备（参照图3的300）。另外，在操作1310产生的单声道信号DM被编码和发送到解码设备（参照图3的300）。详细地，编码的空间参数SP和编码的单声道信号DM可被包括在传输流TS中并被发送到解码设备（参照图3的300）。包括在传输流TS中的空间参数SP指示包括第一空间参数至第n空间参数的空间参数集。

操作1340可由编码设备（参照图2的200）执行。

图14a至图14c示出用于描述图11的操作1110或图13的操作1330的示例。在下文中，参照图14a至图14c详细描述产生第一相加信号和第一空间参数的操作。图14a至图14c示出多声道信号包括第一声道信号至第三声道信号ch1、ch2和ch3的情况。另外，图14a至图14c示出作为信号的和的信号的矢量和，其中，信号的和指示进行缩混，可使用各种缩混方法代替矢量和方法。

图14a至图14c示出参考声道信号分别是第一声道信号ch1、第二声道信号ch2和第三声道信号ch3的情况。

参照图14a，当参考声道信号是第一声道信号ch1时，边信息产生单元（参照图2的220）通过对除参考声道信号以外的第二声道信号ch2和第三声道信号ch3进行相加（ch2+ch3）来产生相加信号1410。其后，边信息产生单元（参照图2的220）通过使用作为参考声道信号的第一声道信号ch1与相加信号1410之间的相关性（ch1，ch2+ch3）产生空间参数。空间参数包括指示参考声道信号与相加信号1410之间的相关性的信息以及指示参考声道信号和相加信号1410的相对信号幅度的信息。

参照图14b，当参考信号是第二声道信号ch2时，边信息产生单元（参照图2的220）通过对除参考声道信号以外的第一声道信号ch1和第三声道信号ch3进行相加（ch1+ch3）来产生相加信号1420。其后，边信息产生单元（参照图2的220）通过使用作为参考声道信号的第二声道信号ch2与相加信号1420之间的相关性（ch2，ch1+ch3）产生空间参数。

参照图14c，当参考声道信号是第三声道信号ch3时，边信息产生单元（参照图2的220）通过对除参考声道信号以外的第一声道信号ch1和第二声道信号ch2进行相加（ch1+ch2）来产生相加信号1430。其后，边信息产生单元（参照图2的220）通过使用作为参考声道信号的第三声道信号ch3与相加信号1430之间的相关性（ch3，ch1+ch2）产生空间参数。

当多声道信号包括三个声道信号时，参考声道信号的数量是3，并可产生三个空间参数。产生的空间参数由编码设备（参照图2的200）编码，并经由网络（未示出）被发送到解码设备（参照图3的300）。

通过对第一声道信号至第三声道信号ch1、ch2和ch3进行缩混而获得的单声道信号DM与第一声道信号至第三声道信号ch1、ch2和ch3的相加信号相同，并可由Dm=ch1+ch2+ch3来表示。因此，关系ch1=DM-（ch2+ch3）有效。

解码设备300对作为参照图14a至图14c描述的空间参数的第一空间参数进行接收和解码。解码设备（参照图3的300）通过使用解码的单声道信号和解码的空间参数来恢复原始声道信号。如上所述，关系ch1=DM-（ch2+ch3）有效，参照图14a产生的空间参数可包括指示第一声道信号ch1和相加信号1410（ch2+ch3）的相对幅度的参数以及指示第一声道信号ch1和相加信号1410（ch2+ch3）之间的相似性的参数，因此，可通过使用参照图14a产生的空间参数和单声道信号DM来恢复第一声道信号ch1和相加信号1410（ch2+ch3）。以相同的方式，可通过分别使用参照图14b和图14c产生的空间参数，来恢复第二声道信号ch2和相加信号1420（ch1+ch3）、以及第三声道信号ch3和相加信号1430（ch1+ch2）。也就是说，增混单元（参照图3的330）可恢复所有的第一声道信号至第三声道信号ch1、ch2和ch3。

图15示出用于描述图11的操作1110或图13的操作1330的另一示例。在下文中，参照图15详细描述产生第二相加信号和第二空间参数的操作。图15示出多声道信号包括第一声道信号至第三声道信号ch1、ch2和ch3的情况。另外，图15示出作为信号的和的信号的矢量和。

参照图15，第二相加信号是通过将第一声道信号至第三声道信号ch1、ch2和ch3相加而获得的信号，因此，通过将第三声道信号ch3与信号1510（信号1510通过将第一声道信号ch1和第二声道信号ch2相加而获得）相加而获得的信号1520（ch1+ch2+ch3）是第二相加信号。

首先，产生在第一声道信号ch1作为参考声道信号的情况下第一声道信号ch1和第二相加信号1520之间的空间参数。详细地，可通过使用第一声道信号ch1和第二相加信号1520之间的相关性（ch1，ch1+ch2+ch3）来产生包括第一参数和第二参数中的至少一个的空间参数。

接下来，通过在第二声道信号ch2作为参考声道信号的情况下使用第二声道信号ch2和第二相加信号1520之间的相关性（ch2，ch1+ch2+ch3）来产生空间参数。最终，通过在第三声道信号ch3作为参考声道信号的情况下使用第三声道信号ch3和第二相加信号1520之间的相关性（ch3，ch1+ch2+ch3）来产生空间参数。

解码设备（参照图3的300）对作为参照图15描述的空间参数的第二空间参数进行接收和解码。其后，解码设备（参照图3的300）通过使用解码的单声道信号和解码的空间参数来恢复原始声道信号。解码的单声道信号与将多个声道信号相加的信号（ch1+ch2+ch3）相应。

因此，可通过使用空间参数和解码的单声道信号来恢复第一声道信号ch1，其中，使用第一声道信号ch1和第二相加信号1520之间的相关性（ch1，ch1+ch2+ch3）来产生所述空间参数。类似地，可通过使用利用第二声道信号ch2和第二相加信号1520之间的相关性（ch2，ch1+ch2+ch3）产生的空间参数，来恢复第二声道信号ch2。另外，可通过使用利用第三声道信号ch3和第二相加信号1520之间的相关性（ch3，ch1+ch2+ch3）产生的空间参数，来恢复第三声道信号ch3。

图16a至图16d示出用于描述图11的操作1110或图13的操作1330的另一示例。

首先，在图2的编码设备200中，由边信息产生单元220产生的空间参数可包括作为第一参数的角度参数。角度参数是将信号幅度相关性指示为预定角度值的参数，其中，信号幅度相关性是作为第一声道信号ch1至第n声道信号chn中的任何一个声道信号的参考声道信号与第一声道信号ch1至第n声道信号chn中的除参考声道信号以外的剩余的声道信号之间的信号幅度相关性。角度参数可称为全局矢量角度（GVA）。另外，角度参数可以是将参考声道信号和第一相加信号的相对幅度表示为角度值的参数。

边信息产生单元220可在第一声道信号ch1至第n声道信号chn中的每个声道信号作为参考声道信号的情况下产生第一角度参数至第n角度参数。在下文中，将在第k声道信号chk作为参考声道信号的情况下产生的角度参数称为第k角度参数。

图16a示出由编码设备接收的多声道信号包括第一声道信号至第三声道信号ch1、ch2和ch3的情况。图16b、图16c和图16d示出参考声道信号分别是第一声道信号ch1、第二声道信号ch2和第三声道信号ch3的情况。

参照图16b，当参考声道信号是第一声道信号ch1时，边信息产生单元（参照图2的220）对作为除参考声道信号以外的剩余的声道信号的第二声道信号ch2和第三声道信号ch3进行相加（ch2+ch3），并获得作为相加信号1620和第一声道信号ch1之间的角度参数的第一角度参数角度1622。

详细地，可从通过将相加信号（ch2+ch3）1620的绝对值除以第一声道信号ch1的绝对值而获得的值的反正切获得第一角度参数角度11622。

参照图16c，可从通过将相加信号（ch1+ch3）1630的绝对值除以第二声道信号ch2的绝对值而获得的值的反正切获得在第二声道信号ch2作为参考声道信号的情况下的第二角度参数角度21632。

参照图16d，可从通过将相加信号（ch1+ch2）1640的绝对值除以第三声道信号ch3的绝对值而获得的值的反正切获得在第三声道信号ch3作为参考声道信号的情况下的第三角度参数角度31642。

图17是示出角度参数的总和的曲线图，其中，x轴指示角度值，y轴指示分布概率。另外，在角度值中，一个单位相应于6度。例如，x轴的值30指示180度。

详细地，在第一声道信号至第n声道信号中的每个声道信号作为参考声道信号的情况下计算的n个角度参数的总和收敛为预定值。收敛的预定值可根据n的值而变化并可通过仿真或实验来优化。例如，当n为3时，收敛的预定值可以是180度。

参照图17，如图17所示，当n为3时，三个角度参数的总和收敛为约30单位（即，约180度1710）。图14的曲线图通过仿真或实验来获得。

特殊地，三个角度参数的总和可收敛为约45单位（即，约270度1720）。当由于所有三个声道信号是静音而每个角度参数具有90度的值时，预定值可收敛为约270度1720。在该特殊情况下，如果三个角度参数中的任何一个的值被改变为0，则三个角度参数的总和被收敛为约180度1710。当所有三个声道信号是静音时，缩混的单声道信号也具有值0，并且即使单声道信号被增混和解码，其结果也是0。因此，即使一个角度参数的值被改变为0，增混和解码的结果也不被改变，因此，即使三个角度参数中的任何一个被改变为0也无妨。

图18用于描述根据示例性实施例的角度参数的计算，其中，多声道信号包括第一声道信号至第三声道信号ch1、ch2和ch3。根据示例性实施例，可产生空间参数，所述空间参数包括第一角度参数至第n角度参数中的除第k角度参数以外的角度参数以及用于计算第k角度参数的第k角度参数的残差。

参照图18，当第一声道信号ch1是参考声道信号时，对第一角度参数进行计算和编码，将编码的第一角度参数包括在预定的比特区域1810中并将其发送到解码设备（参照图3的300）。当第二声道信号ch2是参考声道信号时，对第二角度参数进行计算和编码，将编码的第二角度参数包括在预定的比特区域1830中并将其发送到解码设备（参照图3的300）。

当第三角度参数是如上所述的第k角度参数时，可如下获得第k角度参数的残差。

由于n个角度参数的总和收敛为预定值，因此可通过从预定值减去n个角度参数中的除第k角度参数以外的角度参数的值来获得第k角度参数的值。详细地，当n为3时，如果不是所有的三个声道信号都是静音，则三个角度参数的总和收敛为约180度。因此，第三角度参数的值=180度-（第一角度参数的值+第二角度参数的值）。可使用第一角度参数至第三角度参数之间的相关性来预测第三角度参数。

详细地，边信息产生单元（参照图2的220）预测第一角度参数至第n角度参数中的第k角度参数的值。预定的比特区域1870指示包括第k角度参数的预测值的数据区域。

其后，边信息产生单元（参照图2的220）对第k角度参数的预测值与第k角度参数的原始值进行布局。预定的比特区域1850指示包括参照图16d计算的第三角度参数角度31642的值的数据区域。

其后，边信息产生单元（参照图2的220）产生第k角度参数的预测值1870与第k角度参数的原始值1850之间的差作为第k角度参数的残差。预定的比特区域1890指示包括第k角度参数的残差的数据区域。

编码设备（参照图2的200）对空间参数进行编码并将编码的空间参数发送到解码设备（参照图3的300），其中，所述空间参数包括第一角度参数至第n角度参数中的除第k角度参数以外的角度参数（包括在数据区域1810和1830中的参数）以及第k角度参数的残差（包括在数据区域1890中的参数）。

解码设备（参照图3的300）接收空间参数，所述空间参数包括第一角度参数至第n角度参数中的除第k角度参数以外的角度参数以及第k角度参数的残差。

解码设备（参照图3的300）中的解码单元（参照图3的320）通过使用接收的空间参数和预定值恢复第k角度参数。

详细地，解码单元（参照图3的320）可通过从预定值减去第一角度参数至第n角度参数中的除第k角度参数以外的角度参数的值并从减去的结果补偿第k角度参数的残差来产生第k角度参数。

第k角度参数的残差具有比第k角度参数的值小的数据大小。因此，当将空间参数（包括第一角度参数至第n角度参数中的除第k角度参数以外的角度参数以及第k角度参数的残差）发送到解码设备（参照图3的300）时，编码设备（参照图2的200）和解码设备（参照图3的300）之间发送和接收的数据量可减少。

当针对例如三个声道产生角度参数时，可通过使用值0、1和2感知已被残差编码的声道的角度参数。也就是说，当独立地对所有三个声道进行编码时，需要2比特×3=6比特，但根据下述方法会仅需要5比特。

当D=A+B×3+C×9（%D的范围：0～26）时，如果D的值在解码时已知，则可通过C=floor（D/9）、D’=mod(D,9)、B=floor(D’/3)、A=mod(D’/3)来获得A、B和C。

图19是根据示例性实施例的集成多声道编解码器和核心编解码器的音频信号处理系统1900的框图。

图19中示出的音频信号处理系统1900包括编码设备1910和解码设备1940。根据示例性实施例，音频信号处理系统1900可包括编码设备1910和解码设备1940两者，根据另一示例性实施例，音频信号处理系统1900可包括编码设备1910和解码设备1940中的任何一个。

编码设备1910可包括多声道编码器1920和核心编码器1930，解码设备1940可包括核心解码器1850和多声道解码器1860。

在核心编码器1930和核心解码器1850中使用的编解码器算法的示例可以是AC-3、增强AC-3、使用改进的离散余弦变换（MDCT）的AAC，但不限于此。

图20是根据示例性实施例的音频编码设备2000的框图，其中，音频编码设备2000集成多声道编码器2010和核心编码器2040。

图20中示出的音频编码设备2000包括多声道编码器2010和核心编码器2040，其中，多声道编码器2010可包括变换单元2020和缩混单元2030，核心编码器2040可包括包络编码单元2050、比特分配单元2060、量化单元2070和比特流格式化单元2080。所述组件可被集成为至少一个模块并被实现为至少一个处理器（未示出）。

参照图20，变换单元2020将时域的PCT输入变换为频域的频谱数据。此时，可应用改进的奇离散傅里叶变换（MODFT）。由于根据MODFT=MDCT+jMDST产生MDCT分量，因此现有的逆变换部分和现有的分析滤波器组部分不是必需。另外，由于MODFT具有复数值，因此与MDCT相比可更精确地获得级别/相位/相关性。

缩混单元2030从自变换单元2020提供的频谱数据提取空间参数，并通过对频谱数据进行缩混来产生缩混的频谱。提取的空间参数被提供给比特流格式化单元2080。

包络编码单元2050从自缩混单元2030提供的缩混的频谱的MDCT变换系数以预定的频带为单位获取包络值，并对包络值进行无损编码。这里，可从以预定的频带为单位获得的功率、平均振幅、范数值和平均能量中的任何一个形成包络。

比特分配单元2060通过使用以每个频带为单位获得的包络值产生对变换系数进行编码所需的比特分配信息，并对MDCT变换系数进行归一化。在这种情况下，以每个频带为单位量化和无损编码的包络值可被包括在比特流中并被发送到解码设备（参照图21的2100）。与使用每个频带的包络值的比特分配有关，反量化的包络值可被使用，从而编码设备2000和解码设备（参照图21的2100）使用相同的处理。当范数值被用作包络值时，可以以每个频带为单位使用范数值计算掩蔽阈值，可使用掩蔽阈值感知上预测需要的比特数量。

量化单元2070通过基于从比特分配单元2060提供的比特分配信息对缩混的频谱的MDCT变换系数进行量化，来产生量化索引。

比特流格式化单元2080通过对编码的频谱包络、缩混的频谱的量化索引和空间参数进行格式化来产生比特流。

图21是根据示例性实施例的音频解码设备2100的框图，其中，音频解码设备2100集成核心解码器2110和多声道解码器2160。

图21中示出的音频解码设备2100包括核心解码器2110和多声道解码器2160，其中，核心解码器2110可包括比特流解析单元2120、包络解码单元2130、比特分配单元2140和反量化单元2150，多声道解码器2160可包括增混单元2150和反变换单元2180。所述组件可被集成为至少一个模块并被实现为至少一个处理器（未示出）。

参照图21，比特流解析单元2120通过对经由网络（未示出）发送的比特流进行解析，来提取编码的频谱包络、缩混的频谱的量化索引和空间参数。

包络解码单元2130对从比特流解析单元2120提供的编码的频谱包络进行无损编码。

比特分配单元2140通过使用从比特流解析单元2120以每个频带为单位提供的编码的频谱包络，来分配对变换系数进行解码所需的比特。比特分配单元2140可与图20的音频编码设备2000的比特分配单元2060相同地进行操作。

反量化单元2150通过基于从比特分配单元2140提供的比特分配信息对从比特流解析单元2120提供的缩混的频谱的量化索引进行反量化来产生MDCT分量的频谱数据。

增混单元2170通过使用从比特流解析单元2120提供的空间参数来对从反量化单元2150提供的MDCT组件的频谱数据进行增混，并通过使用从包络解码单元2130提供的解码的频谱包络对增混的频谱进行反归一化。

反变换单元2180通过对从增混单元2170提供的增混的频谱进行反变换来产生时域的脉冲编码调制（PCM）输出。此时，可应用反MODFT以与变换单元相应（参照图20的2020）。为此，可从MDCT分量的频谱数据产生或预测改进的离散正弦变换（MDST）分量的频谱数据。可通过使用MDCT分量的频谱数据和产生或预测的MDST分量的频谱数据产生MODFT分量的频谱数据，来应用反MODFT。反变换单元2180可将反MDCT应用于MDCT分量的频谱数据。为此，可从音频编码设备（参照图20的2000）发送用于补偿在MDCT域进行增混的期间产生的误差的参数。

根据示例性实施例，在平稳信号时间段内，可在MDCT域中进行多声道解码。在非平稳时间段内，可通过在瞬态信号时间段内从MDCT分量产生或预测MDST分量来产生MODFT分量，并在MODFT域对其进行多声道解码。

可使用以预定的频带或帧为单位添加到比特流的标记信息或窗口信息来检查当前信号是与平稳信号时间段相应还是与非平稳信号时间段相应。例如，当短窗口被应用时，当前信号可相应于非平稳信号时间段，当长窗口被应用时，当前信号可相应于平稳信号时间段。

更详细地，当增强AC-3算法应用于核心编解码器时，可通过使用blksw和AHT标记信息来检查当前信号的特性，当AC-3算法应用于核心编解码器时，可通过使用blksw标记信息来检查当前信号的特性。

根据图20和图21，通过使用时/频域变换的MODFT，即使使用不同的变换方案的多声道编解码器和核心编解码器被集成，解码端的复杂度也会减少。另外，即使使用不同的变换方案的多声道编解码器和核心编解码器被集成，现有的合成滤波器组部分和现有的变换部分也不是必需的，因此，可省略重叠相加，从而防止额外的延迟。

根据示例性实施例的方法可被编写为计算机可执行程序，并可被实现在通用数字计算机中，其中，通用数字计算机通过使用性计算机可读记录介质执行程序。另外，在本发明的实施例中可使用的数据结构、程序指令或数据文件可以以各种方式记录在计算机可读记录介质中。计算机可读记录介质可包括存储计算机系统可读取的数据的所有类型的存储装置。计算机可读记录介质的示例包括：磁介质（诸如，硬盘、软盘和磁带）、光学记录介质（诸如，CD-ROM、DVD）、磁光介质（诸如，光盘）和专门被配置为存储和执行程序指令的硬件装置（诸如，只读存储器（ROM）、随机存取存储器（RAM）和闪存）。另外，计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例不仅可包括由编译器创建的机器语言代码，还可包括由计算机系统使用解释器等可执行的高级语言代码。

虽然已参照附图详细地描述了本发明的示例性实施例，但本发明不限于这些实施例。清楚的是在权利要求中公开的技术精神的范围内可由本领域的普通技术人员执行各种改变或修改，应理解这些改变或修改属于本发明的技术范围。

Claims

1.一种音频信号处理方法，包括：

当第一多个输入声道被缩混为第二多个输出声道时，对第一多个输入声道的位置与第二多个输出声道的位置进行比较；

将第一多个输入声道中的具有与第二多个输出声道的位置相同的位置的声道缩混到第二多个输出声道中的在相同位置处的声道；

搜索第一多个输入声道中的剩余的声道中的每个声道的至少一个邻近声道；

考虑声道之间的距离、信号之间的相关性和恢复期间的误差中的至少一个，来确定搜索到的邻近声道的加权因子；

基于确定的加权因子将第一多个输入声道中的剩余的声道中的每个声道缩混到所述邻近声道。