WO2010016270A1 - 量子化装置、符号化装置、量子化方法及び符号化方法 - Google Patents

量子化装置、符号化装置、量子化方法及び符号化方法 Download PDF

Info

Publication number
WO2010016270A1
WO2010016270A1 PCT/JP2009/003798 JP2009003798W WO2010016270A1 WO 2010016270 A1 WO2010016270 A1 WO 2010016270A1 JP 2009003798 W JP2009003798 W JP 2009003798W WO 2010016270 A1 WO2010016270 A1 WO 2010016270A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
power
value
correlation
correlation value
Prior art date
Application number
PCT/JP2009/003798
Other languages
English (en)
French (fr)
Inventor
利幸 森井
佐藤 薫
江原 宏幸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/057,162 priority Critical patent/US20110137661A1/en
Priority to JP2010523771A priority patent/JPWO2010016270A1/ja
Publication of WO2010016270A1 publication Critical patent/WO2010016270A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to a quantization apparatus, an encoding apparatus, a quantization method, and an encoding method, for example, a quantization apparatus and an encoding method using an intensity stereo method, which is a method for encoding a stereo sound signal at a low bit rate.
  • the present invention relates to a quantization apparatus and a quantization method.
  • the intensity stereo system is known as a system for encoding stereo sound signals at a low bit rate.
  • a monaural signal hereinafter referred to as “M signal”
  • L signal left channel signal
  • R signal right channel signal
  • Such a method is also called amplitude panning.
  • the most basic method of amplitude panning is to obtain an L signal and an R signal by multiplying an M signal in the time domain by an amplitude panning gain coefficient (balance weight coefficient) (for example, Non-Patent Document 1).
  • Non-Patent Document 2 there is a method of obtaining an L signal and an R signal by multiplying an M signal by a balance weight coefficient for each frequency component or frequency group in the frequency domain (for example, Non-Patent Document 2).
  • the encoding of the stereo signal can be realized by encoding the balance weight coefficient as the parametric stereo encoding parameter (for example, Patent Document 1 and Patent Document 2).
  • the balance weight coefficient is described as a balance parameter in Patent Document 1 and as an ILD (level difference) in Patent Document 2.
  • Non-Patent Documents 1 and 2 and Patent Documents 1 and 2 Conventionally, as in Non-Patent Documents 1 and 2 and Patent Documents 1 and 2, efficient encoding of stereo signals of L and R signals has been performed.
  • Patent Document 1 discloses that the ratio of left and right volume, which is a balance weighting coefficient in intensity stereo, is obtained and then the ratio is encoded.
  • Patent Document 1 discloses that the ratio of the left and right volume is obtained and then the ratio is encoded.
  • a complicated arithmetic “divide” is used in order to obtain the volume ratio. The amount of calculation is increasing.
  • An object of the present invention is to provide a quantization device, an encoding device, a quantization method, and an encoding method capable of performing more efficient quantization by reducing the amount of calculation in the quantization of the balance weight coefficient. It is.
  • the quantization apparatus quantizes two coefficients that adjust the balance of the amplitude of the third signal obtained by using the result of downmixing the first signal and the second signal.
  • An apparatus wherein three signals of the first signal, the second signal, and the third signal are inputted, a first correlation value between the first signal and the third signal, and the A power / correlation calculation means for calculating a second correlation value between the second signal and the third signal and calculating a first power of the third signal, and a first intermediate using the first power
  • Intermediate value calculating means for calculating a second intermediate value using at least one correlation value of the first correlation value and the second correlation value and the first power, and a plurality of scalar values Is stored on the basis of the code book in which the first intermediate value and the second intermediate value are stored.
  • a code corresponding to the obtained scalar value obtained by searching a balance weight coefficient for adjusting the balance of the amplitude of the third signal with respect to the signal from the plurality of scalar values stored in the codebook. And a search means for obtaining the above.
  • the encoding apparatus includes a downmix unit that generates a third signal using a result of downmixing a first signal and a second signal, the first signal, and the second signal. And the third signal, and a quantization means for outputting a code obtained by performing quantization on two coefficients for adjusting the amplitude balance of the third signal, and the first signal
  • a first balance weight coefficient for adjusting the balance of the amplitude of the third signal with respect to the signal is determined using the sign, and the balance of the amplitude of the third signal with respect to the second signal is determined.
  • a first target signal is generated and the first target signal is generated.
  • Encoding means for encoding a signal, generating a second target signal using the second signal, the third signal, and the second balance weight coefficient, and encoding the second target signal
  • the quantization means calculates a first correlation value between the first signal and the third signal and a second correlation value between the second signal and the third signal.
  • a power / correlation calculating means for calculating a first power of the third signal, a first intermediate value using the first power, and at least one of the first correlation value and the second correlation value.
  • An intermediate value calculation means for calculating a second intermediate value using one correlation value and the first power, a codebook storing a plurality of scalar values, the first intermediate value and the second intermediate value Based on the first balance weighting factor of the plurality of scalar values.
  • search from the adopts a configuration comprising a search means for obtaining the code corresponding to the obtained scalar value, a.
  • the quantization method of the present invention quantizes two coefficients that adjust the balance of the amplitude of the third signal obtained by using the result of downmixing the first signal and the second signal.
  • the method includes inputting three signals, the first signal, the second signal, and the third signal, and a first correlation value between the first signal and the third signal; Calculating a second correlation value between the second signal and the third signal and calculating a first power of the third signal; and a first intermediate using the first power
  • the balance weight coefficient for balancing width by searching among a plurality of scalar values stored in codebook, a search step to obtain a code corresponding to the obtained scalar value, and to have.
  • the encoding method of the present invention includes a downmix step of generating a third signal by using a result of downmixing a first signal and a second signal, the first signal, and the second signal. And the third signal, and a quantization step for outputting a code obtained by performing quantization on two coefficients for adjusting the amplitude balance of the third signal;
  • a first balance weight coefficient for adjusting the balance of the amplitude of the third signal with respect to the signal is determined using the sign, and the balance of the amplitude of the third signal with respect to the second signal is determined.
  • a coefficient determining step for calculating a second balance weight coefficient to be adjusted using the first balance weight coefficient, and using the first signal, the third signal, and the first balance weight coefficient.
  • the quantization step includes calculating a first correlation value between the first signal and the third signal and a second correlation value between the second signal and the third signal. Calculating a power / correlation calculating step of calculating a first power of the third signal; calculating a first intermediate value using the first power; and calculating the first correlation value and the second correlation value.
  • An intermediate value calculating step of calculating a second intermediate value using at least one correlation value of the first power and the first power, and the first balance weight coefficient based on the first intermediate value and the second intermediate value Multiple scans stored in the codebook. By searching from the La value, a search step to obtain the code corresponding to the obtained scalar value, and to have.
  • the block diagram which shows the structure of the encoding apparatus which concerns on Embodiment 1 and 2 of this invention The block diagram which shows the structure of the quantization apparatus which concerns on Embodiment 1 and 2 of this invention
  • Embodiment 1 a configuration for performing encoding and decoding using panning (hereinafter referred to as “balance adjustment”) will be described using the following configuration. That is, in ISO / IEC 14496-3: 1999 (E) “MPEG-2”, p.232, FIG.B.13 (hereinafter referred to as Non-Patent Document 3), Part of the configuration of the encoder widely used as AAC (Advanced Audio Codec), which is the standard system of MPEG-2 and MPEG-4 (the part that generates the side signal from the configuration of the left half of FIG.
  • AAC Advanced Audio Codec
  • the stereo signal allows the listener to enjoy realistic sound by putting different acoustic signals into the listener's left and right ears. Therefore, the simplest stereo signal in the audio signal that is the content is the case of two channels of the L signal and the R signal, and in this embodiment, the case where the input signal is two channels will be described.
  • FIG. 1 is a block diagram showing a configuration of encoding apparatus 100 according to the present embodiment.
  • FIG. 1 is a diagram for encoding a stereo signal in a scalable (multi-layer structure), and using a decoded signal generated by encoding an M signal with a core encoder and then decoding with a core decoder, A configuration is adopted in which a stereo signal is encoded in a region.
  • the encoding apparatus 100 includes a downmix unit 101, a core encoder 102, a core decoder 103, a modified discrete cosine transform (hereinafter referred to as “MDCT (Modified (Discrete Cosine Transform)”) unit 104, an MDCT unit 105, and an MDCT unit.
  • MDCT Modified (Discrete Cosine Transform)
  • 106 a downmix unit 107, an adder unit 108, a quantizer 109, a multiplier unit 110, a multiplier unit 111, an adder unit 112, an adder unit 113, an encoder 114, an encoder 115, and an encoder 116. Is done.
  • the downmix unit 101 inputs an L signal (first signal) and an R signal (second signal), which are vectors of a predetermined length, and downmixes the input L signal and R signal. Thus, the M signal (third signal) is obtained. Then, the downmix unit 101 outputs the obtained M signal to the core encoder 102.
  • Expression (1) shows an example of a downmix calculation method in the downmix unit 101. In the present embodiment, the simplest downmix method of adding the L signal and the R signal and multiplying by 0.5 is used.
  • the core encoder 102 encodes the M signal input from the downmix unit 101 to obtain a code, and outputs the obtained code to the core decoder 103 and the multiplexing unit 117.
  • Core decoder 103 decodes the code input from core encoder 102 to generate a decoded signal, and outputs the generated decoded signal to MDCT section 105.
  • the MDCT unit 104 receives an L signal, performs discrete cosine transform on the input L signal, and converts the signal in the time domain (time domain) to a signal in the frequency domain (frequency domain) (frequency spectrum). MDCT section 104 then outputs the converted signal to downmix section 107, addition section 112, and quantization apparatus 109.
  • the MDCT unit 105 performs discrete cosine transform on the decoded signal input from the core decoder 103, and converts the signal in the time domain (time domain) into a signal in the frequency domain (frequency domain) (frequency spectrum). Then, MDCT unit 105 outputs the converted signal to addition unit 108.
  • the MDCT unit 106 receives an R signal, performs discrete cosine transform on the input R signal, and converts the signal in the time domain (time domain) into a signal in the frequency domain (frequency domain) (frequency spectrum). MDCT section 106 then outputs the converted signal to downmix section 107, addition section 113, and quantization apparatus 109.
  • the downmix unit 107 downmixes the L signal input from the MDCT unit 104 and the R signal input from the MDCT unit 106 to obtain an M signal. Then, the downmix unit 107 outputs the obtained M signal to the adder unit 108.
  • the downmix unit 107 is different from the downmix unit 101 in that it does not downmix the time domain signal but downmix the frequency domain signal. Note that the downmix calculation method is the same as that in Equation (1), and thus the description thereof is omitted.
  • the adding unit 108 subtracts the signal input from the MDCT unit 105 from the M signal input from the downmix unit 107 to calculate a target M signal (hereinafter referred to as “target M signal”). Then, the adding unit 108 outputs the calculated target M signal to the multiplying unit 110, the multiplying unit 111, the encoder 115, and the quantizing device 109.
  • target M signal a target M signal
  • the quantizer 109 encodes a balance weight coefficient used for balance adjustment using the L signal input from the MDCT unit 104, the target M signal input from the adder unit 108, and the R signal input from the MDCT unit 106. Find the sign of the weighting factor. Further, the quantization device 109 outputs the obtained code to the multiplexing unit 117.
  • the quantizing device 109 uses the acquired L signal balance weight coefficient w L to adjust the balance of the amplitude of the target M signal with respect to the R signal, the balance weight coefficient w R (hereinafter referred to as “R signal balance weight coefficient w R ”) and the balance weight coefficient w R of the obtained R signal is set in the multiplier 111.
  • R signal balance weight coefficient w R the balance weight coefficient w R of the obtained R signal is set in the multiplier 111.
  • the multiplier 110 multiplies the target M signal input from the adder 108 by the balance weight coefficient w L of the L signal input from the quantizer 109 and outputs the result to the adder 112.
  • Multiplier 111 the target M signal input from the adder 108, and outputs the multiplied balance weight coefficient w R of the R signal input from the quantizer 109 to the adder 113.
  • the adder 112 subtracts the target M signal, which is input from the multiplier 110 and multiplied by the balance weight coefficient w L of the L signal, from the L signal input from the MDCT unit 104 to obtain a target L signal (hereinafter referred to as “target L”). Signal)). Then, the adding unit 112 outputs the obtained target L signal to the encoder 114.
  • target L a target L signal
  • the adder 113 subtracts the target M signal input from the multiplier 111 and multiplied by the balance weight coefficient w R of the R signal from the R signal input from the MDCT unit 106 to obtain a target R signal (hereinafter referred to as “target R”). Signal)). Then, the adding unit 113 outputs the obtained target R signal to the encoder 116. Calculations in the adding unit 112 and the adding unit 113 are shown in Equation (2).
  • the above algorithm corresponds to the conversion between L signal and R signal using balance adjustment.
  • the balance weight coefficient represents the similarity between the target M signal and the L signal or R signal. Therefore, the target L signal and the target R signal obtained by subtracting the target M signal multiplied by the balance weight coefficient from the L signal and the R signal are signals in which redundant portions are omitted by the target M signal, and the power as the signal is increased. Since both are reduced, both can be efficiently encoded.
  • the encoder 114 encodes the target L signal input from the adding unit 112 and outputs the code obtained by the encoding to the multiplexing unit 117.
  • the encoder 115 encodes the target M signal input from the adding unit 108 and outputs a code obtained by encoding to the multiplexing unit 117.
  • the encoder 116 encodes the target R signal input from the adder 113 and outputs a code obtained by encoding to the multiplexer 117.
  • the multiplexing unit 117 multiplexes the codes input from the core encoder 102, the quantization device 109, the encoder 114, the encoder 115, and the encoder 116, and outputs a multiplexed bit stream.
  • FIG. 2 is a block diagram showing the configuration of the quantization device 109.
  • the quantizing device 109 mainly includes a power / correlation calculation unit 201, an intermediate value calculation unit 202, a code book 203, a search unit 204, and a decoding unit 205.
  • the power / correlation calculation unit 201 uses the L signal input from the MDCT unit 104, the target M signal input from the addition unit 108, and the R signal input from the MDCT unit 106 to perform power calculation and correlation value calculation. Do. Then, the power / correlation calculation unit 201 outputs the calculated power and the correlation value to the intermediate value calculation unit 202.
  • the power and the correlation value can be obtained by equation (3).
  • the intermediate value calculation unit 202 obtains two intermediate values using the power and the correlation value input from the power / correlation calculation unit 201. Then, intermediate value calculation section 202 outputs the obtained intermediate value to search section 204.
  • the intermediate value can be obtained by equation (4).
  • the code book 203 is information stored in a storage means such as a ROM (Read Only Memory), and is composed of a plurality of scalar values selected as weighting factors for the L signal.
  • FIG. 3 is a diagram showing an example of scalar values stored in the code book 203 numbered in the present embodiment.
  • the scalar value stored in the codebook 203 is a value only on the L side of the balance weight coefficient.
  • the search unit 204 searches for an optimum one from a plurality of scalar values stored in the codebook 203, and encodes a balance weight coefficient by selecting a number corresponding to the optimum scalar value found by the search. To do. As a specific example, the search unit 204 searches for a number N that minimizes the cost function shown in Equation (5). Then, the search unit 204 outputs the selected number N as a code to the multiplexing unit 117. In addition, the search unit 204 outputs the code output to the multiplexing unit 117 to the decoding unit 205.
  • the scalar value stored in the codebook 203 is squared. In this case, by storing the squared value in the codebook 203 in advance, the amount of calculation is further reduced. Can be searched.
  • N is the sign of the balance weight coefficient of the L signal
  • w L and w R are the decoded balance weight coefficients.
  • the constant 2.0 is a value set according to the quantitative relationship between the amplitudes of the signals during the downmix in the downmix unit 101. The reason why the balance weight coefficient of the R signal is obtained by subtracting the balance weight coefficient of the L signal from the constant 2.0 will be described later.
  • the decoding unit 205 sets the balance weight coefficient of the L signal in the multiplication unit 110 and sets the balance weight coefficient of the R signal in the multiplication unit 111.
  • the M signal is an average value of the L signal and the R signal.
  • equation (8) is obtained.
  • equation (6) the balance weight coefficient that minimizes the power of the equation on the R signal side is as in equation (9).
  • the M signal has the relationship of the expression (1)
  • the addition result of the balance weight coefficient of the L signal and the balance weight coefficient of the R signal is expressed by the expression (10) from the expressions (1) and (3). become that way.
  • the target M signal is not a simple relationship as shown in equation (1), but is quantized in a scalable manner as shown in FIG. Assuming that it is dominant, the balance weight coefficient is quantized in the relationship of equation (10). With this assumption, the number of parameters to be quantized (encoded) can be reduced to one, so that encoding at a low bit rate is possible.
  • the third term is irrelevant to the balance weight coefficient w L of the L signal and is omitted, and only the sum of the first term and the second term is used as the cost function.
  • Each value multiplied by each balance weight coefficient becomes two intermediate values shown in the equation (4). Further, the smaller this cost function is, the smaller the total power of the target L signal and the target R signal can be, and the search for the balance weight coefficient w L of such L signal is the optimal balance weight coefficient. Is quantized (encoded).
  • the power of the target L signal and the power of the target R signal can be reduced, and good quality speech is transmitted at a low bit rate. can do.
  • the encoder used is a codec simulator that performs scalable spectrum quantization of a stereo signal (16 kHz sampling) similar to Non-Patent Document 3.
  • the evaluation data is data (24 seconds) appended with 6 voices uttered from various sound source positions.
  • the number of quantization bits of the balance weight coefficient is 4 bits.
  • the balance weighting coefficient itself is not calculated, and calculation that increases the amount of calculation such as division that is a complex arithmetic as in Patent Document 1 is not performed.
  • the number of numbers and scalar values stored in the codebook 203 are relatively small, such as 16 types that can specify a number with 4 bits.
  • the present invention by not calculating the balance weight coefficient itself, the amount of calculation in quantization is reduced, and more efficient quantization can be performed.
  • the present embodiment is characterized in that, when encoding and decoding are performed using balance adjustment, the quantization apparatus performs calculations different from those in the first embodiment.
  • the configuration of the encoding apparatus is the same as that in FIG.
  • the configuration of the quantization device is the same as that in FIG. In the following description, description will be made using the reference numerals in FIGS.
  • the power / correlation calculation unit 201 uses the L signal input from the MDCT unit 104, the target M signal input from the addition unit 108, and the R signal input from the MDCT unit 106 to perform power calculation and correlation value calculation. Do. Then, the power / correlation calculation unit 201 outputs the calculated power and the correlation value to the intermediate value calculation unit 202. The power / correlation calculation unit 201 obtains the power and the correlation value by the equation (12).
  • ⁇ , ⁇ , and ⁇ indicating the ratio of adding power components may be variables, constants, or different numerical values.
  • ⁇ , ⁇ , and ⁇ are set to constants, it is confirmed by experiment that good performance can be obtained by setting the three ⁇ , ⁇ , and ⁇ to about 0.25 in advance. Yes.
  • the adjustment power of the target M signal, the adjustment correlation value between the target M signal and the L signal, and the adjustment correlation value between the target M signal and the R signal are the correlation between the power of the target M signal and the target M signal and the L signal.
  • the correlation value with the signal is redefined, and the adjustment correlation value between the target M signal and the R signal is redefined as the correlation value between the target M signal and the R signal.
  • the power / correlation calculation unit 201 performs smoothing to suppress temporal variation of the variables.
  • the power / correlation calculation unit 201 performs the calculation according to the equation (13), and performs smoothing by applying the result of the equation (13) to the equation (14) and updating each state.
  • each state is a variable stored in a static memory area during the encoding process. Therefore, when starting the encoding process, it is necessary to initialize the three states to “0”. Further, ⁇ indicating the smoothing ratio may be a variable or a constant. As an example, it has been experimentally confirmed that good performance can be obtained when ⁇ is set to 0.5 to 0.7. Note that the power / correlation calculation unit 201 does not perform smoothing when ⁇ is 1.0.
  • the smoothing power of the target M signal, the smoothing correlation value of the target M signal and the L signal, and the smoothing correlation value of the target M signal and the R signal are the power of the target M signal, the target M signal and the L signal.
  • the correlation value between the target M signal and the R signal, the power state of the target M signal, the state of the correlation value between the target M signal and the L signal, and the correlation value between the target M signal and the R signal are the power of the target M signal, the target M signal and the L signal.
  • the smoothing power of the target M signal is redefined as the power of the target M signal
  • the target M signal and the L signal are
  • the smoothing correlation value is redefined as the correlation value between the target M signal and the L signal
  • the smoothing correlation value between the target M signal and the R signal is redefined as the correlation value between the target M signal and the R signal.
  • intermediate value calculation section 202 the processing in intermediate value calculation section 202, code book 203, search section 204, and decoding section 205 is the same as that in the first embodiment, and the description thereof is omitted. .
  • the present embodiment is different from the first embodiment in that the power of the L signal or the power of the R signal in the equation (12) is added.
  • the power of the L signal or the power of the R signal in the equation (12) is added.
  • equation (12) can be derived. Experiments have verified that good sound quality can be obtained particularly when the transmission rate is low (when the coding distortion is large).
  • the addition of the values of the power terms other than the cross term C LR is the addition of the power of the existing signal, so that it is necessary to greatly increase the amount of calculation required for weight quantization. Don't be. Therefore, a large effect can be obtained with a small increase in calculation amount.
  • the influence of the cross term between a plurality of signals is reduced, so that the quantization error is relatively large. It is possible to avoid an uncomfortable sound quality in which the pressure changes extremely, and to suppress an increase in the amount of calculation and obtain a good sound quality.
  • the present embodiment is characterized in that when encoding and decoding are performed using balance adjustment, the quantization device performs calculations different from those in the first and second embodiments.
  • the configuration of the encoding apparatus is the same as that in FIG.
  • the configuration of the quantization device is the same as that in FIG. In the following description of the quantization apparatus, description will be made using the reference numerals in FIGS. 1 and 2.
  • the power / correlation calculation unit 201 uses the L signal input from the MDCT unit 104, the target M signal input from the addition unit 108, and the R signal input from the MDCT unit 106 to perform power calculation and correlation value calculation. Do. Then, the power / correlation calculation unit 201 outputs the calculated power and the correlation value to the intermediate value calculation unit 202.
  • the power / correlation calculation unit 201 obtains the power and the correlation value by the equation (12) or the following equation (17).
  • the equation (17) is an algorithm corresponding to the first embodiment
  • the equation (12) is an algorithm corresponding to the second embodiment.
  • the power / correlation calculation unit 201 when the power / correlation calculation unit 201 obtains the power and the correlation value by the equation (12), the power / correlation calculation unit 201 suppresses the temporal variation of the variable in the equation (12). Smoothing is performed as shown in the equation. Further, when the power / correlation calculation unit 201 obtains the power and the correlation value by the equation (17), the power / correlation calculation unit 201 performs the calculation by the equation (18) in order to suppress the temporal variation of the variable in the equation (17). , (18) is applied to the equation (19), and each state is updated to perform smoothing.
  • the smoothing power of the target M signal, the smoothing correlation value of the target M signal and the L signal, the smoothing correlation value of the target M signal and the R signal, the smoothing power of the L signal, and the smoothing power of the R signal Is the target M signal power, the correlation value between the target M signal and the L signal, the correlation value between the target M signal and the R signal, the power of the L signal, and the power of the R signal, the power state of the target M signal, Smoothed using target M signal and L signal correlation value state, target M signal and R signal correlation value state, L signal power state, R signal power state, and smoothing ratio Therefore, in the following description, the smoothing power of the target M signal is redefined as the power of the target M signal, and the smoothing correlation value between the target M signal and the L signal is the correlation between the target M signal and the L signal.
  • the smoothing correlation value between the target M signal and the R signal is redefined as the correlation value between the target M signal and the R signal
  • the smoothing power of the L signal is redefined as the power of the L signal
  • the smoothing of the R signal is performed. The description will be made by redefining the power to be the power of the R signal.
  • the intermediate value calculation unit 202 obtains five intermediate values using the power and the correlation value input from the power / correlation calculation unit 201. Then, intermediate value calculation section 202 outputs the obtained intermediate value to search section 204.
  • An intermediate value can be calculated
  • the code book 203 is information stored in a storage means such as a ROM, and includes a plurality of scalar values selected as balance weighting factors of the L signal, weighting factors, and calculated values obtained from the weighting factors. The contents of the information stored in the code book 203 will be described later.
  • the search unit 204 searches for an optimum one from a plurality of scalar values stored in the codebook 203, and encodes a balance weight coefficient by selecting a number corresponding to the optimum scalar value found by the search. To do. As a specific example, the search unit 204 searches for a number N that minimizes the cost function shown in Equation (21). Then, the search unit 204 outputs the selected number N as a code to the multiplexing unit 117. In addition, the search unit 204 outputs the code output to the multiplexing unit 117 to the decoding unit 205. In the present embodiment, the processing in decoding section 205 is the same as that in the first embodiment, and a description thereof will be omitted.
  • the cost function is different from that in the first and second embodiments.
  • the cost function of the expression (11) is used.
  • the cost function of the expression (11) there is not much between the power of the signal L f and the power of the signal R f.
  • FIG. 4 is a diagram showing a part of information stored in the code book 203 in the present embodiment.
  • the size of the codebook 203 is 16 (4 bits).
  • the calculated values w n 0 , w n 1 , and w n 2 necessary for the calculation of the equation (21) are obtained in advance by the following equation (24) and stored in the codebook 203.
  • the intermediate value is obtained by the equation (20), the scalar value is efficiently obtained by the codebook 203 and the equation (21) designed by the above procedure, and the balance weight coefficient is calculated. Quantization is possible. As a result, in the case where there is a large difference between the values of the two terms on the L signal side and the R signal side constituting the cost function, the signal with the smaller value is generated because the term with the larger value becomes dominant. Deterioration can be avoided, and synthetic sound with better sound quality can be obtained comprehensively.
  • the codebook has 16 types (4 bits).
  • the present embodiment is not limited to this, and it is obvious that other sizes can be used. This is because the present invention does not depend on the size of the codebook.
  • the present invention is not limited to this, and can also be applied to encoding of stereo signals without a core encoder. This is because the present invention efficiently encodes the balance weight coefficient using the fact that the M signal is obtained by downmixing, and therefore does not depend on the presence or absence of the core encoder.
  • the quantizing device 109 may handle the decoded signal or the downmixed M signal. This is because the present invention efficiently encodes the balance weight coefficient using the fact that the M signal is obtained by downmixing, and therefore does not depend on the quality of the M signal used.
  • the case where the sum of the balance weight coefficients of the L signal and the R signal is fixed to 2.0 is disclosed.
  • the present invention is not limited to this, and the L signal
  • the sum of the balance weight coefficients of the R signal and the R signal may have a value other than 2.0 such as 1.9 or 1.85 because the optimum value may differ depending on the nature of the M signal.
  • a value slightly smaller than 2.0 is set. It may be possible to obtain good coding performance.
  • the encoding performance is evaluated while changing the number of sums little by little, and the peak value is fixed as the sum of the balance weight coefficients of the L signal and the R signal and used for encoding. The method is mentioned.
  • downmixing is performed after conversion to the frequency domain.
  • the present invention is not limited to this, and a signal downmixed in the time domain is converted to the frequency domain.
  • the effectiveness of the present invention is clear. This is because the present invention does not depend on a region where downmixing is performed.
  • MDCT is used as a method for conversion to the frequency domain.
  • the present invention is not limited to this, and similar to MDCT such as “DCT” or “FFT”. Any method may be used as long as it is a digital conversion method. This is because the present invention does not depend on the frequency conversion method.
  • the three signals may be time domain signals, frequency domain signals, or partial sections thereof. This is because the present invention does not depend on the nature of the vector.
  • the codes obtained in the first to third embodiments are transmitted when used for communication and stored in a recording medium (memory, disk, print code, etc.) when used for storage.
  • a recording medium memory, disk, print code, etc.
  • the present invention is not limited to this, and can be applied to the case of multi-channels such as 5.1 ch.
  • the L signal, the R signal, and the M signal are encoded.
  • the present invention is not limited to this, and the frequency spectrum obtained from the L signal, the R signal, and the M signal is not limited thereto.
  • the partial sections may be encoded as the first signal, the second signal, and the third signal, respectively.
  • the target M signal is subjected to balance adjustment before encoding.
  • the present invention is not limited to this, and may be encoded before balance adjustment. That is, the encoder 115 may be present at a position closer to the input than the adding unit 108. This is because in the present invention, the balance adjustment of the target M signal does not depend on before and after encoding.
  • the quantization device and the coding device according to the present invention can be mounted on a communication terminal device and a base station device in a mobile communication system, and thereby a communication terminal device having the same operational effects as described above, A base station apparatus and a mobile communication system can be provided.
  • the present invention can also be realized by software.
  • the function according to the present invention can be realized by describing the algorithm according to the present invention in a programming language, storing the program in a memory, and causing the information processing means to execute the same function as the encoding apparatus according to the present invention. it can.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • LSI LSI
  • IC system LSI
  • super LSI ultra LSI
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the quantization apparatus, encoding apparatus, quantization method, and encoding method according to the present invention are suitable for encoding, for example, a stereo sound signal at a low bit rate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 バランス重み係数の量子化における計算量を少なくして、より効率的な量子化を行うことができる量子化装置。この装置では、パワ・相関計算部(201)は、L信号とM信号との相関値及びR信号とM信号との相関値を求めるとともに、M信号のパワを計算する。中間値計算部(202)は、M信号のパワと各相関値とを用いて2つの中間値を求める。符号帳(203)は、複数のスカラ値を保持する。探索部(204)は、2つの中間値に基づいて、複数の前記スカラ値の中から、L信号に対するM信号の振幅のバランス調整用の係数を選択する。復号部(205)は、L信号とR信号とをダウンミックスしてM信号を生成する際の各信号間の振幅の定量的関係に基づいて、探索部(204)により選択されたL信号に対するM信号のバランス調整用の係数を用いて、R信号に対するM信号のバランス調整用の係数を求める。

Description

量子化装置、符号化装置、量子化方法及び符号化方法
 本発明は、量子化装置、符号化装置、量子化方法及び符号化方法に関し、例えばステレオ音響信号を低ビットレートで符号化する方式であるインテンシティステレオ方式の手法を応用した量子化装置、符号化装置及び量子化方法に関する。
 移動体通信においては伝送帯域の有効利用のために音声や画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック(符号化/復号)技術において、更に良い音質を得るべく、圧縮率の高い従来の高効率符号化に対する要求が強まっている。
 また、近年では多層構造を持つスケーラブルコーデックの標準化がITU-T(International Telecommunication Union Telecommunication Standardization Sector)やMPEG(Moving Picture Experts Group)で検討されており、より効率的で高品質の音声コーデックが求められている。また、近年では、音声コーデックの際に、16kbps~32kbpsの高いビットレートが設定されるようになり、また、音楽に対する品質や臨場感(マルチチャネル、ステレオ音響)のニーズを満たすものが求められるようになってきた。
 ステレオ音響信号を低ビットレートで符号化する方式として、インテンシティステレオ方式が知られている。インテンシティステレオ方式では、モノラル信号(以下「M信号」と記載する)にスケーリング係数を乗じて左チャネル信号(以下「L信号」と記載する)と右チャネル信号(以下「R信号」と記載する)とを生成する手法を採る。このような手法は振幅パニング(amplitude panning)とも呼ばれる。
 振幅パニングの最も基本的な手法は、時間領域におけるM信号に振幅パニング用の利得係数(バランス重み係数)を乗じてL信号およびR信号を求めるものである(例えば、非特許文献1)。
 また、別な手法として、周波数領域において個々の周波数成分ごと、または周波数グループごとにM信号にバランス重み係数を乗じてL信号およびR信号を求めるものもある(例えば、非特許文献2)。
 バランス重み係数をパラメトリックステレオの符号化パラメータとして符号化することによりステレオ信号の符号化を実現することができる(例えば、特許文献1および特許文献2)。バランス重み係数は、特許文献1においてはバランスパラメータとして、特許文献2においてはILD(レベル差)として、それぞれ説明されている。
 また、従来においては、非特許文献1~2及び特許文献1~2のように、L信号とR信号とのステレオ信号の効率的な符号化を行っていた。
 その中でも、特許文献1には、インテンシティステレオにおけるバランス重み係数である左右の音量の比を求めてから、その比を符号化する旨が開示されている。
特表2004-535145号公報 特表2005-533271号公報
V.Pulkki and M.Karjalainen,"Localization of amplitude-panned virtual sources I: Stereophonic panning",Journal of the Audio Engineering Society,Vol.49,No.9,2001年9月,pp.739-752 B.Cheng,C.Ritz and I.Burnett,"Principles and analysis of the squeezing approach to low bit rate spatial audio coding",proc.IEEE ICASSP2007,pp.I-13-I-16,2007年4月
 しかしながら、従来の装置においては、バランス重み係数を量子化する際に、バランス重み係数の算出と量子化における計算量が大きくなるという問題がある。例えば特許文献1には、左右の音量の比を求めてからその比を符号化する旨が開示されているが、音量比を求めるために複雑な算術である「除算」を使用しているために計算量が多くなっている。
 本発明の目的は、バランス重み係数の量子化における計算量を少なくして、より効率的な量子化を行うことができる量子化装置、符号化装置、量子化方法及び符号化方法を提供することである。
 本発明の量子化装置は、第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化装置であって、前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて、第2中間値を算出する中間値計算手段と、複数のスカラ値が格納された符号帳と、前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、前記符号帳に格納されている前記複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索手段と、を具備する構成を採る。
 本発明の符号化装置は、第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックス手段と、前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化手段と、前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定手段と、前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化手段と、を具備し、前記量子化手段は、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算手段と、複数のスカラ値が格納された符号帳と、前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、前記複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索手段と、を具備する構成を採る。
 本発明の量子化方法は、第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化方法であって、前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索ステップと、を有するようにした。
 本発明の符号化方法は、第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックスステップと、前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化ステップと、前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定ステップと、前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化ステップと、を有し、前記量子化ステップは、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索ステップと、を有するようにした。
 本発明によれば、より効率的なバランス重み係数の量子化を行うことができる。
本発明の実施の形態1及び2に係る符号化装置の構成を示すブロック図 本発明の実施の形態1及び2に係る量子化装置の構成を示すブロック図 本発明の実施の形態1に係る符号帳に番号付けられて格納されているスカラ値の一例を示す図 本発明の実施の形態3に係る符号帳に格納されている情報の一部を示す図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 本実施の形態においては、パニング(以後「バランス調整」と呼ぶ)を利用して符号化及び復号を行う構成を、以下の構成を用いて説明する。すなわち、「ISO/IEC 14496-3:1999(E) “MPEG-2”, p.232, FIG.B.13」(以後、非特許文献3と呼ぶ)に示されている、ISO/IECにおけるMPEG-2及びMPEG-4の標準方式であるAAC(Advanced Audio Codec)として広く使用されている符号化器の構成の一部(FIG.B.13の左半分の構成からサイド信号を生成する部分を除いた構成)を用い、この構成の右側に特許文献1記載のインテンシティステレオの構成要素を加え、それぞれの信号の出力先に符号器を追加することにより、全体の情報を符号化して伝送する、という構成を全体構成として挙げる。
 また、ステレオ信号は、聞く人の左耳と右耳とに異なる音響信号を入れることによって、聞く人が臨場感のある音響を楽しめるようになっている。したがって、コンテンツである音響信号において、最もシンプルなステレオ信号は、L信号とR信号との2チャンネルの場合であり、本実施の形態では入力信号が2チャンネルの場合について説明する。
 最初に、本発明の実施の形態に係る符号化装置の構成について説明する。
 図1は、本実施の形態に係る符号化装置100の構成を示すブロック図である。
 図1は、ステレオ信号をスケーラブル(多層構造)で符号化するものであり、M信号をコア符号化器で符号化し、その後、コア復号器で復号することにより生成した復号信号を用いて、周波数領域でステレオ信号を符号化する構成をとる。
 符号化装置100は、ダウンミックス部101、コア符号化器102、コア復号器103、修正離散コサイン変換(以下「MDCT(Modified Discrete Cosine Transform)」と記載する)部104、MDCT部105、MDCT部106、ダウンミックス部107、加算部108、量子化装置109、乗算部110、乗算部111、加算部112、加算部113、符号化器114、符号化器115及び符号化器116から主に構成される。
 ダウンミックス部101は、予め定められた長さのベクトルである、L信号(第1の信号)とR信号(第2の信号)とを入力し、入力したL信号とR信号とをダウンミックスしてM信号(第3の信号)を求める。そして、ダウンミックス部101は、求めたM信号をコア符号化器102へ出力する。(1)式は、ダウンミックス部101における、ダウンミックスの計算方法の一例を示すものである。本実施の形態では、L信号とR信号とを加算して0.5を乗ずるという最もシンプルなダウンミックス方法を用いる。
Figure JPOXMLDOC01-appb-M000001
 コア符号化器102は、ダウンミックス部101から入力したM信号を符号化して符号を求め、求められた符号をコア復号器103及び多重化部117へ出力する。
 コア復号器103は、コア符号化器102から入力した符号を復号して復号信号を生成し、生成した復号信号をMDCT部105へ出力する。
 MDCT部104は、L信号を入力し、入力したL信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部104は、変換後の信号をダウンミックス部107、加算部112及び量子化装置109へ出力する。
 MDCT部105は、コア復号器103から入力した復号信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部105は、変換後の信号を加算部108へ出力する。
 MDCT部106は、R信号を入力し、入力したR信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部106は、変換後の信号をダウンミックス部107、加算部113及び量子化装置109へ出力する。
 ダウンミックス部107は、MDCT部104から入力したL信号とMDCT部106から入力したR信号をダウンミックスしてM信号を求める。そして、ダウンミックス部107は、求めたM信号を加算部108へ出力する。ダウンミックス部107がダウンミックス部101と異なる点は、時間領域の信号をダウンミックスするのではなく、周波数領域の信号をダウンミックスする点である。なお、ダウンミックスの計算方法は式(1)と同様であるため、その説明を省略する。
 加算部108は、MDCT部105から入力した信号を、ダウンミックス部107から入力したM信号から減じて、ターゲットとなるM信号(以下「ターゲットM信号」と記載する)を算出する。そして、加算部108は、算出したターゲットM信号を乗算部110、乗算部111、符号化器115及び量子化装置109へ出力する。
 量子化装置109は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、バランス調整に使用するバランス重み係数を符号化して重み係数の符号を求める。また、量子化装置109は、求めた符号を多重化部117へ出力する。また、量子化装置109は、求めた符号を復号してL信号に対するターゲットM信号の振幅のバランスを調整するバランス重み係数w(以下、「L信号のバランス重み係数w」と記載する)を取得し、取得したL信号のバランス重み係数wを乗算部110にセットする。また、量子化装置109は、取得したL信号のバランス重み係数wを用いて、R信号に対するターゲットM信号の振幅のバランスを調整するバランス重み係数w(以下、「R信号のバランス重み係数w」と記載する)を求めて、求めたR信号のバランス重み係数wを乗算部111にセットする。なお、量子化装置109の詳細な構成については後述する。
 乗算部110は、加算部108から入力したターゲットM信号に対して、量子化装置109から入力したL信号のバランス重み係数wを乗じて加算部112へ出力する。
 乗算部111は、加算部108から入力したターゲットM信号に対して、量子化装置109から入力したR信号のバランス重み係数wを乗じて加算部113へ出力する。
 加算部112は、乗算部110から入力した、L信号のバランス重み係数wを乗じたターゲットM信号を、MDCT部104から入力したL信号から減じて、ターゲットとなるL信号(以下「ターゲットL信号」と記載する)を求める。そして、加算部112は、求めたターゲットL信号を符号化器114へ出力する。
 加算部113は、乗算部111から入力した、R信号のバランス重み係数wを乗じたターゲットM信号を、MDCT部106から入力したR信号から減じて、ターゲットとなるR信号(以下「ターゲットR信号」と記載する)を求める。そして、加算部113は、求めたターゲットR信号を符号化器116へ出力する。加算部112及び加算部113における計算を(2)式に示す。
Figure JPOXMLDOC01-appb-M000002
 上記アルゴリズムがバランス調整を利用したL信号とR信号との変換に相当する。バランス重み係数は、ターゲットM信号と、L信号またはR信号との類似性を表している。従って、バランス重み係数を乗じたターゲットM信号を、L信号及びR信号から減じたターゲットL信号及びターゲットR信号は、ターゲットM信号により冗長となる部分を省かれた信号となり、信号としてのパワが減少するので、両者は効率よく符号化できるようになる。
 符号化器114は、加算部112から入力したターゲットL信号を符号化して求められた符号を多重化部117へ出力する。符号化器115は、加算部108から入力したターゲットM信号を符号化して求められた符号を多重化部117へ出力する。符号化器116は、加算部113から入力したターゲットR信号を符号化して求められた符号を多重化部117へ出力する。
 多重化部117は、コア符号化器102、量子化装置109、符号化器114、符号化器115および符号化器116から入力した各符号を多重化し、多重化後のビットストリームを出力する。
 次に、量子化装置109の構成について、図2を用いて説明する。図2は、量子化装置109の構成を示すブロック図である。
 量子化装置109は、パワ・相関計算部201、中間値計算部202、符号帳203、探索部204及び復号部205から主に構成される。
 パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワと相関値とは、(3)式により求めることができる。
Figure JPOXMLDOC01-appb-M000003
 中間値計算部202は、パワ・相関計算部201から入力したパワと相関値とを用いて2つの中間値を求める。そして、中間値計算部202は、求めた中間値を探索部204へ出力する。中間値は、一例として、(4)式により求めることができる。
Figure JPOXMLDOC01-appb-M000004
 符号帳203は、ROM(Read Only Memory)等の記憶手段に格納されている情報であり、L信号の重み係数として選択される複数のスカラ値から成る。図3は、本実施の形態における符号帳203に番号付けられて格納されているスカラ値の一例を示す図である。なお、符号帳203に格納されているスカラ値はバランス重み係数のL側のみの値である。
 探索部204は、符号帳203に格納されている複数のスカラ値の中から最適なものを探索し、探索により見つけた最適なスカラ値に対応する番号を選択することによりバランス重み係数を符号化する。具体的な例としては、探索部204は、(5)式に示すコスト関数が最も小さくなる番号Nを探索する。そして、探索部204は、選択した番号Nを符号として多重化部117へ出力する。また、探索部204は、多重化部117へ出力した符号を復号部205へ出力する。
Figure JPOXMLDOC01-appb-M000005
 なお、(5)式において、符号帳203に格納されたスカラ値を2乗しているが、この場合は、2乗した値を符号帳203にあらかじめ格納しておくことにより、さらに少ない計算量で探索することができる。
 復号部205は、探索部204から入力した符号(番号N)を復号してL信号のバランス重み係数を求める(w=w )。即ち、復号部205は、符号帳203に格納されている複数のスカラ値の中から、探索部204から入力した符号(番号N)に対応するスカラ値を、L信号のバランス重み係数として取り出す。
 また、復号部205は、得られたL信号のバランス重み係数を所定の定数から減算した減算結果をR信号のバランス重み係数とする。例えば、復号部205は、定数2.0からL信号のバランス重み係数を減算してR信号のバランス重み係数を求める(w=2.0-w )。ここで、Nは、L信号のバランス重み係数の符号であり、w及びwは、復号されたバランス重み係数である。定数2.0は、ダウンミックス部101におけるダウンミックスの際の各信号間の振幅の定量的関係に応じて設定された値である。なお、定数2.0からL信号のバランス重み係数を減じることによりR信号のバランス重み係数を求める理由は後述する。
 また、復号部205は、L信号のバランス重み係数を乗算部110にセットし、R信号のバランス重み係数を乗算部111にセットする。
 次に、本発明によって量子化及び復号されたバランス重み係数によるバランス調整の理論的裏づけについて詳細に説明を行う。
 まず、バランス調整を利用したL信号とR信号との効率的な符号化は、(6)式における変換値のパワを最小にすることにより行われる。なお、この場合のM信号は、L信号とR信号との平均値を取ったものとする。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 次に、(6)式において、L信号側のパワを最小にするバランス重み係数を計算すると、(8)式のようになる。
Figure JPOXMLDOC01-appb-M000008
 また、同様に、(6)式において、R信号側の式のパワを最小にするバランス重み係数は(9)式のようになる。
Figure JPOXMLDOC01-appb-M000009
 つまり、上記(8)式及び(9)式のバランス重み係数を選択すれば、L信号及びR信号のパワを最小にすることができる。
 また、M信号に(1)式の関係があることにより、L信号のバランス重み係数とR信号のバランス重み係数との加算結果は、(1)式及び(3)式より、(10)式のようになる。
Figure JPOXMLDOC01-appb-M000010
 そこで、本実施の形態では、ターゲットM信号は、(1)式のような単純な関係ではなく、図1の様にスケーラブルにて量子化されるものではあるが、(1)式の関係が支配的であると仮定して、(10)式の関係において、バランス重み係数の量子化を行うものとする。この仮定により、量子化(符号化)するパラメータを1つにすることが出来るので低ビットレートでの符号化が可能になる。
 また、L信号のバランス重み係数wのみを、符号帳203を用いて探索して量子化(符号化)を行い、R信号のバランス重み係数wは(10)式の関係より求める。この場合の探索のコスト関数Fは、(11)式のようになる。
Figure JPOXMLDOC01-appb-M000011
 上記の(11)式において、第3項はL信号のバランス重み係数wと無関係なので省略し、第1項と第2項との和のみをコスト関数として使用する。この各バランス重み係数に乗じられる各々の値が、(4)式に示す2つの中間値になる。また、このコスト関数が小さいほど、ターゲットL信号とターゲットR信号とのパワの総和を小さくすることができ、そのようなL信号のバランス重み係数wを探索することが、最適なバランス重み係数を量子化(符号化)することになる。
 また、上記の符号化によって得られたバランス重み係数を使用することによって、ターゲットL信号のパワと、ターゲットR信号のパワとを小さくすることができ、低ビットレートで良好な品質の音声を伝送することができる。
 次に、本実施の形態について、実証実験を行ったので、その結果について説明する。使用した符号化器は非特許文献3と同様のステレオ信号(16kHzサンプリング)のスケーラブルスペクトル量子化を行うコーデックシミュレータである。評価データは、様々な音源位置から発声した6音声をアペンドしたデータ(24秒間)である。バランス重み係数の量子化ビット数は、4ビットである。
 上記の条件により実証実験を行った結果、従来の符号化装置を本実施の形態の符号化装置と置き換えることにより、本実施の形態におけるバランス重み係数を実際に求めて量子化を行う場合の計算量は、従来と比べて3/5になる。従って、本実施の形態においては、従来に比べて、計算量を大きく節約することができることが分かる。
 上記のように大きな効果が得られた理由としては、バランス重み係数そのものを算出しないことで、特許文献1のように複雑な算術である除算等の、計算量が大きくなるような計算を行わないこと、及び符号帳203に格納される番号とスカラ値との組が、4ビットで番号を特定することができる16種類と比較的少ないということが挙げられる。
 このように、本発明によれば、バランス重み係数そのものの算出を行わないことにより、量子化における計算量が少なくなり、より効率的な量子化を行うことができる。
 (実施の形態2)
 本実施の形態は、バランス調整を利用して符号化及び復号を行う際に、量子化装置において、上記の実施の形態1とは異なる計算を行うことを特徴とする。なお、本実施の形態において、符号化装置の構成は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、量子化装置の構成は図2と同一構成である。以下の説明では、図1及び図2の符号を用いて説明する。
 パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワ・相関計算部201は、(12)式によりパワと相関値とを求める。
Figure JPOXMLDOC01-appb-M000012
 (12)式において、パワ成分を加算する割合を示すγ、η、ζは変数でも良いし定数でも良いし、それぞれ異なる数値でも良い。一例として、γ、η、ζを定数にする場合には、3つのγ、η、ζを予め約0.25に設定しておくことにより、良好な性能を得られることを実験により確認している。
 なお、ターゲットM信号の調整パワ、ターゲットM信号とL信号との調整相関値、及びターゲットM信号とR信号との調整相関値は、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、及びターゲットM信号とR信号との相関値を、L信号のパワ、R信号のパワ、L信号のパワとR信号のパワとの和、及びパワ成分を加算する割合(3つの係数)を用いて調整したものであるので、以降の説明においては、ターゲットM信号の調整パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との調整相関値をターゲットM信号とL信号との相関値と再定義し、及びターゲットM信号とR信号との調整相関値をターゲットM信号とR信号との相関値と再定義して説明を行うこととする。
 また、パワ・相関計算部201は、γ、η、ζを変数にした場合には、変数の時間的変動を抑えるために平滑化を行う。パワ・相関計算部201は、(13)式による計算を行い、(13)式の結果を(14)式に適用して各状態を更新することにより平滑化を行う。
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 (13)式及び(14)式において、ターゲットM信号のパワの状態と、ターゲットM信号とL信号との相関値の状態と、ターゲットM信号とR信号との相関値の状態との3つの状態は、いずれも符号化処理の間、スタティックなメモリ領域に格納される変数である。したがって、符号化処理を開始する際に、3つの状態を「0」にして初期化することが必要である。また平滑化の割合を示すαは、変数でも良いし定数でも良い。一例として、αを0.5~0.7に設定した場合には、良好な性能が得られることを実験により確認している。なお、パワ・相関計算部201は、αが1.0の場合には平滑化を行わない。
 なお、ターゲットM信号の平滑化パワ、ターゲットM信号とL信号との平滑化相関値、及びターゲットM信号とR信号との平滑化相関値は、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、及びターゲットM信号とR信号との相関値を、ターゲットM信号のパワの状態、ターゲットM信号とL信号との相関値の状態、ターゲットM信号とR信号との相関値の状態、及び平滑化の割合を用いて平滑化したものであるので、以降の説明においては、ターゲットM信号の平滑化パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との平滑化相関値をターゲットM信号とL信号との相関値と再定義し、ターゲットM信号とR信号との平滑化相関値をターゲットM信号とR信号との相関値と再定義して説明を行うこととする。
 なお、本実施の形態において、中間値計算部202と、符号帳203と、探索部204と、復号部205とにおける処理は、上記の実施の形態1と同一であるので、その説明を省略する。
 ここで、本実施の形態では、(12)式におけるL信号のパワまたはR信号のパワを加算する点が、上記の実施の形態1と異なる。以下に、L信号のパワまたはR信号のパワを加算することによる効果について説明する。
 まず、コスト関数は(11)式に示した通りである。このコスト関数を最小にするωは、偏微分した結果が0となることから、以下の(15)式のようになる。
Figure JPOXMLDOC01-appb-M000015
 (15)式において、クロスタームCLRが安定した正の相関を有する(正の値になる)場合は、ωは安定した重みであり、聴感的な違和感は少ない。一方、クロスタームCLRが、負の相関を有する場合、または正と負とが時間的に激しく動く場合などは、コスト関数Fを小さくするにも関わらず、その重みを復号器で使用して得られた復号音声は、左右に激しく音圧が移動する、聴感的に違和感のある音になる。この現象は特に符号化歪が大きい場合に見られる現象である。
 そこで、重みの量子化において、クロスタームCLRの値により影響を受け難い方向にコスト関数を変形すれば、符号化歪が大きい場合においても良好な音質が得られる。
 ここで、(4)式の各項を、ターゲットM信号をダウンミックスした信号として近似的に展開すると、以下の(16)式のようになる。
Figure JPOXMLDOC01-appb-M000016
 (16)式の各項に含まれるクロスタームCLRの影響を少なくするためには、クロスタームCLR以外のパワの項の値を加算して大きくすれば良い。この点は、本実施の形態における重要な要素である。したがって、結局、(12)式を導くことができる。実験により、特に伝送レートが低い場合(符号化歪が大きい場合)に、良好な音質が得られることを検証している。
 また、(12)式において、クロスタームCLR以外のパワの項の値の加算は、既存の信号のパワの加算であるので、重みの量子化に必要な計算量を大きく増加させることにはならない。したがって、少ない計算量の増加で大きな効果を得ることが出来る。
 このように、本実施の形態によれば、上記の実施の形態1の効果に加えて、複数の信号間のクロスタームの影響を少なくすることにより、量子化誤差が比較的大きな場合に、音圧が極端に変化するような違和感のある音質になるのを避けることができ、計算量の増大を抑えて、良質な音質を得ることができる。
 (実施の形態3)
 本実施の形態は、バランス調整を利用して符号化及び復号を行う際に、量子化装置において、上記の実施の形態1及び実施の形態2とは異なる計算を行うことを特徴とする。なお、本実施の形態において、符号化装置の構成は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、量子化装置の構成は図2と同一構成である。以下の量子化装置の説明では、図1及び図2の符号を用いて説明する。
 パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワ・相関計算部201は、(12)式または以下の(17)式によりパワと相関値とを求める。なお、(17)式では実施の形態1に対応したアルゴリズムになり、(12)式では実施の形態2に対応したアルゴリズムになる。
Figure JPOXMLDOC01-appb-M000017
 また、パワ・相関計算部201は、(12)式によりパワと相関値とを求めた場合には、(12)式における変数の時間的変動を抑えるために、(13)式及び(14)式に示すように平滑化を行う。また、パワ・相関計算部201は、(17)式によりパワと相関値とを求めた場合には、(17)式における変数の時間的変動を抑えるために、(18)式による計算を行い、(18)式の結果を(19)式に適用して各状態を更新することにより平滑化を行う。
Figure JPOXMLDOC01-appb-M000018
Figure JPOXMLDOC01-appb-M000019
 なお、ターゲットM信号の平滑化パワ、ターゲットM信号とL信号との平滑化相関値、ターゲットM信号とR信号との平滑化相関値、L信号の平滑化パワ、及びR信号の平滑化パワは、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、ターゲットM信号とR信号との相関値、L信号のパワ、及びR信号のパワを、ターゲットM信号のパワの状態、ターゲットM信号とL信号の相関値の状態、ターゲットM信号とR信号の相関値の状態、L信号のパワの状態、R信号のパワの状態、及び平滑化の割合を用いて平滑化したものであるので、以降の説明においては、ターゲットM信号の平滑化パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との平滑化相関値をターゲットM信号とL信号との相関値と再定義し、ターゲットM信号とR信号との平滑化相関値をターゲットM信号とR信号との相関値と再定義し、L信号の平滑化パワをL信号のパワと再定義し、R信号の平滑化パワをR信号のパワと再定義して説明を行うこととする。
 中間値計算部202は、パワ・相関計算部201から入力したパワと相関値とを用いて5つの中間値を求める。そして、中間値計算部202は、求めた中間値を探索部204へ出力する。中間値は、一例として、(20)式により求めることができる。
Figure JPOXMLDOC01-appb-M000020
 符号帳203は、ROM等の記憶手段に格納されている情報であり、L信号のバランス重み係数として選択される複数のスカラ値と、重み係数と、重み係数から求めた計算値とから成る。なお、符号帳203に格納されている情報の内容については後述する。
 探索部204は、符号帳203に格納されている複数のスカラ値の中から最適なものを探索し、探索により見つけた最適なスカラ値に対応する番号を選択することによりバランス重み係数を符号化する。具体的な例としては、探索部204は、(21)式に示すコスト関数が最も小さくなる番号Nを探索する。そして、探索部204は、選択した番号Nを符号として多重化部117へ出力する。また、探索部204は、多重化部117へ出力した符号を復号部205へ出力する。なお、本実施の形態において、復号部205における処理は、上記の実施の形態1と同一であるので、その説明を省略する。
Figure JPOXMLDOC01-appb-M000021
 以上で、量子化装置109の構成の説明を終える。
 次に、本実施の形態の考え方、及び本実施の形態の符号帳203の設計方法について説明する。
 バランス調整の理論的裏づけについては実施の形態1で述べたものと同様であるが、本実施の形態では、コスト関数が実施の形態1及び実施の形態2と異なる。実施の形態1及び実施の形態2では、(11)式のコスト関数を用いるが、(11)式のコスト関数を用いた場合、信号Lのパワと信号Rのパワとの間にあまり差がない場合には良好な音質を得られるが、信号Lのパワと信号Rのパワとの間に大きな差がある場合、すなわちバランス重み係数w が極端に小さい場合またはバランス重み係数w が極端に大きい場合には、L信号側とR信号側のうち、パワの大きい方が支配的になり、パワの小さい方の誤差が評価に値しなくなる。したがって、そのような場合には、パワの小さい方の信号のパワがより小さくなるという現象が起こる。もちろん、実施の形態1及び実施の形態2において、パワの大きい方の信号の歪は小さくなることにより、支配的な信号の音質が向上するので、良好なステレオ音声が得られる。一方、大きい音と共に聞こえる小さい音の信号のパワを落とさないようにする方法もあり、その場合には工夫が必要になる。そこで、本実施の形態では、以下の(22)式のコスト関数を用いる。
Figure JPOXMLDOC01-appb-M000022
 すなわち、L信号の復号されたバランス重み係数の大きさにより、L信号のパワとR信号のパワとの差は分かるので、それに対応したコスト関数の重み付けを行うことにより上記課題を解決しようとするものである。本実施の形態では、図4に示す重み係数を用いる。図4は、本実施の形態における符号帳203に格納する情報の一部を示す図である。図4では、符号帳203のサイズを16(4ビット)としている。
 図4から明らかなように、L信号側の重み係数ωの値が小さい場合にはR信号側の重み係数ωの値が大きく設定され、R信号側の重み係数ωの値が小さい場合にはL信号側の重み係数ωの値が大きく設定される。これにより、(22)式のコスト関数の重みを調整することができる。
 ここで、(22)式のコスト関数を展開して中間値を求める。展開式を以下の(23)式に示す。
Figure JPOXMLDOC01-appb-M000023
 また、(21)式の計算に必要な計算値w 、w 、w は、予め以下の(24)式により求めて符号帳203に格納する。
Figure JPOXMLDOC01-appb-M000024
 このように、本実施の形態によれば、(20)式により中間値を求めるとともに、上記の手順により設計された符号帳203及び(21)式により効率よくスカラ値を求め、バランス重み係数の量子化ができる。この結果、コスト関数を構成するL信号側とR信号側の2つの項の値に大きな違いがある場合において、値の大きい方の項が主体的となるために生じる値の小さい方の信号の劣化を避けることができ、総合的により音質の良い合成音を得ることができる。
 なお、本実施の形態において、符号帳のサイズを16種類(4ビット)としたが、本実施の形態はこれに限らず、他のサイズを用いることができることは明らかである。本発明は符号帳のサイズに依存しないからである。
 また、上記の実施の形態1~実施の形態3において、ステレオ信号の符号化の前にM信号をコア符号化器102で符号化するスケーラブル構成にて符号化する場合を例に挙げたが、本発明はこれに限らず、コア符号化器が無いステレオ信号の符号化にも適用できる。なぜなら本発明は、M信号がダウンミックスで得られることを利用してバランス重み係数を効率よく符号化するものであるため、コア符号化器の有無に拠らないからである。
 また、量子化装置109で扱うM信号として、ダウンミックスで得られたM信号とコア復号器103により得られる復号信号との差分をターゲットM信号として用いたが、本発明はこれに限らず、復号信号またはダウンミックスしたM信号を量子化装置109で扱うようにしても良い。なぜなら本発明は、M信号がダウンミックスで得られることを利用してバランス重み係数を効率よく符号化するものであるため、用いるM信号の質に拠らないからである。
 また、上記の実施の形態1~実施の形態3において、L信号とR信号とのバランス重み係数の和を2.0と固定した場合を開示したが、本発明はこれに限らず、L信号とR信号とのバランス重み係数の和は、M信号の性質によって最適値が異なる場合もあるため、1.9、または1.85等の2.0以外の値であっても良い。本実施の形態においては、コア符号化器102によって得られたターゲットM信号は、ダウンミックスしただけのM信号の特徴を多少失っているとも考えられるので、2.0よりも多少少ない値を設定した方が、良い符号化性能を得られる可能性がある。具体的方法としては、この和の数を少しずつ変えながら符号化性能を評価し、ピークとなる値をL信号とR信号とのバランス重み係数の和の値として固定して符号化に使用するという方法が挙げられる。
 また、上記の実施の形態1~実施の形態3において、周波数領域へ変換した後にダウンミックスを行っているが、本発明はこれに限らず、時間領域でダウンミックスした信号を周波数領域へ変換しても本発明の有効性は明らかである。本発明は、ダウンミックスが行われる領域に依存しないからである。
 また、上記の実施の形態1~実施の形態3において、周波数領域への変換方法としてMDCTを用いているが、本発明はこれに限らず、「DCT」または「FFT」等のMDCTに類したディジタル変換方式ならばどのような方式を用いても良い。本発明は、周波数変換方法に依存しないからである。
 また、上記の実施の形態1~実施の形態3において、3つの信号は、時間領域の信号でも、周波数領域の信号でも、またそれらの部分区間でも良い。本発明は、ベクトルの性質に依存しないからである。
 また、上記の実施の形態1~実施の形態3において得られる符号は、通信に用いられる場合は伝送され、蓄積に使われる場合は記録媒体(メモリ、ディスクまたは印刷コード等)に格納されるようにしても良い。本発明は、符号の利用方法には依存しないからである。
 また、上記の実施の形態1~実施の形態3において、2チャンネルの場合について説明したが、本発明はこれに限らず、5.1ch等の多チャンネルの場合にも適用することができる。
 また、上記の実施の形態1~実施の形態3において、L信号、R信号及びM信号を符号化したが、本発明はこれに限らず、L信号、R信号及びM信号から得られる周波数スペクトル、またはその部分区間を各々第1の信号、第2の信号及び第3の信号として符号化しても良い。
 また、上記の実施の形態1~実施の形態3において、ターゲットM信号は、符号化前にバランス調整を行っているが、本発明はこれに限らず、バランス調整前に符号化しても良い。即ち、符号化器115は、加算部108よりも入力に近い位置に存在していても良い。本発明では、ターゲットM信号のバランス調整は、符号化の前後には依存しないからである。
 なお、以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、符号化装置を有するシステムであればどのような場合にも適用することができる。
 また、本発明に係る量子化装置および符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
 また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置等と同様の機能を実現することができる。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
 また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
 さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
 2008年8月8日出願の特願2008-205643の日本出願、2009年3月12日出願の特願2009-59502の日本出願、及び2009年4月9日出願の特願2009-95260の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明にかかる量子化装置、符号化装置、量子化方法及び符号化方法は、例えばステレオ音響信号を低ビットレートで符号化するのに好適である。

Claims (10)

  1.  第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化装置であって、
     前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、
     前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて、第2中間値を算出する中間値計算手段と、
     複数のスカラ値が格納された符号帳と、
     前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、前記符号帳に格納されている前記複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索手段と、
     を具備する量子化装置。
  2.  前記中間値計算手段は、
     前記第2中間値を、前記第1パワ、前記第1相関値、及び前記第2相関値を用いて算出する、
     請求項1記載の量子化装置。
  3.  前記探索手段は、
     前記第1中間値と前記第2中間値とを用いて設定される式に、前記複数のスカラ値を適用して得られる値が最小となるスカラ値に対応する前記符号を求める、
     請求項1記載の量子化装置。
  4.  前記パワ・相関計算手段は、
     更に、前記第1の信号の第2パワと前記第2の信号の第3パワとをそれぞれ算出し、前記第2パワと前記第3パワとを用いて第4の信号を算出するとともに、前記第4の信号と予め設定された第1パワ調整係数とを用いて前記第1パワを調整した第1調整パワを算出し、前記第2パワと予め設定された第2パワ調整係数とを用いて前記第1相関値を調整した第1調整相関値、及び、前記第3パワと予め設定された第3パワ調整係数とを用いて前記第2相関値を調整した第2調整相関値を算出し、
     前記中間値計算手段は、
     前記第1パワの代わりに前記第1調整パワを用いて前記第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値の代わりに前記第1調整相関値及び前記第2調整相関値の少なくとも1つの調整相関値と、前記第1パワの代わりに前記第1調整パワと、を用いて前記第2中間値を算出する、
     請求項1記載の量子化装置。
  5.  前記パワ・相関計算手段は、
     更に、前記第1の信号の第2パワと前記第2の信号の第3パワとをそれぞれ算出し、
     前記中間値計算手段は、
     前記第2相関値と前記第1パワとを用いて前記第2中間値を算出するとともに、更に、前記第1相関値を用いて第3中間値を算出し、前記第2パワを用いて第4中間値を算出し、前記第1パワと前記第2相関値と前記第3パワとを用いて第5中間値を算出し、
     前記探索手段は、
     前記第1中間値、前記第2中間値、前記第3中間値、前記第4中間値、及び前記第5中間値に基づいて、前記バランス重み係数を探索し、対応する前記符号を得る、
     請求項1記載の量子化装置。
  6.  前記符号帳は、
     前記複数のスカラ値のそれぞれに対応付けられた、前記第1の信号に関する第1重み係数及び前記第2の信号に関する第2重み係数を更に格納し、
     前記探索手段は、
     前記第1中間値、前記第2中間値、前記第3中間値、前記第4中間値、及び前記第5中間値を用いて設定される式に、前記複数のスカラ値と、前記複数のスカラ値に対応する前記第1重み係数及び前記第2重み係数と、を適用して得られる値が最小となるスカラ値に対応する前記符号を得る、
     請求項5記載の量子化装置。
  7.  前記パワ・相関計算手段は、
     更に、前記第2パワと前記第3パワとを用いて第4の信号を算出するとともに、前記第4の信号と予め設定された第1パワ調整係数とを用いて前記第1パワを調整した第1調整パワを算出し、前記第2パワと予め設定された第2パワ調整係数とを用いて前記第1相関値を調整した第1調整相関値、及び、前記第3パワと予め設定された第3パワ調整係数とを用いて前記第2相関値を調整した第2調整相関値を算出し、
     前記中間値計算手段は、
     前記第1パワの代わりに前記第1調整パワを用いて前記第1中間値を算出するとともに、前記第2相関値及び前記第1パワの代わりに前記第2調整相関値及び前記第1調整パワを用いて前記第2中間値を算出し、前記第1相関値の代わりに前記第1調整相関値を用いて前記第3中間値を算出し、前記第1パワ及び前記第2相関値の代わりに前記第1調整パワと前記第2調整相関値とを用いて前記第5中間値を算出する、
     請求項5記載の量子化装置。
  8.  第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックス手段と、
     前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化手段と、
     前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定手段と、
     前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化手段と、を具備し、
     前記量子化手段は、
      前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、
      前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算手段と、
      複数のスカラ値が格納された符号帳と、
      前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、前記複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索手段と、
     を具備する符号化装置。
  9.  第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化方法であって、
     前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、
     前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、
     前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索ステップと、
     を有する量子化方法。
  10.  第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックスステップと、
     前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化ステップと、
     前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定ステップと、
     前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化ステップと、を有し、
     前記量子化ステップは、
      前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、
      前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、
      前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索ステップと、
     を有する符号化方法。
     
PCT/JP2009/003798 2008-08-08 2009-08-07 量子化装置、符号化装置、量子化方法及び符号化方法 WO2010016270A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/057,162 US20110137661A1 (en) 2008-08-08 2009-08-07 Quantizing device, encoding device, quantizing method, and encoding method
JP2010523771A JPWO2010016270A1 (ja) 2008-08-08 2009-08-07 量子化装置、符号化装置、量子化方法及び符号化方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2008-205643 2008-08-08
JP2008205643 2008-08-08
JP2009-059502 2009-03-12
JP2009059502 2009-03-12
JP2009095260 2009-04-09
JP2009-095260 2009-04-09

Publications (1)

Publication Number Publication Date
WO2010016270A1 true WO2010016270A1 (ja) 2010-02-11

Family

ID=41663497

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/003798 WO2010016270A1 (ja) 2008-08-08 2009-08-07 量子化装置、符号化装置、量子化方法及び符号化方法

Country Status (3)

Country Link
US (1) US20110137661A1 (ja)
JP (1) JPWO2010016270A1 (ja)
WO (1) WO2010016270A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427268A (zh) * 2018-02-26 2018-08-21 河南理工大学 一种基于知识与数据信息决策的污水处理优化控制方法
WO2024142358A1 (ja) * 2022-12-28 2024-07-04 日本電信電話株式会社 音信号処理装置、音信号処理方法、プログラム
WO2024142357A1 (ja) * 2022-12-28 2024-07-04 日本電信電話株式会社 音信号処理装置、音信号処理方法、プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101419151B1 (ko) 2009-10-20 2014-07-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 영역-의존 산술 코딩 매핑 규칙을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
PT2524371T (pt) 2010-01-12 2017-03-15 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método de codificação de uma informação de áudio, método de descodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
EP2740222B1 (en) 2011-08-04 2015-04-22 Dolby International AB Improved fm stereo radio receiver by using parametric stereo
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
WO2013135819A1 (en) * 2012-03-14 2013-09-19 Bang & Olufsen A/S A method of applying a combined or hybrid sound -field control strategy
CN113450846B (zh) * 2020-03-27 2024-01-23 上海汽车集团股份有限公司 一种声压级标定方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
WO2006070757A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP2007529021A (ja) * 2003-12-19 2007-10-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 忠実度最適化可変フレーム長符号化

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0025413D0 (en) * 2000-10-17 2000-11-29 Emp Technologies Ltd Improvements in and relating to furnaces and methods of melting
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
WO2007114290A1 (ja) * 2006-03-31 2007-10-11 Matsushita Electric Industrial Co., Ltd. ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
ITMI20061360A1 (it) * 2006-07-13 2008-01-14 Valentino Fossati Struttura di molleggio particolarmente per la realizzazione di materassi e simili
WO2008013875A2 (en) * 2006-07-26 2008-01-31 Hercules Incorporated Hydrophobically modified poly(ethylene glycol) for use in pitch and stickies control in pulp and papermaking processes
US20100185442A1 (en) * 2007-06-21 2010-07-22 Panasonic Corporation Adaptive sound source vector quantizing device and adaptive sound source vector quantizing method
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
JP2007529021A (ja) * 2003-12-19 2007-10-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 忠実度最適化可変フレーム長符号化
WO2006070757A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427268A (zh) * 2018-02-26 2018-08-21 河南理工大学 一种基于知识与数据信息决策的污水处理优化控制方法
CN108427268B (zh) * 2018-02-26 2023-05-23 河南理工大学 一种基于知识与数据信息决策的污水处理优化控制方法
WO2024142358A1 (ja) * 2022-12-28 2024-07-04 日本電信電話株式会社 音信号処理装置、音信号処理方法、プログラム
WO2024142357A1 (ja) * 2022-12-28 2024-07-04 日本電信電話株式会社 音信号処理装置、音信号処理方法、プログラム

Also Published As

Publication number Publication date
US20110137661A1 (en) 2011-06-09
JPWO2010016270A1 (ja) 2012-01-19

Similar Documents

Publication Publication Date Title
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JP5171256B2 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
KR101391110B1 (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
AU2016234987B2 (en) Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
EP2209114B1 (en) Speech coding/decoding apparatus/method
JP5737077B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
US8619999B2 (en) Audio decoding method and apparatus
WO2012066727A1 (ja) ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
CN108369810A (zh) 用于对多声道音频信号进行编码的自适应声道缩减处理
WO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
CN106663432A (zh) 对压缩的hoa表示解码的方法和装置以及对压缩的hoa表示编码的方法和装置
US20050160126A1 (en) Constrained filter encoding of polyphonic signals
JP2010139671A (ja) オーディオ復号装置、方法、及びプログラム
EP1639580B1 (en) Coding of multi-channel signals
JP2008026372A (ja) 符号化データの符号化則変換方法および装置
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
KR20140037118A (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09804757

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010523771

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13057162

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09804757

Country of ref document: EP

Kind code of ref document: A1