RU2017101806A - Способ аудиокодирования и соответствующее устройство - Google Patents
Способ аудиокодирования и соответствующее устройство Download PDFInfo
- Publication number
- RU2017101806A RU2017101806A RU2017101806A RU2017101806A RU2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A
- Authority
- RU
- Russia
- Prior art keywords
- subband
- frequency
- spectral coefficients
- resolution
- relate
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 10
- 230000003595 spectral effect Effects 0.000 claims 110
- 238000006243 chemical reaction Methods 0.000 claims 5
- 230000005284 excitation Effects 0.000 claims 2
- 230000009466 transformation Effects 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrolytic Production Of Non-Metals, Compounds, Apparatuses Therefor (AREA)
- Stereophonic System (AREA)
Claims (74)
1. Способ аудиокодирования, содержащий этапы, на которых:
осуществляют обработку временно-частотного преобразования на сигнале временной области текущего кадра аудио, для получения спектральных коэффициентов текущего кадра аудио;
получают опорный параметр кодирования текущего кадра аудио; и
если полученный опорный параметр кодирования текущего кадра аудио удовлетворяет первому условию параметра, кодируют спектральные коэффициенты текущего кадра аудио на основании алгоритма возбуждения, кодированного преобразованием, или если полученный опорный параметр кодирования текущего кадра аудио удовлетворяет второму условию параметра, кодируют спектральные коэффициенты текущего кадра аудио на основании алгоритма кодирования с преобразованием высокого качества.
2. Способ по п. 1, в котором полученный опорный параметр кодирования содержит: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, среднее по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио;
причем наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте, диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
причем наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, и диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
причем наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y.
3. Способ по п. 2, в котором наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, или наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте.
4. Способ по п. 2 или 3, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
условие I: частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
условие II: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2, и частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4; или
условие III: отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1.
5. Способ по п. 2 или 3, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
6. Способ по п. 4, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
7. Способ по п. 1, в котором опорный параметр кодирования содержит, по меньшей мере, один из следующих параметров: скорости кодирования текущего кадра аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио; отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио; среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио; среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, и среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио; отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио; огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио; или значения параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио, причем
наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы w больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте; и наибольший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте;
диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j; наибольший элемент разрешения по частоте подполосы m меньше, чем наибольший элемент разрешения по частоте подполосы n; наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y; наибольший элемент разрешения по частоте подполосы p меньше или равен наименьшему элементу разрешения по частоте подполосы q; наибольший элемент разрешения по частоте подполосы r меньше или равен наименьшему элементу разрешения по частоте подполосы s; и наибольший элемент разрешения по частоте подполосы e меньше или равен наименьшему элементу разрешения по частоте подполосы f.
8. Способ по п. 7, в котором
выполняется, по меньшей мере, одно из следующих условий: наименьший элемент разрешения по частоте подполосы w больше или равен критическому элементу F1 разрешения по частоте, наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы m меньше или равен наименьшему элементу разрешения по частоте подполосы n, наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, или наименьший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте.
9. Способ по п. 7 или 8, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
скорость кодирования текущего кадра аудио больше или равна порогу T1;
отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2;
отклонение огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио, больше, чем порог T3;
частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
разность, полученная вычитанием среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, из среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, меньше, чем порог T5;
частное от деления среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, на среднее по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, меньше, чем порог T6;
разность, полученная вычитанием среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, из среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, меньше, чем порог T7;
отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1;
абсолютное значение разности между отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, больше, чем порог T8;
отношение отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, к отклонению огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, не попадает в интервал R2;
абсолютное значение разности между отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, больше, чем порог T9;
отношение огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио к огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, не попадает в интервал R3;
абсолютное значение разности между огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, больше, чем порог T10; или
значение параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио, меньше, чем порог T11.
10. Аудиокодер, содержащий:
блок временно-частотного преобразования, выполненный с возможностью осуществления обработки временно-частотного преобразования на сигнале временной области текущего кадра аудио, для получения спектральных коэффициентов текущего кадра аудио;
блок получения, выполненный с возможностью получения опорного параметра кодирования текущего кадра аудио; и
блок кодирования, выполненный с возможностью: если опорный параметр кодирования, полученный блоком получения и относящийся к текущему кадру аудио, удовлетворяет первому условию параметра, кодировать спектральные коэффициенты текущего кадра аудио на основании алгоритма возбуждения, кодированного преобразованием, или если опорный параметр кодирования, полученный блоком получения и относящийся к текущему кадру аудио, удовлетворяет второму условию параметра, кодировать спектральные коэффициенты текущего кадра аудио на основании алгоритма кодирования с преобразованием высокого качества.
11. Аудиокодер по п. 10, в котором полученный опорный параметр кодирования содержит: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, среднее по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио;
причем наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте, диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
причем наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, и диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
причем наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y.
12. Аудиокодер по п. 11, в котором наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, или наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте.
13. Аудиокодер по п. 11 или 12, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
условие I: частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
условие II: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2, и частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4; или
условие III: отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1.
14. Аудиокодер по п. 11 или 12, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
15. Аудиокодер по п. 13, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
16. Аудиокодер по п. 10, в котором опорный параметр кодирования содержит, по меньшей мере, один из следующих параметров: скорости кодирования текущего кадра аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио; отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио; среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио; среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, и среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио; огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио; значения параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио; или отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, причем
наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы w больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте; и наибольший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте;
диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j; наибольший элемент разрешения по частоте подполосы m меньше, чем наибольший элемент разрешения по частоте подполосы n; наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y; наибольший элемент разрешения по частоте подполосы p меньше или равен наименьшему элементу разрешения по частоте подполосы q; наибольший элемент разрешения по частоте подполосы r меньше или равен наименьшему элементу разрешения по частоте подполосы s; и наибольший элемент разрешения по частоте подполосы e меньше или равен наименьшему элементу разрешения по частоте подполосы f.
17. Аудиокодер по п. 16, в котором
выполняется, по меньшей мере, одно из следующих условий: наименьший элемент разрешения по частоте подполосы w больше или равен критическому элементу F1 разрешения по частоте, наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы m меньше или равен наименьшему элементу разрешения по частоте подполосы n, наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, или наименьший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте.
18. Аудиокодер по п. 16 или 17, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
скорость кодирования текущего кадра аудио больше или равна порогу T1;
отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2;
отклонение огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио, больше, чем порог T3;
частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
разность, полученная вычитанием среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, из среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, меньше, чем порог T5;
частное от деления среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, на среднее по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, меньше, чем порог T6;
разность, полученная вычитанием среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, из среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, меньше, чем порог T7;
отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1;
абсолютное значение разности между отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, больше, чем порог T8;
отношение отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, к отклонению огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, не попадает в интервал R2;
абсолютное значение разности между отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, больше, чем порог T9;
отношение огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио к огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, не попадает в интервал R3;
абсолютное значение разности между огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, больше, чем порог T10; или
значение параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио, меньше, чем порог T11.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410363905.5A CN104143335B (zh) | 2014-07-28 | 2014-07-28 | 音频编码方法及相关装置 |
CN201410363905.5 | 2014-07-28 | ||
PCT/CN2015/075645 WO2016015485A1 (zh) | 2014-07-28 | 2015-04-01 | 音频编码方法及相关装置 |
Publications (4)
Publication Number | Publication Date |
---|---|
RU2017101806A true RU2017101806A (ru) | 2018-08-30 |
RU2017101806A3 RU2017101806A3 (ru) | 2018-08-30 |
RU2670790C2 RU2670790C2 (ru) | 2018-10-25 |
RU2670790C9 RU2670790C9 (ru) | 2018-11-23 |
Family
ID=51852493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017101806A RU2670790C9 (ru) | 2014-07-28 | 2015-04-01 | Способ аудиокодирования и соответствующее устройство |
Country Status (15)
Country | Link |
---|---|
US (4) | US10056089B2 (ru) |
EP (2) | EP3157010B1 (ru) |
JP (2) | JP6538822B2 (ru) |
KR (2) | KR101947127B1 (ru) |
CN (2) | CN106448688B (ru) |
AU (2) | AU2015296447B2 (ru) |
BR (1) | BR112016029904B1 (ru) |
CA (3) | CA3058990A1 (ru) |
ES (2) | ES2814154T3 (ru) |
MX (1) | MX360606B (ru) |
MY (1) | MY174461A (ru) |
PL (1) | PL3790007T3 (ru) |
RU (1) | RU2670790C9 (ru) |
SG (2) | SG10201805102PA (ru) |
WO (1) | WO2016015485A1 (ru) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US20220254331A1 (en) * | 2021-02-05 | 2022-08-11 | Cambium Assessment, Inc. | Neural network and method for machine learning assisted speech recognition |
CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
EP4364137A1 (en) * | 2021-06-29 | 2024-05-08 | Telefonaktiebolaget LM Ericsson (publ) | Spectrum classifier for audio coding mode selection |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3364825B2 (ja) * | 1996-05-29 | 2003-01-08 | 三菱電機株式会社 | 音声符号化装置および音声符号化復号化装置 |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US6704705B1 (en) * | 1998-09-04 | 2004-03-09 | Nortel Networks Limited | Perceptual audio coding |
US6721280B1 (en) * | 2000-04-19 | 2004-04-13 | Qualcomm Incorporated | Method and apparatus for voice latency reduction in a voice-over-data wireless communication system |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
AU2002318813B2 (en) * | 2001-07-13 | 2004-04-29 | Matsushita Electric Industrial Co., Ltd. | Audio signal decoding device and audio signal encoding device |
CN1308913C (zh) * | 2002-04-11 | 2007-04-04 | 松下电器产业株式会社 | 编码设备、解码设备及其方法 |
US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
US7333930B2 (en) | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
US20070147518A1 (en) | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
CN101184979B (zh) * | 2005-04-01 | 2012-04-25 | 高通股份有限公司 | 用于高频带激励产生的系统、方法和设备 |
WO2007083934A1 (en) | 2006-01-18 | 2007-07-26 | Lg Electronics Inc. | Apparatus and method for encoding and decoding signal |
CN101496099B (zh) * | 2006-07-31 | 2012-07-18 | 高通股份有限公司 | 用于对有效帧进行宽带编码和解码的系统、方法和设备 |
CN101145345B (zh) * | 2006-09-13 | 2011-02-09 | 华为技术有限公司 | 音频分类方法 |
CN101145343B (zh) * | 2006-09-15 | 2011-07-20 | 展讯通信(上海)有限公司 | 一种用于音频处理框架中的编码和解码方法 |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
KR101411901B1 (ko) * | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
KR101452722B1 (ko) * | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
US20090319261A1 (en) | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
WO2010003563A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding audio samples |
CN102089816B (zh) | 2008-07-11 | 2013-01-30 | 弗朗霍夫应用科学研究促进协会 | 音频信号合成器及音频信号编码器 |
PL2346030T3 (pl) * | 2008-07-11 | 2015-03-31 | Fraunhofer Ges Forschung | Koder audio, sposób kodowania sygnału audio oraz program komputerowy |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2304723B1 (en) * | 2008-07-11 | 2012-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for decoding an encoded audio signal |
TWI520128B (zh) * | 2008-10-08 | 2016-02-01 | 弗勞恩霍夫爾協會 | 多解析度切換音訊編碼/解碼方案(一) |
US8498874B2 (en) | 2009-09-11 | 2013-07-30 | Sling Media Pvt Ltd | Audio signal encoding employing interchannel and temporal redundancy reduction |
KR101425290B1 (ko) * | 2009-10-08 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램 |
RU2586841C2 (ru) * | 2009-10-20 | 2016-06-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему |
EP2491556B1 (en) * | 2009-10-20 | 2024-04-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, corresponding method and computer program |
JP5809066B2 (ja) * | 2010-01-14 | 2015-11-10 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声符号化装置および音声符号化方法 |
US8886523B2 (en) | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
WO2011158485A2 (ja) * | 2010-06-14 | 2011-12-22 | パナソニック株式会社 | オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 |
WO2011156905A2 (en) | 2010-06-17 | 2011-12-22 | Voiceage Corporation | Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
CN102074242B (zh) * | 2010-12-27 | 2012-03-28 | 武汉大学 | 语音音频混合分级编码中核心层残差提取系统及方法 |
CN102208188B (zh) | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
JPWO2013061584A1 (ja) * | 2011-10-28 | 2015-04-02 | パナソニック株式会社 | 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法 |
US9111531B2 (en) | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
ES2742481T3 (es) * | 2012-05-30 | 2020-02-14 | Nippon Telegraph & Telephone | Método de codificación, codificador, programa y medio de grabación |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
-
2014
- 2014-07-28 CN CN201611123625.2A patent/CN106448688B/zh active Active
- 2014-07-28 CN CN201410363905.5A patent/CN104143335B/zh active Active
-
2015
- 2015-04-01 CA CA3058990A patent/CA3058990A1/en active Pending
- 2015-04-01 KR KR1020167035938A patent/KR101947127B1/ko active IP Right Grant
- 2015-04-01 ES ES15826814T patent/ES2814154T3/es active Active
- 2015-04-01 BR BR112016029904-3A patent/BR112016029904B1/pt active IP Right Grant
- 2015-04-01 ES ES20159183T patent/ES2938742T3/es active Active
- 2015-04-01 KR KR1020197003520A patent/KR102022500B1/ko active IP Right Grant
- 2015-04-01 PL PL20159183.1T patent/PL3790007T3/pl unknown
- 2015-04-01 WO PCT/CN2015/075645 patent/WO2016015485A1/zh active Application Filing
- 2015-04-01 EP EP15826814.4A patent/EP3157010B1/en active Active
- 2015-04-01 SG SG10201805102PA patent/SG10201805102PA/en unknown
- 2015-04-01 EP EP20159183.1A patent/EP3790007B1/en active Active
- 2015-04-01 JP JP2017505140A patent/JP6538822B2/ja active Active
- 2015-04-01 SG SG11201610047RA patent/SG11201610047RA/en unknown
- 2015-04-01 MY MYPI2016704584A patent/MY174461A/en unknown
- 2015-04-01 AU AU2015296447A patent/AU2015296447B2/en active Active
- 2015-04-01 CA CA3064092A patent/CA3064092C/en active Active
- 2015-04-01 MX MX2017001039A patent/MX360606B/es active IP Right Grant
- 2015-04-01 CA CA2951321A patent/CA2951321C/en active Active
- 2015-04-01 RU RU2017101806A patent/RU2670790C9/ru active
-
2017
- 2017-01-18 US US15/408,442 patent/US10056089B2/en active Active
-
2018
- 2018-02-27 AU AU2018201411A patent/AU2018201411B2/en active Active
- 2018-05-23 US US15/986,839 patent/US10269366B2/en active Active
-
2019
- 2019-01-31 US US16/263,837 patent/US10504534B2/en active Active
- 2019-06-06 JP JP2019106061A patent/JP6888051B2/ja active Active
- 2019-10-30 US US16/668,177 patent/US10706866B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2017101806A (ru) | Способ аудиокодирования и соответствующее устройство | |
RU2015151169A (ru) | Устройство и способ для расширения диапазона частот для акустических сигналов | |
MY192508A (en) | Adaptive bandwidth extension and apparatus for the same | |
MY174028A (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction | |
RU2016137197A (ru) | Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования, и программа | |
FI3239979T3 (fi) | Yleisten audiosignaalien koodaus alhaisilla bittinopeuksilla ja alhaisella viiveellä | |
MX351363B (es) | Aparato y metodo para generar una forma espectral adaptativa de ruido de confort. | |
RU2011104350A (ru) | Устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра | |
RU2020100879A (ru) | Оценивание фонового шума в аудиосигналах | |
RU2018115787A (ru) | Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования | |
CA2998689C (en) | Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding | |
SG194706A1 (en) | Apparatus and method for audio encoding and decoding employing sinusoidalsubstitution | |
MY179023A (en) | Apparatus and method for processing an audio signal using a harmonic post-filter | |
EP4318471A3 (en) | Conept for encoding of information | |
MX2019011956A (es) | Clasificacion y codificacion de señal de audio. | |
RU2012155222A (ru) | Устройство декодирования, устройство кодирования и соответствующие способы | |
RU2015138115A (ru) | Системы и способы выполнения шумовой модуляции и регулировки усиления | |
MX2015009745A (es) | Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion. | |
WO2015021938A3 (en) | Adaptive high-pass post-filter | |
MX2016010595A (es) | Codificador, decodificador, metodo de codificacion, metodo de decodificacion y programa. | |
EP4372738A3 (en) | Signal processing mthod and device | |
TR201900472T4 (tr) | Frekans alanı parametre dizisi oluşturma metodu, kodlama metodu, kod çözme metodu, frekans alanı parametre dizisi oluşturma aparatı, kodlama aparatı, kod çözme aparatı, programı ve kayıt ortamı. | |
MX2016016564A (es) | Aparato y metodo de codificacion de audio. | |
TH167292B (th) | การลงรหัสของสัมประสิทธิ์เชิงสเปกตรัมของสเปกตรัมของสัญญาณเสียง | |
TH166662B (th) | อุปกรณ์เข้ารหัส, อุปกรณ์ถอดรหัส, วิธีเข้ารหัส, วิธีถอดรหัส, และโปรแกรม |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TH4A | Reissue of patent specification |