RU2017101806A - Способ аудиокодирования и соответствующее устройство - Google Patents

Способ аудиокодирования и соответствующее устройство Download PDF

Info

Publication number
RU2017101806A
RU2017101806A RU2017101806A RU2017101806A RU2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A RU 2017101806 A RU2017101806 A RU 2017101806A
Authority
RU
Russia
Prior art keywords
subband
frequency
spectral coefficients
resolution
relate
Prior art date
Application number
RU2017101806A
Other languages
English (en)
Other versions
RU2670790C9 (ru
RU2670790C2 (ru
RU2017101806A3 (ru
Inventor
Цзэсинь ЛЮ
Лэй МЯО
Original Assignee
Хуавэй Текнолоджиз Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Хуавэй Текнолоджиз Ко., Лтд. filed Critical Хуавэй Текнолоджиз Ко., Лтд.
Publication of RU2017101806A publication Critical patent/RU2017101806A/ru
Publication of RU2017101806A3 publication Critical patent/RU2017101806A3/ru
Application granted granted Critical
Publication of RU2670790C2 publication Critical patent/RU2670790C2/ru
Publication of RU2670790C9 publication Critical patent/RU2670790C9/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrolytic Production Of Non-Metals, Compounds, Apparatuses Therefor (AREA)
  • Stereophonic System (AREA)

Claims (74)

1. Способ аудиокодирования, содержащий этапы, на которых:
осуществляют обработку временно-частотного преобразования на сигнале временной области текущего кадра аудио, для получения спектральных коэффициентов текущего кадра аудио;
получают опорный параметр кодирования текущего кадра аудио; и
если полученный опорный параметр кодирования текущего кадра аудио удовлетворяет первому условию параметра, кодируют спектральные коэффициенты текущего кадра аудио на основании алгоритма возбуждения, кодированного преобразованием, или если полученный опорный параметр кодирования текущего кадра аудио удовлетворяет второму условию параметра, кодируют спектральные коэффициенты текущего кадра аудио на основании алгоритма кодирования с преобразованием высокого качества.
2. Способ по п. 1, в котором полученный опорный параметр кодирования содержит: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, среднее по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио;
причем наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте, диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
причем наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, и диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
причем наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y.
3. Способ по п. 2, в котором наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, или наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте.
4. Способ по п. 2 или 3, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
условие I: частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
условие II: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2, и частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4; или
условие III: отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1.
5. Способ по п. 2 или 3, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
6. Способ по п. 4, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
7. Способ по п. 1, в котором опорный параметр кодирования содержит, по меньшей мере, один из следующих параметров: скорости кодирования текущего кадра аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио; отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио; среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио; среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, и среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио; отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио; огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио; или значения параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио, причем
наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы w больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте; и наибольший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте;
диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j; наибольший элемент разрешения по частоте подполосы m меньше, чем наибольший элемент разрешения по частоте подполосы n; наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y; наибольший элемент разрешения по частоте подполосы p меньше или равен наименьшему элементу разрешения по частоте подполосы q; наибольший элемент разрешения по частоте подполосы r меньше или равен наименьшему элементу разрешения по частоте подполосы s; и наибольший элемент разрешения по частоте подполосы e меньше или равен наименьшему элементу разрешения по частоте подполосы f.
8. Способ по п. 7, в котором
выполняется, по меньшей мере, одно из следующих условий: наименьший элемент разрешения по частоте подполосы w больше или равен критическому элементу F1 разрешения по частоте, наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы m меньше или равен наименьшему элементу разрешения по частоте подполосы n, наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, или наименьший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте.
9. Способ по п. 7 или 8, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
скорость кодирования текущего кадра аудио больше или равна порогу T1;
отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2;
отклонение огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио, больше, чем порог T3;
частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
разность, полученная вычитанием среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, из среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, меньше, чем порог T5;
частное от деления среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, на среднее по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, меньше, чем порог T6;
разность, полученная вычитанием среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, из среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, меньше, чем порог T7;
отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1;
абсолютное значение разности между отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, больше, чем порог T8;
отношение отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, к отклонению огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, не попадает в интервал R2;
абсолютное значение разности между отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, больше, чем порог T9;
отношение огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио к огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, не попадает в интервал R3;
абсолютное значение разности между огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, больше, чем порог T10; или
значение параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио, меньше, чем порог T11.
10. Аудиокодер, содержащий:
блок временно-частотного преобразования, выполненный с возможностью осуществления обработки временно-частотного преобразования на сигнале временной области текущего кадра аудио, для получения спектральных коэффициентов текущего кадра аудио;
блок получения, выполненный с возможностью получения опорного параметра кодирования текущего кадра аудио; и
блок кодирования, выполненный с возможностью: если опорный параметр кодирования, полученный блоком получения и относящийся к текущему кадру аудио, удовлетворяет первому условию параметра, кодировать спектральные коэффициенты текущего кадра аудио на основании алгоритма возбуждения, кодированного преобразованием, или если опорный параметр кодирования, полученный блоком получения и относящийся к текущему кадру аудио, удовлетворяет второму условию параметра, кодировать спектральные коэффициенты текущего кадра аудио на основании алгоритма кодирования с преобразованием высокого качества.
11. Аудиокодер по п. 10, в котором полученный опорный параметр кодирования содержит: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, среднее по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио;
причем наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте, диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
причем наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, и диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
причем наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y.
12. Аудиокодер по п. 11, в котором наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, или наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте.
13. Аудиокодер по п. 11 или 12, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
условие I: частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
условие II: отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2, и частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4; или
условие III: отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1.
14. Аудиокодер по п. 11 или 12, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
15. Аудиокодер по п. 13, в котором диапазон элемента разрешения по частоте подполосы x составляет от 1 кГц до 2,6 кГц, и диапазон элемента разрешения по частоте подполосы y составляет от 4,8 кГц до 6,4 кГц.
16. Аудиокодер по п. 10, в котором опорный параметр кодирования содержит, по меньшей мере, один из следующих параметров: скорости кодирования текущего кадра аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио; отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио; среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, и среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио; среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, и среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио; отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио; огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио; значения параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио; или отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, причем
наибольший элемент разрешения по частоте подполосы z больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы w больше, чем критический элемент F1 разрешения по частоте; наибольший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте; и наибольший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте;
диапазон значений критического элемента F1 разрешения по частоте составляет от 6,4 кГц до 12 кГц;
диапазон значений критического элемента F2 разрешения по частоте составляет от 4,8 кГц до 8 кГц; и
наибольший элемент разрешения по частоте подполосы i меньше, чем наибольший элемент разрешения по частоте подполосы j; наибольший элемент разрешения по частоте подполосы m меньше, чем наибольший элемент разрешения по частоте подполосы n; наибольший элемент разрешения по частоте подполосы x меньше или равен наименьшему элементу разрешения по частоте подполосы y; наибольший элемент разрешения по частоте подполосы p меньше или равен наименьшему элементу разрешения по частоте подполосы q; наибольший элемент разрешения по частоте подполосы r меньше или равен наименьшему элементу разрешения по частоте подполосы s; и наибольший элемент разрешения по частоте подполосы e меньше или равен наименьшему элементу разрешения по частоте подполосы f.
17. Аудиокодер по п. 16, в котором
выполняется, по меньшей мере, одно из следующих условий: наименьший элемент разрешения по частоте подполосы w больше или равен критическому элементу F1 разрешения по частоте, наименьший элемент разрешения по частоте подполосы z больше или равен критическому элементу F1 разрешения по частоте, наибольший элемент разрешения по частоте подполосы i меньше или равен наименьшему элементу разрешения по частоте подполосы j, наибольший элемент разрешения по частоте подполосы m меньше или равен наименьшему элементу разрешения по частоте подполосы n, наименьший элемент разрешения по частоте подполосы j больше, чем критический элемент F2 разрешения по частоте, или наименьший элемент разрешения по частоте подполосы n больше, чем критический элемент F2 разрешения по частоте.
18. Аудиокодер по п. 16 или 17, в котором второе условие параметра содержит, по меньшей мере, одно из следующих условий:
скорость кодирования текущего кадра аудио больше или равна порогу T1;
отношение пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе z и относятся к текущему кадру аудио, больше, чем порог T2;
отклонение огибающей спектральных коэффициентов, которые располагаются в подполосе w и относятся к текущему кадру аудио, больше, чем порог T3;
частное от деления среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, на среднее по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, меньше, чем порог T4;
разность, полученная вычитанием среднего по энергии спектральных коэффициентов, которые располагаются в подполосе j и относятся к текущему кадру аудио, из среднего по энергии спектральных коэффициентов, которые располагаются в подполосе i и относятся к текущему кадру аудио, меньше, чем порог T5;
частное от деления среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, на среднее по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, меньше, чем порог T6;
разность, полученная вычитанием среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе n и относятся к текущему кадру аудио, из среднего по амплитуде спектральных коэффициентов, которые располагаются в подполосе m и относятся к текущему кадру аудио, меньше, чем порог T7;
отношение отношения пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, к отношению пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, не попадает в интервал R1;
абсолютное значение разности между отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе x и относятся к текущему кадру аудио, и отношением пикового значения к среднему спектральных коэффициентов, которые располагаются в подполосе y и относятся к текущему кадру аудио, больше, чем порог T8;
отношение отклонения огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, к отклонению огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, не попадает в интервал R2;
абсолютное значение разности между отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе r и относятся к текущему кадру аудио, и отклонением огибающей спектральных коэффициентов, которые располагаются в подполосе s и относятся к текущему кадру аудио, больше, чем порог T9;
отношение огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио к огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, не попадает в интервал R3;
абсолютное значение разности между огибающей спектральных коэффициентов, которые располагаются в подполосе e и относятся к текущему кадру аудио, и огибающей спектральных коэффициентов, которые располагаются в подполосе f и относятся к текущему кадру аудио, больше, чем порог T10; или
значение параметра спектральной корреляции между спектральными коэффициентами, которые располагаются в подполосе p и относятся к текущему кадру аудио, и спектральными коэффициентами, которые располагаются в подполосе q и относятся к текущему кадру аудио, меньше, чем порог T11.
RU2017101806A 2014-07-28 2015-04-01 Способ аудиокодирования и соответствующее устройство RU2670790C9 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410363905.5A CN104143335B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置
CN201410363905.5 2014-07-28
PCT/CN2015/075645 WO2016015485A1 (zh) 2014-07-28 2015-04-01 音频编码方法及相关装置

Publications (4)

Publication Number Publication Date
RU2017101806A true RU2017101806A (ru) 2018-08-30
RU2017101806A3 RU2017101806A3 (ru) 2018-08-30
RU2670790C2 RU2670790C2 (ru) 2018-10-25
RU2670790C9 RU2670790C9 (ru) 2018-11-23

Family

ID=51852493

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017101806A RU2670790C9 (ru) 2014-07-28 2015-04-01 Способ аудиокодирования и соответствующее устройство

Country Status (15)

Country Link
US (4) US10056089B2 (ru)
EP (2) EP3157010B1 (ru)
JP (2) JP6538822B2 (ru)
KR (2) KR101947127B1 (ru)
CN (2) CN106448688B (ru)
AU (2) AU2015296447B2 (ru)
BR (1) BR112016029904B1 (ru)
CA (3) CA3058990A1 (ru)
ES (2) ES2814154T3 (ru)
MX (1) MX360606B (ru)
MY (1) MY174461A (ru)
PL (1) PL3790007T3 (ru)
RU (1) RU2670790C9 (ru)
SG (2) SG10201805102PA (ru)
WO (1) WO2016015485A1 (ru)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US20220254331A1 (en) * 2021-02-05 2022-08-11 Cambium Assessment, Inc. Neural network and method for machine learning assisted speech recognition
CN112767956B (zh) * 2021-04-09 2021-07-16 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机设备及介质
EP4364137A1 (en) * 2021-06-29 2024-05-08 Telefonaktiebolaget LM Ericsson (publ) Spectrum classifier for audio coding mode selection

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3364825B2 (ja) * 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6721280B1 (en) * 2000-04-19 2004-04-13 Qualcomm Incorporated Method and apparatus for voice latency reduction in a voice-over-data wireless communication system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
AU2002318813B2 (en) * 2001-07-13 2004-04-29 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
CN1308913C (zh) * 2002-04-11 2007-04-04 松下电器产业株式会社 编码设备、解码设备及其方法
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
CN101184979B (zh) * 2005-04-01 2012-04-25 高通股份有限公司 用于高频带激励产生的系统、方法和设备
WO2007083934A1 (en) 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
CN101496099B (zh) * 2006-07-31 2012-07-18 高通股份有限公司 用于对有效帧进行宽带编码和解码的系统、方法和设备
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101145343B (zh) * 2006-09-15 2011-07-20 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
US20090319261A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
WO2010003563A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
CN102089816B (zh) 2008-07-11 2013-01-30 弗朗霍夫应用科学研究促进协会 音频信号合成器及音频信号编码器
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2304723B1 (en) * 2008-07-11 2012-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for decoding an encoded audio signal
TWI520128B (zh) * 2008-10-08 2016-02-01 弗勞恩霍夫爾協會 多解析度切換音訊編碼/解碼方案(一)
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
KR101425290B1 (ko) * 2009-10-08 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램
RU2586841C2 (ru) * 2009-10-20 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему
EP2491556B1 (en) * 2009-10-20 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, corresponding method and computer program
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011158485A2 (ja) * 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置
WO2011156905A2 (en) 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102074242B (zh) * 2010-12-27 2012-03-28 武汉大学 语音音频混合分级编码中核心层残差提取系统及方法
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
JPWO2013061584A1 (ja) * 2011-10-28 2015-04-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
ES2742481T3 (es) * 2012-05-30 2020-02-14 Nippon Telegraph & Telephone Método de codificación, codificador, programa y medio de grabación
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置

Also Published As

Publication number Publication date
US20190164562A1 (en) 2019-05-30
CN104143335A (zh) 2014-11-12
EP3790007A1 (en) 2021-03-10
RU2670790C9 (ru) 2018-11-23
KR20170010822A (ko) 2017-02-01
JP6888051B2 (ja) 2021-06-16
CA2951321C (en) 2019-12-31
JP6538822B2 (ja) 2019-07-03
ES2814154T3 (es) 2021-03-26
KR102022500B1 (ko) 2019-11-25
US20200066290A1 (en) 2020-02-27
SG11201610047RA (en) 2017-01-27
AU2015296447B2 (en) 2018-01-18
BR112016029904A2 (pt) 2017-08-22
CA3064092A1 (en) 2016-02-04
EP3157010A1 (en) 2017-04-19
KR20190014603A (ko) 2019-02-12
CA3058990A1 (en) 2016-02-04
BR112016029904B1 (pt) 2023-04-18
WO2016015485A1 (zh) 2016-02-04
RU2670790C2 (ru) 2018-10-25
EP3790007B1 (en) 2023-01-04
CA3064092C (en) 2022-04-19
EP3157010A4 (en) 2017-10-25
CA2951321A1 (en) 2016-02-04
US10056089B2 (en) 2018-08-21
SG10201805102PA (en) 2018-08-30
AU2018201411A1 (en) 2018-03-22
KR101947127B1 (ko) 2019-02-12
EP3157010B1 (en) 2020-06-10
CN106448688B (zh) 2019-11-05
AU2015296447A1 (en) 2017-01-05
PL3790007T3 (pl) 2023-05-02
CN104143335B (zh) 2017-02-01
CN106448688A (zh) 2017-02-22
ES2938742T3 (es) 2023-04-14
US20180268832A1 (en) 2018-09-20
US10269366B2 (en) 2019-04-23
AU2018201411B2 (en) 2019-08-22
MY174461A (en) 2020-04-20
JP2019164379A (ja) 2019-09-26
US10504534B2 (en) 2019-12-10
US10706866B2 (en) 2020-07-07
US20170125031A1 (en) 2017-05-04
JP2017522608A (ja) 2017-08-10
MX360606B (es) 2018-11-09
RU2017101806A3 (ru) 2018-08-30
MX2017001039A (es) 2017-05-04

Similar Documents

Publication Publication Date Title
RU2017101806A (ru) Способ аудиокодирования и соответствующее устройство
RU2015151169A (ru) Устройство и способ для расширения диапазона частот для акустических сигналов
MY192508A (en) Adaptive bandwidth extension and apparatus for the same
MY174028A (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
RU2016137197A (ru) Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования, и программа
FI3239979T3 (fi) Yleisten audiosignaalien koodaus alhaisilla bittinopeuksilla ja alhaisella viiveellä
MX351363B (es) Aparato y metodo para generar una forma espectral adaptativa de ruido de confort.
RU2011104350A (ru) Устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра
RU2020100879A (ru) Оценивание фонового шума в аудиосигналах
RU2018115787A (ru) Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования
CA2998689C (en) Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding
SG194706A1 (en) Apparatus and method for audio encoding and decoding employing sinusoidalsubstitution
MY179023A (en) Apparatus and method for processing an audio signal using a harmonic post-filter
EP4318471A3 (en) Conept for encoding of information
MX2019011956A (es) Clasificacion y codificacion de señal de audio.
RU2012155222A (ru) Устройство декодирования, устройство кодирования и соответствующие способы
RU2015138115A (ru) Системы и способы выполнения шумовой модуляции и регулировки усиления
MX2015009745A (es) Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion.
WO2015021938A3 (en) Adaptive high-pass post-filter
MX2016010595A (es) Codificador, decodificador, metodo de codificacion, metodo de decodificacion y programa.
EP4372738A3 (en) Signal processing mthod and device
TR201900472T4 (tr) Frekans alanı parametre dizisi oluşturma metodu, kodlama metodu, kod çözme metodu, frekans alanı parametre dizisi oluşturma aparatı, kodlama aparatı, kod çözme aparatı, programı ve kayıt ortamı.
MX2016016564A (es) Aparato y metodo de codificacion de audio.
TH167292B (th) การลงรหัสของสัมประสิทธิ์เชิงสเปกตรัมของสเปกตรัมของสัญญาณเสียง
TH166662B (th) อุปกรณ์เข้ารหัส, อุปกรณ์ถอดรหัส, วิธีเข้ารหัส, วิธีถอดรหัส, และโปรแกรม

Legal Events

Date Code Title Description
TH4A Reissue of patent specification