KR20200142131A - 음성인식 장치 및 음성인식 장치의 동작방법 - Google Patents

음성인식 장치 및 음성인식 장치의 동작방법 Download PDF

Info

Publication number
KR20200142131A
KR20200142131A KR1020190068439A KR20190068439A KR20200142131A KR 20200142131 A KR20200142131 A KR 20200142131A KR 1020190068439 A KR1020190068439 A KR 1020190068439A KR 20190068439 A KR20190068439 A KR 20190068439A KR 20200142131 A KR20200142131 A KR 20200142131A
Authority
KR
South Korea
Prior art keywords
image
lip
neural network
convolutional neural
patch
Prior art date
Application number
KR1020190068439A
Other languages
English (en)
Other versions
KR102244967B1 (ko
Inventor
박형민
박래홍
장동원
제창수
김홍인
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020190068439A priority Critical patent/KR102244967B1/ko
Publication of KR20200142131A publication Critical patent/KR20200142131A/ko
Application granted granted Critical
Publication of KR102244967B1 publication Critical patent/KR102244967B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예에 따른 음성인식 학습장치는 영상 입력부, 영상 처리부 및 컨볼루션 뉴럴 네트워크를 포함할 수 있다. 영상 입력부는 입력영상을 수신할 수 있다. 영상 처리부는 미리 정해진 제1 시간간격 동안의 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크는 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 입술의 모양에 상응하는 음성정보를 학습할 수 있다.
본 발명에 따른 음성인식 장치에서는 화자의 입술영상 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.

Description

음성인식 장치 및 음성인식 장치의 동작방법{SPEECH RECOGNITION DEVICE AND OPERATING METHOD THEREOF}
본 발명은 음성인식 학습장치, 음성인식 장치, 음성인식 학습장치의 동작방법 및 음성인식 장치의 동작방법에 관한 것이다.
마이크를 통해서 입력되는 소리 입력신호는 음성인식에 필요한 타겟 음성뿐만 아니라 음성인식에 방해가 되는 노이즈들이 포함될 수 있다. 소리 입력신호에서 노이즈를 제거하고, 원하는 타겟 음성만을 추출하여 음성인식의 성능을 높이기 위하여 화자를 포함하는 영상들을 활용하기도 한다. 최근, 이와 관련하여 다양한 연구가 진행되고 있다.
(한국공개특허) 제10-2019-0016733호 (공개일자, 2019.02.19)
본 발명이 이루고자 하는 기술적 과제는 화자의 입술영상 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시키는 음성인식 장치를 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제는 화자의 입술영상 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상을 이용하여 컨볼루션 뉴럴 네트워크를 학습시킴으로써 음성인식 성능을 향상시키는 음성인식 장치의 동작방법을 제공하는 것이다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 음성인식 학습장치는 영상 입력부, 영상 처리부 및 컨볼루션 뉴럴 네트워크를 포함할 수 있다. 영상 입력부는 입력영상을 수신할 수 있다. 영상 처리부는 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크는 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습할 수 있다.
일 실시예에 있어서, 상기 영상 처리부는 라벨 변형기를 포함할 수 있다. 라벨 변형기는 상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 N개의 프레임들로 나눌 수 있다.
일 실시예에 있어서, 상기 라벨 변형기는 영상길이 조절기 및 프레임 영상 제공기를 포함할 수 있다. 영상길이 조절기는 상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 길이조절 입술영상 및 길이조절 패치영상을 제공할 수 있다. 프레임 영상 제공기는 상기 길이조절 입술영상 및 상기 길이조절 패치영상을 각각 N개의 프레임들로 나누어 상기 프레임 입술영상 및 상기 프레임 패치영상을 제공할 수 있다.
일 실시예에 있어서, 상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 증가하는 경우, 상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 증가될 수 있다.
일 실시예에 있어서, 상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 감소하는 경우, 상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 감소될 수 있다.
일 실시예에 있어서, 상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함할 수 있다.
일 실시예에 있어서, 상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습할 수 있다.
일 실시예에 있어서, 상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 음성인식 장치는 영상 입력부, 영상 처리부 및 컨볼루션 뉴럴 네트워크를 포함할 수 있다. 영상 입력부는 입력영상을 수신할 수 있다. 영상 처리부는 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크는 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정할 수 있다.
일 실시예에 있어서, 상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함할 수 있다.
일 실시예에 있어서, 상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정할 수 있다.
일 실시예에 있어서, 상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정할 수 있다.
일 실시예에 있어서, 상기 제1 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제1 확률 및 상기 제2 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제2 확률의 합에 기초하여 음성인식 결과가 결정될 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 음성인식 학습장치의 동작방법에서는, 영상 입력부가 입력영상을 수신할 수 있다. 영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 음성인식 장치의 동작방법에서는, 영상 입력부가 입력영상을 수신할 수 있다. 영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예들에 따른 음성인식 학습장치는 영상 입력부, 영상 처리부 및 컨볼루션 뉴럴 네트워크를 포함할 수 있다. 영상 입력부는 입력영상을 수신할 수 있다. 영상 처리부는 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크는 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예들에 따른 음성인식 장치는 영상 입력부, 영상 처리부 및 컨볼루션 뉴럴 네트워크를 포함할 수 있다. 영상 입력부는 입력영상을 수신할 수 있다. 영상 처리부는 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크는 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정할 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명에 따른 음성인식 장치에서는 화자의 입술영상 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
본 발명에 따른 음성인식 장치의 동작방법에서는 화자의 입술영상 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 실시예들에 따른 음성인식 학습장치를 나타내는 도면이다.
도 2는 도 1의 음성인식 학습장치에 포함되는 영상 처리부에서 사용되는 입술영상의 일 예를 나타내는 도면이다.
도 3은 도 1의 음성인식 학습장치에 포함되는 영상 처리부에서 사용되는 패치영상의 일 예를 나타내는 도면이다.
도 4는 도 1의 음성인식 학습장치에 포함되는 영상 처리부로부터 출력되는 프레임 입술영상의 일 예를 나타내는 도면이다.
도 5는 도 1의 음성인식 학습장치에 포함되는 영상 처리부로부터 출력되는 프레임 패치영상의 일 예를 나타내는 도면이다.
도 6은 도 1의 음성인식 학습장치에 포함되는 영상 처리부의 일 예를 나타내는 도면이다.
도 7은 도 6의 영상 처리부에 포함되는 라벨 변형기의 일 예를 나타내는 도면이다.
도 8 및 9는 도 6의 영상 처리부에 포함되는 라벨 변형기의 동작을 설명하기 위한 도면들이다.
도 10은 도 1의 음성인식 학습장치에 포함되는 컨볼루션 뉴럴 네트워크의 일 예를 나타내는 도면이다.
도 11은 본 발명의 실시예들에 따른 음성인식 장치를 나타내는 도면이다.
도 12는 도 11의 음성인식 장치에 포함되는 컨볼루션 뉴럴 네트워크의 일 예를 나타내는 도면이다.
도 13은 본 발명의 실시예들에 따른 음성인식 학습장치의 동작방법을 나타내는 도면이다.
도 14는 본 발명의 실시예들에 따른 음성인식 장치의 동작방법을 나타내는 도면이다.
도 15는 본 발명의 실시예들에 따른 음성인식 학습장치를 나타내는 도면이다.
도 16은 본 발명의 실시예들에 따른 음성인식 장치를 나타내는 도면이다.
본 명세서에서 각 도면의 구성 요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한, 복수의 표현을 포함하는 것으로 이해되어야 하는 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 실시예들에 따른 음성인식 학습장치를 나타내는 도면이고, 도 2는 도 1의 음성인식 학습장치에 포함되는 영상 처리부에서 사용되는 입술영상의 일 예를 나타내는 도면이고, 도 3은 도 1의 음성인식 학습장치에 포함되는 영상 처리부에서 사용되는 패치영상의 일 예를 나타내는 도면이고, 도 4는 도 1의 음성인식 학습장치에 포함되는 영상 처리부로부터 출력되는 프레임 입술영상의 일 예를 나타내는 도면이고, 도 5는 도 1의 음성인식 학습장치에 포함되는 영상 처리부로부터 출력되는 프레임 패치영상의 일 예를 나타내는 도면이다.
도 1 내지 5를 참조하면, 본 발명의 실시예에 따른 음성인식 학습장치(10)는 영상 입력부(100), 영상 처리부(200) 및 컨볼루션 뉴럴 네트워크(300)를 포함할 수 있다. 영상 입력부(100)는 입력영상(IM_IN)을 수신할 수 있다. 입력영상(IM_IN)은 입술영상(RI) 및 패치영상(PI)을 포함할 수 있다. 입술영상(RI)은 입력영상(IM_IN)에서 화자의 입술부분을 포함한 영상일 수 있다. 패치영상(PI)은 입술의 정해진 위치에 배치되는 랜드마크 주변의 일정영역에 대한 영상일 수 있다. 예를 들어, 랜드마크(LM)는 제1 랜드마크(LM1) 내지 제5 랜드마크(LM5)를 포함할 수 있다. 제1 랜드마크(LM1) 주변의 일정영역에 대한 영상은 제1 패치영상(PI1)일 수 있고, 제2 랜드마크(LM2) 주변의 일정영역에 대한 영상은 제2 패치영상(PI2)일 수 있다. 동일한 방식으로, 제5 랜드마크(LM5) 주변의 일정영역에 대한 영상은 제5 패치영상(PI5)일 수 있다.
영상 처리부(200)는 미리 정해진 제1 시간간격(TP1) 동안의 입력영상(IM_IN)에 포함되는 입술영상(RI) 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상(PI)을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다.
예를 들어, 제1 시간간격(TP1)은 제1 시간(T1)부터 제N 시간(TN) 사이의 시간 간격일 수 있다. 영상 처리부(200)는 제1 시간간격(TP1) 동안의 입술영상(RI)을 프레임 간격(FD)으로 나누어 N개의 프레임 입술영상(F_RI)을 제공할 수 있다. 이 경우, 프레임 입술영상(F_RI)은 제1 프레임 입술영상(F_RI1) 내지 제N 프레임 입술영상(F_RIN)을 포함할 수 있다. 또한, 영상 처리부(200)는 제1 시간간격(TP1) 동안의 제1 패치영상(PI1)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다. 이 경우, 프레임 패치영상(F_PI)은 제1_1 프레임 패치영상(F_PI1_1) 내지 제1_N 프레임 패치영상(F_PI1_N)을 포함할 수 있다. 또한, 영상 처리부(200)는 제1 시간간격(TP1) 동안의 제2 패치영상(PI2)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다. 이 경우, 프레임 패치영상(F_PI)은 제2_1 프레임 패치영상(F_PI2_1) 내지 제2_N 프레임 패치영상(F_PI2_N)을 포함할 수 있다. 동일한 방식으로, 영상 처리부(200)는 제1 시간간격(TP1) 동안의 제K(K는 자연수) 패치영상(PI)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다. 이 경우, 프레임 패치영상(F_PI)은 제K_1 프레임 패치영상(F_PIK_1) 내지 제K_N 프레임 패치영상(F_PIK_N)을 포함할 수 있다.
컨볼루션 뉴럴 네트워크(300)는 입술영상(RI)을 N개의 프레임들로 나눈 프레임 입술영상(F_RI) 및 패치영상(PI)을 N개의 프레임들로 나눈 프레임 패치영상(F_PI)에 기초하여 입술의 모양에 상응하는 음성정보를 학습할 수 있다.
본 발명에 따른 음성인식 장치에서는 화자의 입술영상(RI) 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상(PI)을 이용하여 컨볼루션 뉴럴 네트워크(300)(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
도 6은 도 1의 음성인식 학습장치에 포함되는 영상 처리부의 일 예를 나타내는 도면이고, 도 7은 도 6의 영상 처리부에 포함되는 라벨 변형기의 일 예를 나타내는 도면이고, 도 8 및 9는 도 6의 영상 처리부에 포함되는 라벨 변형기의 동작을 설명하기 위한 도면들이다.
도 6 내지 9를 참조하면, 영상 처리부(200)는 라벨 변형기(210)를 포함할 수 있다. 라벨 변형기(210)는 제1 시간간격(TP1) 동안의 입술영상(RI) 및 패치영상(PI)의 길이를 조절하여 N개의 프레임들로 나눌 수 있다. 입술영상(RI) 및 패치영상(PI)의 길이를 조절하여 N개의 프레임들로 나누는 경우, 입술영상(RI) 및 패치영상(PI)을 조절하는 길이에 따라 다양한 프레임 입술영상(F_RI) 및 프레임 패치영상(F_PI)을 구성할 수 있다. 이 경우, 제1 컨볼루션 뉴럴 네트워크(310) 및 제2 컨볼루션 뉴럴 네트워크(320)에 제공되는 프레임 입술영상(F_RI) 및 프레임 패치영상(F_PI)의 데이터 양이 증가할 수 있다. 제1 컨볼루션 뉴럴 네트워크(310) 및 제2 컨볼루션 뉴럴 네트워크(320)에 제공되는 프레임 입술영상(F_RI) 및 프레임 패치영상(F_PI)의 데이터 양이 증가하는 경우, 본 발명에 따른 음성인식 학습장치 및 음성인식 장치의 성능은 향상될 수 있다.
예를 들어, 라벨 변형기(210)는 일정시간(A1) 동안의 앞부분 입술영상(RI) 및 뒷부분 입술영상(RI)을 연장하여 입술영상(RI)의 길이를 증가시킬 수 있고, 또한, 라벨 변형기(210)는 일정시간(A1) 동안의 앞부분 입술영상(RI) 및 뒷부분 입술영상(RI)을 삭제하여 입술영상(RI)의 길이를 감소시킬 수 있다.
예를들어, 라벨 변형기(210)는 일정시간(A1) 동안의 앞부분 패치영상(PI) 및 뒷부분 패치영상(PI)을 연장하여 패치영상(PI)의 길이를 증가시킬 수 있고, 또한, 라벨 변형기(210)는 일정시간(A1) 동안의 앞부분 패치영상(PI) 및 뒷부분 패치영상(PI)을 삭제하여 패치영상(PI)의 길이를 감소시킬 수 있다.
일 실시예에 있어서, 라벨 변형기(210)는 영상길이 조절기(211) 및 프레임 영상 제공기(213)를 포함할 수 있다. 영상길이 조절기(211)는 제1 시간간격(TP1) 동안의 입술영상(RI) 및 패치영상(PI)의 길이를 조절하여 길이조절 입술영상(LC_RI) 및 길이조절 패치영상(LC_PI)을 제공할 수 있다. 프레임 영상 제공기(213)는 길이조절 입술영상(LC_RI) 및 길이조절 패치영상(LC_PI)을 각각 N개의 프레임들로 나누어 프레임 입술영상(F_RI) 및 프레임 패치영상(F_PI)을 제공할 수 있다.
예를 들어, 영상길이 조절기(211)는 일정시간(A1) 동안의 앞부분 입술영상(RI) 및 뒷부분 입술영상(RI)을 연장하여 입술영상(RI)의 길이를 제2 시간간격(TP2)으로 증가시킬 수 있다. 이 경우, 제2 시간간격(TP2)의 입술영상(RI)은 길이조절 입술영상(LC_RI)일 수 있다. 프레임 영상 제공기(213)는 제2 시간간격(TP2)의 입술영상(RI)을 프레임 간격(FD)으로 나누어 N개의 프레임 입술영상(F_RI)을 제공할 수 있다. 또한, 영상길이 조절기(211)는 일정시간(A1) 동안의 앞부분 패치영상(PI) 및 뒷부분 패치영상(PI)을 연장하여 패치영상(PI)의 길이를 제2 시간간격(TP2)으로 증가시킬 수 있다. 이 경우, 제2 시간간격(TP2)의 패치영상(PI)은 길이조절 패치영상(LC_PI)일 수 있다. 프레임 영상 제공기(213)는 제2 시간간격(TP2)의 패치영상(PI)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다.
예를 들어, 영상길이 조절기(211)는 일정시간(A1) 동안의 앞부분 입술영상(RI) 및 뒷부분 입술영상(RI)을 삭제하여 입술영상(RI)의 길이를 제3 시간간격(TP3)으로 감소시킬 수 있다. 이 경우, 제3 시간간격(TP3)의 입술영상(RI)은 길이조절 입술영상(LC_RI)일 수 있다. 프레임 영상 제공기(213)는 제3 시간간격(TP3)의 입술영상(RI)을 프레임 간격(FD)으로 나누어 N개의 프레임 입술영상(F_RI)을 제공할 수 있다. 또한, 영상길이 조절기(211)는 일정시간(A1) 동안의 앞부분 패치영상(PI) 및 뒷부분 패치영상(PI)을 삭제하여 패치영상(PI)의 길이를 제3 시간간격(TP3)으로 감소시킬 수 있다. 이 경우, 제3 시간간격(TP3)의 패치영상(PI)은 길이조절 패치영상(LC_PI)일 수 있다. 프레임 영상 제공기(213)는 제3 시간간격(TP3)의 패치영상(PI)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다.
일 실시예에 있어서, 입술영상(RI)의 길이를 조절하여 입술영상(RI)의 길이가 증가하는 경우, 패치영상(PI)의 길이를 조절하여 패치영상(PI)의 길이가 증가될 수 있다.
일 실시예에 있어서, 입술영상(RI)의 길이를 조절하여 입술영상(RI)의 길이가 감소하는 경우, 패치영상(PI)의 길이를 조절하여 패치영상(PI)의 길이가 감소될 수 있다.
도 10은 도 1의 음성인식 학습장치에 포함되는 컨볼루션 뉴럴 네트워크의 일 예를 나타내는 도면이다.
도 10을 참조하면, 컨볼루션 뉴럴 네트워크(300)는 제1 컨볼루션 뉴럴 네트워크(310) 및 제2 컨볼루션 뉴럴 네트워크(320)를 포함할 수 있다. 일 실시예에 있어서, 제1 컨볼루션 뉴럴 네트워크(310)는 프레임 입술영상(F_RI)에 기초하여 입술 모양에 상응하는 음성정보(SRR1)를 학습할 수 있다. 일 실시예에 있어서, 제2 컨볼루션 뉴럴 네트워크(320)는 프레임 패치영상(F_PI)에 기초하여 입술 모양에 상응하는 음성정보(SRR2)를 학습할 수 있다.
또한, 제1 컨볼류션 뉴럴 네트워크(310)는 제1_1 컨볼루션 뉴럴 네트워크 내지 제1_N 컨볼루션 뉴럴 네트워크(N은 2 이상의 자연수)를 포함할 수 있다. 제1_1 컨볼루션 뉴럴 네트워크 내지 제1_N 컨볼루션 뉴럴 네트워크를 이용해 프레임 입술영상(F_RI)에 기초하여 입술 모양에 상응하는 음성정보(SRR1)를 학습하는 경우, 본 발명에 따른 음성인식 학습장치의 성능을 더욱 향상시킬 수 있다. 또한, 제2 컨볼류션 뉴럴 네트워크(320)는 제2_1 컨볼루션 뉴럴 네트워크 내지 제2_N 컨볼루션 뉴럴 네트워크(N은 2 이상의 자연수)를 포함할 수 있다. 제2_1 컨볼루션 뉴럴 네트워크 내지 제2_N 컨볼루션 뉴럴 네트워크를 이용해 프레임 패치영상(F_RI)에 기초하여 입술 모양에 상응하는 음성정보(SRR2)를 학습하는 경우, 본 발명에 따른 음성인식 학습장치의 성능을 더욱 향상시킬 수 있다.
본 발명에 따른 음성인식 장치에서는 화자의 입술영상(RI) 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상(PI)을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
도 11은 본 발명의 실시예들에 따른 음성인식 장치를 나타내는 도면이고, 도 12는 도 11의 음성인식 장치에 포함되는 컨볼루션 뉴럴 네트워크의 일 예를 나타내는 도면이다.
도 1 내지 5, 11 및 12를 참조하면, 본 발명의 실시예에 따른 음성인식 장치는 영상 입력부(100), 영상 처리부(200) 및 컨볼루션 뉴럴 네트워크(300)를 포함할 수 있다. 영상 입력부(100)는 입력영상(IM_IN)을 수신할 수 있다. 입력영상(IM_IN)은 입술영상(RI) 및 패치영상(PI)을 포함할 수 있다. 입술영상(RI)은 입력영상(IM_IN)에서 화자의 입술부분을 포함한 영상일 수 있다. 패치영상(PI)은 입술의 정해진 위치에 배치되는 랜드마크의 주변의 일정영역에 대한 영상일 수 있다. 예를 들어, 랜드마크는 제1 랜드마크(LM1) 내지 제5 랜드마크(LM5)를 포함할 수 있다. 제1 랜드마크(LM1) 주변의 일정영역에 대한 영상은 제1 패치영상(PI1)일 수 있고, 제2 랜드마크(LM2) 주변의 일정영역에 대한 영상은 제2 패치영상(PI2)일 수 있다. 동일한 방식으로, 제5 랜드마크(LM5) 주변의 일정영역에 대한 영상은 제5 패치영상(PI5)일 수 있다.
영상 처리부(200)는 미리 정해진 제1 시간간격(TP1) 동안의 입력영상(IM_IN)에 포함되는 입술영상(RI) 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상(PI)을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다.
예를 들어, 제1 시간간격(TP1)은 제1 시간(T1)부터 제N 시간(TN) 사이의 시간 간격일 수 있다. 영상 처리부(200)는 제1 시간간격(TP1) 동안의 입술영상(RI)을 프레임 간격(FD)으로 나누어 N개의 프레임 입술영상(F_RI)을 제공할 수 있다. 이 경우, 프레임 입술영상(F_RI)은 제1 프레임 입술영상(F_RI1) 내지 제N 프레임 입술영상(F_RIN)을 포함할 수 있다. 또한, 영상 처리부(200)는 제1 시간간격(TP1) 동안의 제1 패치영상(PI1)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다. 이 경우, 프레임 패치영상(F_PI)은 제1_1 프레임 패치영상(F_PI1_1) 내지 제1_N 프레임 패치영상(F_PI1_N)을 포함할 수 있다. 또한, 영상 처리부(200)는 제1 시간간격(TP1) 동안의 제2 패치영상(PI2)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다. 이 경우, 프레임 패치영상(F_PI)은 제2_1 프레임 패치영상(F_PI2_1) 내지 제2_N 프레임 패치영상(F_PI2_N)을 포함할 수 있다. 동일한 방식으로, 영상 처리부(200)는 제1 시간간격(TP1) 동안의 제K(K는 자연수) 패치영상(PI)을 프레임 간격(FD)으로 나누어 N개의 프레임 패치영상(F_PI)을 제공할 수 있다. 이 경우, 프레임 패치영상(F_PI)은 제K_1 프레임 패치영상(F_PIK_1) 내지 제K_N 프레임 패치영상(F_PIK_N)을 포함할 수 있다.
컨볼루션 뉴럴 네트워크(300)는 입술영상(RI)을 N개의 프레임들로 나눈 프레임 입술영상(F_RI) 및 패치영상(PI)을 N개의 프레임들로 나눈 프레임 패치영상(F_PI)에 기초하여 입술의 모양에 상응하는 음성인식 결과(SRR)를 결정할 수 있다. 예를 들어, 컨볼루션 뉴럴 네트워크(300)는 제1 컨볼루션 뉴럴 네트워크(310) 및 제2 컨볼루션 뉴럴 네트워크(320)를 포함할 수 있다. 일 실시예에 있어서, 제1 컨볼루션 뉴럴 네트워크(310)는 프레임 입술영상(F_RI)에 기초하여 입술 모양에 상응하는 음성정보(SRR1)를 결정할 수 있고, 제2 컨볼루션 뉴럴 네트워크(320)는 프레임 패치영상(F_PI)에 기초하여 입술 모양에 상응하는 음성정보(SRR2)를 결정할 수 있다.
또한, 제1 컨볼류션 뉴럴 네트워크(310)는 제1_1 컨볼루션 뉴럴 네트워크 내지 제1_N 컨볼루션 뉴럴 네트워크(N은 2 이상의 자연수)를 포함할 수 있다. 제1_1 컨볼루션 뉴럴 네트워크 내지 제1_N 컨볼루션 뉴럴 네트워크를 이용해 프레임 입술영상(F_RI)에 기초하여 입술 모양에 상응하는 음성정보(SRR1)를 결정하는 경우, 본 발명에 따른 음성인식 장치의 성능을 더욱 향상시킬 수 있다. 또한, 제2 컨볼류션 뉴럴 네트워크(320)는 제2_1 컨볼루션 뉴럴 네트워크 내지 제2_N 컨볼루션 뉴럴 네트워크(N은 2 이상의 자연수)를 포함할 수 있다. 제2_1 컨볼루션 뉴럴 네트워크 내지 제2_N 컨볼루션 뉴럴 네트워크를 이용해 프레임 패치영상(F_RI)에 기초하여 입술 모양에 상응하는 음성정보(SRR2)를 결정하는 경우, 본 발명에 따른 음성인식 장치의 성능을 더욱 향상시킬 수 있다.
일 실시예에 있어서, 제1 컨볼루션 뉴럴 네트워크(310)로부터 결정되는 음성정보에 상응하는 제1 확률(P1) 및 제2 컨볼루션 뉴럴 네트워크(320)로부터 결정되는 음성정보에 상응하는 제2 확률(P2)의 합에 기초하여 음성인식 결과(SRR)가 결정될 수 있다. 예를 들어, 제1 컨볼루션 뉴럴 네트워크(310)는 입술영상(RI)에 상응하는 음성정보를 제1 문장 또는 제2 문장으로 판단할 수 있다. 이 경우, 제1 컨볼루션 뉴럴 네트워크(310)는 제1 문장 또는 제2 문장 각각이 정답일 확률을 제1 확률(P1)로서 제공할 수 있다. 예를 들어, 제1 컨볼루션 뉴럴 네트워크(310)로부터 제공되는 제1 문장이 정답일 제1 확률(P1)은 0.8일 수 있고, 제1 컨볼루션 뉴럴 네트워크(310)로부터 제공되는 제2 문장이 정답일 제1 확률(P1)은 0.7일 수 있다.
또한, 제2 컨볼루션 뉴럴 네트워크(320)는 패치영상(PI)에 상응하는 음성정보를 제1 문장 또는 제2 문장으로 판단할 수 있다. 이 경우, 제2 컨볼루션 뉴럴 네트워크(320)는 제1 문장 또는 제2 문장 각각이 정답일 확률을 제2 확률(P2)로서 제공할 수 있다. 예를 들어, 제2 컨볼루션 뉴럴 네트워크(320)로부터 제공되는 제1 문장이 정답일 제2 확률(P2)은 0.3일 수 있고, 제2 컨볼루션 뉴럴 네트워크(320)로부터 제공되는 제2 문장이 정답일 제2 확률(P2)은 0.7일 수 있다.
이 경우, 제1 컨볼루션 뉴럴 네트워크(310)로부터 결정되는 음성정보에 상응하는 제1 확률(P1) 및 제2 컨볼루션 뉴럴 네트워크(320)로부터 결정되는 음성정보에 상응하는 제2 확률(P2)의 합에 기초하여 음성인식 결과(SRR)가 결정될 수 있다. 예를 들어, 제1 문장의 경우, 제1 확률(P1) 및 제2 확률(P2)의 합은 1.1일 수 있고, 제2 문장의 경우, 제1 확률(P1) 및 제2 확률(P2)의 합은 1.4일 수 있다. 이 경우, 영상입력에 상응하는 음성인식 결과(SRR)는 제2 문장일 수 있다.
본 발명에 따른 음성인식 장치에서는 화자의 입술영상(RI) 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상(PI)을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
도 13은 본 발명의 실시예들에 따른 음성인식 학습장치의 동작방법을 나타내는 도면이다.
도 13을 참조하면, 본 발명의 실시예에 따른 음성인식 학습장치(10)의 동작방법에서는, 영상 입력부(100)가 입력영상(IM_IN)을 수신할 수 있다(S100). 영상 처리부(200)가 미리 정해진 제1 시간간격(TP1) 동안의 입력영상(IM_IN)에 포함되는 입술영상(RI) 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상(PI)을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다(S200). 컨볼루션 뉴럴 네트워크(300)가 입술영상(RI)을 N개의 프레임들로 나눈 프레임 입술영상(F_RI) 및 패치영상(PI)을 N개의 프레임들로 나눈 프레임 패치영상(F_PI)에 기초하여 입술의 모양에 상응하는 음성정보를 학습할 수 있다(S300).
도 14는 본 발명의 실시예들에 따른 음성인식 장치의 동작방법을 나타내는 도면이다.
도 14를 참조하면, 본 발명의 실시예에 따른 음성인식 장치의 동작방법에서는, 영상 입력부(100)가 입력영상(IM_IN)을 수신할 수 있다(S400). 영상 처리부(200)가 미리 정해진 제1 시간간격(TP1) 동안의 입력영상(IM_IN)에 포함되는 입술영상(RI) 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상(PI)을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다(S500). 컨볼루션 뉴럴 네트워크(300)가 입술영상(RI)을 N개의 프레임들로 나눈 프레임 입술영상(F_RI) 및 패치영상(PI)을 N개의 프레임들로 나눈 프레임 패치영상(F_PI)에 기초하여 입술의 모양에 상응하는 음성인식 결과(SRR)를 결정할 수 있다(S600).
본 발명에 따른 음성인식 장치에서는 화자의 입술영상(RI) 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상(PI)을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
도 15는 본 발명의 실시예들에 따른 음성인식 학습장치를 나타내는 도면이다.
도 15를 참조하면, 본 발명의 실시예들에 따른 음성인식 학습장치(10)는 영상 입력부(100), 영상 처리부(200) 및 컨볼루션 뉴럴 네트워크(300)를 포함할 수 있다. 영상 입력부(100)는 입력영상(IM_IN)을 수신할 수 있다. 영상 처리부(200)는 미리 정해진 제1 시간간격(TP1) 동안의 입력영상(IM_IN)에 포함되는 입술의 정해진 위치에 상응하는 랜드마크(LM)의 주변영상에 해당하는 패치영상(PI)을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크(300)는 패치영상(PI)을 N개의 프레임들로 나눈 프레임 패치영상(F_PI)에 기초하여 입술의 모양에 상응하는 음성정보를 학습할 수 있다.
도 16은 본 발명의 실시예들에 따른 음성인식 장치를 나타내는 도면이다.
도 16을 참조하면, 본 발명의 실시예들에 따른 음성인식 장치는 영상 입력부(100), 영상 처리부(200) 및 컨볼루션 뉴럴 네트워크(300)를 포함할 수 있다. 영상 입력부(100)는 입력영상(IM_IN)을 수신할 수 있다. 영상 처리부(200)는 미리 정해진 제1 시간간격(TP1) 동안의 입력영상(IM_IN)에 포함되는 입술의 정해진 위치에 상응하는 랜드마크(LM)의 주변영상에 해당하는 패치영상(PI)을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크(300)는 패치영상(PI)을 N개의 프레임들로 나눈 프레임 패치영상(F_PI)에 기초하여 입술의 모양에 상응하는 음성인식 결과(SRR)를 결정할 수 있다.
본 발명에 따른 음성인식 장치에서는 입술의 정해진 위치에 배치되는 랜드마크(LM)의 주변영상인 패치영상(PI)을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
10: 음성인식 학습장치 100: 영상 입력부
200: 영상 처리부 300: 컨볼루션 뉴럴 네트워크
210: 라벨 변형기 211: 영상길이 조절기
213: 프레임 영상 제공기

Claims (17)

  1. 입력영상을 수신하는 영상 입력부;
    미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및
    상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 학습장치.
  2. 제1항에 있어서,
    상기 영상 처리부는,
    상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 N개의 프레임들로 나누는 라벨 변형기를 포함하는 것을 특징으로 하는 음성인식 학습장치.
  3. 제2항에 있어서,
    상기 라벨 변형기는,
    상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 길이조절 입술영상 및 길이조절 패치영상을 제공하는 영상길이 조절기; 및
    상기 길이조절 입술영상 및 상기 길이조절 패치영상을 각각 N개의 프레임들로 나누어 상기 프레임 입술영상 및 상기 프레임 패치영상을 제공하는 프레임 영상 제공기를 포함하는 것을 특징으로 하는 음성인식 학습장치.
  4. 제3항에 있어서,
    상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 증가하는 경우,
    상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 증가되는 것을 특징으로 하는 음성인식 학습장치.
  5. 제3항에 있어서,
    상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 감소하는 경우,
    상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 감소되는 것을 특징으로 하는 음성인식 학습장치.
  6. 제3항에 있어서,
    상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함하는 것을 특징으로 하는 음성인식 학습장치.
  7. 제6항에 있어서,
    상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습하는 것을 특징으로 하는 음성인식 학습장치.
  8. 제6항에 있어서,
    상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습하는 것을 특징으로 하는 음성인식 학습장치.
  9. 입력영상을 수신하는 영상 입력부;
    미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및
    상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 장치.
  10. 제9항에 있어서,
    상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함하는 것을 특징으로 하는 음성인식 장치.
  11. 제10항에 있어서,
    상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정하는 것을 특징으로 하는 음성인식 장치.
  12. 제11항에 있어서,
    상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정하는 것을 특징으로 하는 음성인식 장치.
  13. 제12항에 있어서,
    상기 제1 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제1 확률 및 상기 제2 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제2 확률의 합에 기초하여 음성인식 결과가 결정되는 것을 특징으로 하는 음성인식 장치.
  14. 영상 입력부가 입력영상을 수신하는 단계;
    영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 단계;
    컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 단계를 포함하는 음성인식 학습장치의 동작방법.
  15. 영상 입력부가 입력영상을 수신하는 단계;
    영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 단계; 및
    컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 단계를 포함하는 음성인식 장치의 동작방법.
  16. 입력영상을 수신하는 영상 입력부;
    미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및
    상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 학습장치.
  17. 입력영상을 수신하는 영상 입력부;
    미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및
    상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 장치.
KR1020190068439A 2019-06-11 2019-06-11 음성인식 장치 및 음성인식 장치의 동작방법 KR102244967B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190068439A KR102244967B1 (ko) 2019-06-11 2019-06-11 음성인식 장치 및 음성인식 장치의 동작방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190068439A KR102244967B1 (ko) 2019-06-11 2019-06-11 음성인식 장치 및 음성인식 장치의 동작방법

Publications (2)

Publication Number Publication Date
KR20200142131A true KR20200142131A (ko) 2020-12-22
KR102244967B1 KR102244967B1 (ko) 2021-04-27

Family

ID=74086494

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190068439A KR102244967B1 (ko) 2019-06-11 2019-06-11 음성인식 장치 및 음성인식 장치의 동작방법

Country Status (1)

Country Link
KR (1) KR102244967B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050019599A (ko) * 2003-08-20 2005-03-03 한국과학기술원 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
KR20120091625A (ko) * 2011-02-09 2012-08-20 한국과학기술연구원 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
KR20150050854A (ko) * 2013-11-01 2015-05-11 고려대학교 산학협력단 영상 기반의 음성 인식 방법
KR101894422B1 (ko) * 2018-02-14 2018-09-04 김성환 입술 인식 모바일 컨트롤 단말기
KR20190016733A (ko) 2017-08-09 2019-02-19 한국과학기술연구원 얼굴 특징점 기반 부분 영역 지정을 통한 부분 가림 얼굴 인식 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20190017507A (ko) * 2017-08-11 2019-02-20 엘지전자 주식회사 영상표시장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050019599A (ko) * 2003-08-20 2005-03-03 한국과학기술원 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
KR20120091625A (ko) * 2011-02-09 2012-08-20 한국과학기술연구원 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
KR20150050854A (ko) * 2013-11-01 2015-05-11 고려대학교 산학협력단 영상 기반의 음성 인식 방법
KR20190016733A (ko) 2017-08-09 2019-02-19 한국과학기술연구원 얼굴 특징점 기반 부분 영역 지정을 통한 부분 가림 얼굴 인식 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20190017507A (ko) * 2017-08-11 2019-02-20 엘지전자 주식회사 영상표시장치
KR101894422B1 (ko) * 2018-02-14 2018-09-04 김성환 입술 인식 모바일 컨트롤 단말기

Also Published As

Publication number Publication date
KR102244967B1 (ko) 2021-04-27

Similar Documents

Publication Publication Date Title
US20240038218A1 (en) Speech model personalization via ambient context harvesting
KR102616351B1 (ko) 지식 브리지를 이용한 학생 교사 전송 학습 네트워크를 위한 장치 및 방법
CN117121103A (zh) 用于实时声音增强的方法和装置
US10504523B2 (en) Voice processing device, voice processing method, and computer program product
WO2022023417A2 (de) System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
CN112927144A (zh) 图像增强方法、图像增强装置、介质和电子设备
CA2983471C (en) An audio signal processing apparatus and method for modifying a stereo image of a stereo signal
KR102244967B1 (ko) 음성인식 장치 및 음성인식 장치의 동작방법
CN113707134A (zh) 一种模型训练方法、装置和用于模型训练的装置
KR20190059381A (ko) 자동 음성/제스처 인식 기반 멀티미디어 편집 방법
KR101082840B1 (ko) 음성과 잡음 신호 분리 방법 및 그 장치
CN111784726A (zh) 人像抠图方法和装置
US11501790B2 (en) Audiovisual communication system and control method thereof
CN111429937B (zh) 语音分离方法、模型训练方法及电子设备
KR102330345B1 (ko) Pu 적용 cts 컨바인 시스템
US20220095009A1 (en) Method and apparatus for controlling audio sound quality in terminal using network
CN112397089B (zh) 语音发出者身份识别方法、装置、计算机设备及存储介质
US20240177472A1 (en) Information processing device and information processing method
WO2024018390A1 (en) Method and apparatus for speech enhancement
CN114758666A (zh) 语音捕获方法以及语音捕获系统
EP4087263A1 (en) Image and audio apparatus and method
JP2005257748A (ja) 収音方法、収音装置、収音プログラム
JP2022180258A (ja) 話者ダイアライゼーション方法、話者ダイアライゼーションシステム
JP2022001968A (ja) ニューラルネットワーク装置
EP1351479A1 (en) Generating an undisturbed signal out of an audio signal including a disturbing signal

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant