KR100776803B1 - 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 - Google Patents
다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 Download PDFInfo
- Publication number
- KR100776803B1 KR100776803B1 KR1020060093539A KR20060093539A KR100776803B1 KR 100776803 B1 KR100776803 B1 KR 100776803B1 KR 1020060093539 A KR1020060093539 A KR 1020060093539A KR 20060093539 A KR20060093539 A KR 20060093539A KR 100776803 B1 KR100776803 B1 KR 100776803B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- fuzzy
- voice
- channel
- speaker model
- Prior art date
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 238000010926 purge Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- QSIYTPCKNAPAJY-UHFFFAOYSA-N aluminum;ethoxy-oxido-oxophosphanium;2-(trichloromethylsulfanyl)isoindole-1,3-dione Chemical compound [Al+3].CCO[P+]([O-])=O.CCO[P+]([O-])=O.CCO[P+]([O-])=O.C1=CC=C2C(=O)N(SC(Cl)(Cl)Cl)C(=O)C2=C1 QSIYTPCKNAPAJY-UHFFFAOYSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 206010046865 Vaccinia virus infection Diseases 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 208000007089 vaccinia Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/33—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Manipulator (AREA)
Abstract
본 발명은 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및 그 방법에 관한 것으로, 상기 장치는, 복수의 채널을 통해 온라인으로 화자의 음성을 취득 및 등록하는 다채널 마이크로폰, 상기 등록된 각 채널별 음성들에 대해 각각 시작점 및 끝점을 검출하여 문장을 구분하고 상기 구분된 문장에 포함된 음성의 잡음을 제거하는 음성 데이터 취득부, 상기 잡음이 제거된 각 음성 데이터에 대한 특징에 기초하여 화자 모델을 구축하고 상기 구축된 화자 모델에 대해 우도 로그값으로 변환하는 화자모델 생성부, 상기 각 채널별 우도 로그값들에 대해 융합된 퍼지 값을 산출하는 퍼지 처리부, 및 상기 산출된 퍼지 값에 기초한 융합값의 최대치를 화자로서 인식하는 화자 인식부를 포함하며, 이에 의해, 전 방향에 대해 발성되는 화자의 음성을 보다 높은 성능으로 정확하게 취득할 수 있고 잡음환경이나 원거리에서 화자 인식 성능을 높일 수 있다.
지능형 로봇, 화자, 음성, 인식, 채널, 다채널, 퍼지, 융합
Description
도 1은 본 발명의 바람직한 실시예에 따른 다채널 기반 퍼지 융합을 이용한 지능형 로봇의 화자 인식 장치를 도시한 블록도,
도 2는 본 발명의 바람직한 실시예에 따른 다채널 기반 퍼지 융합을 이용한 지능형 로봇의 화자 인식 방법을 도시한 흐름도,
도 3은 본 발명의 실시예에 따른 도 2의 화자 음성 데이터 등록 단계를 보다 상세하게 도시한 흐름도,
도 4는 본 발명의 실시예에 따른 도 2의 화자 모델 구축 단계를 보다 상세하게 도시한 흐름도, 그리고
도 5는 본 발명의 실시예에 따른 도 2의 퍼지 융합 및 화자 인식 단계를 보다 상세하게 도시한 흐름도이다.
본 발명은 지능형 로봇의 화자 인식 장치 및 방법에 관한 것으로서, 보다 상세하게는, 마이크로폰을 통해 발성자의 음성을 보다 선명한 감도로 독취하여 화자가 누구인지를 보다 정확하게 판별할 수 있는 지능형 로봇의 화자 인식 장치 및 방법에 관한 것이다.
최근 들어, 삶 속에서 사용자의 편의를 도모하기 위해 사용자가 의도하는 해당 작업을 돕는 로봇이 개발되고 있다. 특히, 사용자와 로봇 간에 상호작용을 통해 로봇이 지능적으로 판단하고 그 결과에 따른 동작을 수행할 수 있는 지능형 로봇이 개발되고 있다.
이러한 지능형 로봇 기술을 구현하기 위해서는 로봇이 사용자의 명령이나 동작을 인식하는 기술이 요구된다. 이중에서 사용자 인식기술의 핵심기술로서 부각되고 있는 것이 사용자의 얼굴 인식과 화자(발성자) 인식 기술이다.
현재까지, 로봇 환경에서 화자인식기술은 얼굴인식기술과 달리 많은 연구와 개발이 이루어지고 있지 않은 실정이다. 다만, 단일 채널을 가진 마이크로폰에 의해 화자의 음성을 독취하고, 이를 기초로 화자를 인식하는 기술이 일부 기술 분야에서 행해지고 있을 뿐이다. 그러나 이는 화자 인식을 위한 감도 및 정확도가 떨어지는 문제점이 있다.
상기와 같은 화자인식방법은 일반적으로 보안 및 전자상거래 분야에서 주로 사용되고 있다. 주로 사용되는 화자인식방법은 문장종속 화자인식, 문장제시형 화자인식, 및 문장독립형 화자인식 방법을 예로 들 수 있다. 이중에서 로봇환경에서는 어떠한 문장을 발성해도 화자를 인식하기 위해서는, 문장 독립형 화자인식 방법 이 필요하다.
또한, 로봇 환경에서의 화자 인식 방법은 로봇이 위치하는 전(모든) 방향에서 발성자가 대화나 명령을 발성할 경우, 로봇이 화자인식을 수행해야 한다. 또한 로봇은 근거리뿐만 아니라 원거리에서 발성되는 음성도 독취하여 발성자가 누구인지 알아내는 것이 필요하다. 뿐만 아니라, 지능형 로봇은 다양한 환경에서 존재하는 잡음환경 요소를 식별하여 오동작을 방지할 수 있는 기술이 요구된다.
이와 같이, 종래의 단일 채널 마이크로폰이 부착된 로봇은 잡음환경, 모든 방향, 및 원거리 환경에서 화자 인식 성능이 떨어지게 되는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제1 목적은, 사용자와 로봇 간에 상호작용을 위해 임의의 잡음 환경에서 발성자가 말하는 문장에 상관없이 화자가 누구인지를 보다 정확하게 인식할 수 있는 지능형 로봇의 화자 인식 장치 및 방법을 제공하는 데 있다.
본 발명의 제2 목적은, 로봇이 위치하는 모든 방향으로부터 발성되는 음성을 독취하여 보다 정확하게 화자를 인식할 수 있는 지능형 로봇의 화자 인식 장치 및 방법을 제공하는 데 있다.
본 발명의 제3 목적은, 로봇이 위치하는 곳으로부터 원거리에서 발성되는 발성자의 음성을 독취하여 보다 정확하게 화자를 인식 할 수 있는 지능형 로봇의 화자 인식 장치 및 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 지능형 로봇의 화자 인식 장치는, 복수의 채널을 통해 온라인으로 화자의 음성을 취득 및 등록하는 다채널 마이크로폰; 상기 등록된 각 채널별 음성들에 대해 각각 시작점 및 끝점을 검출하여 문장을 구분하고, 상기 구분된 문장에 포함된 음성의 잡음을 제거하는 음성 데이터 취득부; 상기 잡음이 제거된 각 음성 데이터에 대한 특징에 기초하여 화자 모델을 구축하고, 상기 구축된 화자 모델에 대해 우도 로그값으로 변환하는 화자모델 생성부; 상기 각 채널별 우도 로그값들에 대해 융합된 퍼지 값을 산출하는 퍼지 처리부; 및 상기 산출된 퍼지 값에 기초한 융합값의 최대치를 화자로서 인식하는 화자 인식부를 포함한다.
상기 음성 데이터 취득부는 상기 각 채널별 음성들에 대해 끝점 검출 알고리즘(Endpoint detection)을 이용하여 상기 시작점 및 끝점을 검출한다. 상기 음성 데이터 취득부는 위너 필터(Winer filter)를 이용하여 상기 시작점 및 끝점에 의해 구분된 문장의 음성으로부터 잡음을 제거한다.
또한 상기 화자모델 생성부는, 상기 잡음이 제거된 각 채널의 음성에 대한 특징 정보를 추출하는 특징 추출부; 상기 특징 정보에 기초하여 상기 각 채널의 음성에 대한 화자 모델을 구축하는 화자모델 구축부; 및 상기 각 화자 모델의 음성에 대응하는 우도 로그값을 생성하는 우도 로그값 변환부를 포함한다. 이때, 상기 특징 추출부는 멜 캡스트럼(MFCC: Mel-Frequency Cepstral Coefficients)을 이용하여 상기 각 채널의 음성에 대한 특징 정보를 추출한다. 상기 화자모델 구축부는 가우 시안 혼합모델(GMM: Gaussian Mixture Model)을 이용하여 상기 각 채널의 음성에 대한 화자 모델을 구축한다.
상기 퍼지 처리부는, 상기 각 채널별 우도 로그값들에 대해 각각 퍼지 소속도를 산출하는 퍼지 소속도 산출부; 및 상기 산출된 퍼지소속도 값들을 퍼지 융합하는 퍼지 융합부를 포함한다. 이때, 상기 퍼지 소속도 산출부는 시그모이드(sigmoid) 소속함수를 이용하여 상기 퍼지 소속도를 산출한다. 상기 퍼지 융합부는 퍼지 적분을 이용하여 상기 퍼지소속도 값들을 퍼지 융합한다.
한편, 상기와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 지능형 로봇의 화자 인식 방법은, 다채널 마이크로폰을 통해 온라인으로 화자의 음성을 취득 및 등록하는 단계; 상기 등록된 각 채널별 음성들에 대해 화자 모델을 구축하는 단계; 및 상기 각 채널의 화자 모델에 대응하는 우도 로그값의 퍼지 소속도를 융합하여, 이에 대한 최대치를 화자로서 인식하는 단계를 포함한다.
바람직하게는, 상기 화자 음성 데이터 등록 단계는, 상기 다채널 마이크로폰으로부터 온라인으로 출력되는 화자의 음성을 취득하는 단계; 상기 각 채널별 음성에 대해 시작점 및 끝점을 검출하는 단계; 및 상기 시작점과 끝점으로 구분된 음성의 문장들에 대해 잡음 요소를 제거하는 단계를 포함한다.
상기 화자 모델 구축 단계는, 상기 등록된 각 채널별 음성들로부터 특징 값들을 추출하는 단계; 상기 특징 값들에 기초하여 상기 채널별 음성에 대한 화자 모델을 구축하는 단계; 및 상기 구축된 화자 모델에 대한 음성에 대응하는 우도 로그값을 생성하는 단계를 포함한다.
상기 화자 인식 단계는, 상기 각 채널별 우도 로그값에 기초하여 퍼지 소속도를 산출하는 단계; 상기 산출된 퍼지 소속도 값들을 퍼지 융합하는 단계; 및 상기 퍼지 융합된 값의 초대치를 상기 화자로 인식하는 단계를 포함한다.
본 발명에 따르면, 지능형 로봇에서 음성 기반 인간-로봇 상호작용을 수행하기 위해 다채널의 마이크로폰을 통해 온라인 화자등록과 로봇의 모든 방향에서 음성 인식이 가능하도록 구현함으로써, 전 방향에 대해 발성되는 화자의 음성을 보다 높은 성능으로 정확하게 취득할 수 있다. 또한 본 발명은 다채널 기반 온라인 화자등록/인식/퍼지 융합을 통해 보다 정확하게 화자를 인식할 수 있도록 함으로써, 잡음환경이나 원거리에서 화자 인식 성능의 저하를 최소화할 수 있다.
이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
본 발명은 마이크로폰을 통해 발성자의 음성을 보다 선명한 감도로 독취하여 화자가 누구인지를 보다 정확하게 판별할 수 있도록 하기 위해, 다채널 마이크로폰을 통해 발성자의 음성을 독취하고 독취한 다채널의 음성을 퍼지 융합하여 보다 높은 감도에서 화자를 보다 정확하게 판별할 수 있는 지능형 로봇의 화자 인식 방법을 제안한다. 이와 같이, 로봇의 모든 방향에서 음성 인식이 가능하기 위해 본 발명에서는 로봇 주위에 여러 개의 마이크로폰을 부착하고, 잡음환경 및 원거리에서도 보다 정확한 화자 인식이 가능하도록 다채널 마이크로폰의 각 채널로부터 독취 한 음성 데이터에 대해 퍼지 적분을 통해 퍼지 소속 값을 융합하는 기법을 개시한다.
도 1은 본 발명의 바람직한 실시예에 따른 다채널 기반 퍼지 융합을 이용한 지능형 로봇의 화자 인식 장치를 도시한 블록도이다.
도시된 바와 같이, 지능형 로봇(100)에는 화자(10)로부터 발성되는 음성을 전 방향에 대해 독취가 가능하도록 측면에 다수개의 마이크로폰(200)이 배치된다. 본 실시예에서는 지능형 로봇(100)의 측면에 4개의 마이크로폰(220,240,260,280)이 배치되어 있음을 알 수 있다. 이에 따라, 화자(10)의 음성이 어느 방향으로부터 발성되더라도 소정 간격을 두고 서로 다른 방향을 향하여 배치된 복수의 다채널 마이크로폰(220,240,260,280)을 통해 발성되는 음성을 보다 용이하게 독취할 수 있다. 이에 따라, 다채널의 마이크로폰(200)은 테스트 음성을 통해 온라인으로 화자(10)의 음성을 취득한다.
본 실시예에서 네 개의 마이크로폰(220,240,260,280)이 로봇에 부착되이 있는 경우, 이에 대응하여 각각 끝점 검출부(320,340,360,380)가 마련된다. 이에 따라, 다채널의 마이크로폰(200)에 대응하여 마련되는 끝점 검출부(300)는 다채널의 마이크로폰(200)으로부터 각각 취득되어 출력되는 음성에 대해 시작점 및 끝점을 검출하고, 각각 구분되는 문장들에 대한 잡음을 제거한다.
본 실시예에서는 복수의 끝점 검출부(300)에 대응하여 각 채널별로 음성에 대한 화자 모델을 구축하기 위한 화자모델 생성부(420,440,460,480)가 각각 구비된다.
여기서, 화자모델 생성부(420,440,460,480)는 각각 특징추출부(422,442,462,482), 화자모델 구축부(424,444,464,484), 및 우도 로그값 변환부(426,446,466,486)를 포함하여 구성된다.
이에 따라, 특징추출부(422,442,462,482)는 각각 끝점 검출부(300)에서 잡음이 제거된 각 채널의 음성데이터로부터 특징 정보를 추출한다. 화자모델 구축부(424,444,464,484)는 각 채널별 음성에 대한 화자 모델을 구축한다. 우도 로그값 변환부(426,446,466,486)는 각 화자 모델의 음성에 대해 우도 로그값으로 변환한다.
도면에서와 같이, 화자모델 생성부(400)의 각 부(420,440,460,480)에 대응하여 퍼지 소속도 산출부(520,540,560,580)가 구비된다. 퍼지 소속도 산출부(520,540,560,580)는 각각 화자모델 생성부(420,440,460,480)로부터 변환된 우도 로그값에 기초하여 퍼지 소속도를 산출한다. 퍼지 소속도 산출부(520,540,560,580)의 출력단에 연결되는 퍼지 융합부(600)는 퍼지 소속도 산출부(520,540,560,580)로부터 산출된 각 채널의 모델 음성에 대한 우도 로그값들을 퍼지 융합한다.
이에 따라, 퍼지 융합부(600)의 출력단에 연결되는 화자 인식부(700)는 퍼지 융합값이 최대치인 음성을 발성한 사용자를, 화자로서 인식한다.
도 2는 본 발명의 바람직한 실시예에 따른 다채널 기반 퍼지 융합을 이용한 지능형 로봇의 화자 인식 방법을 도시한 흐름도이다.
먼저, 끝점 검출부9300)는 여러 문장을 따라 읽게 함으로서 화자로부터 온라 인상에서 발성되는 음성을, 다채널 마이크로폰(200)을 통해 취득하여 온라인으로 화자 음성 데이터로서 등록한다(S100).
온라인으로 화자 음성 데이터가 등록되면, 화자 모델 생성부(400)는 각 채널별로 음성 데이터에 대한 화자 모델을 구축한다(S200).
화자 모델이 구축되면, 퍼지 소속도 산출부(500) 및 퍼지 융합부(600)는 각 채널의 화자 모델에 대응하는 우도 로그값을 산출하고 산출된 각 퍼지 소속도 값들을 융합한다(S300). 이에 따라 화자 인식부(700)는 퍼지 융합된 값의 최대치에 대응하는 음성을 발성한 사용자를 화자로 인식한다.
도 3은 본 발명의 실시예에 따른 도 2의 화자 음성 데이터 등록 단계(S100)를 보다 상세하게 도시한 흐름도이다.
먼저, 끝점 검출부(300)는 사용자가 여러 문장을 읽어서 다채널 마이크로폰(200)으로부터 온라인으로 출력되는 화자의 음성을 취득한다(S120). 즉, 기존에는 오프라인 상에서 사용자의 음성을 미리 등록해 놓고 각 화자의 모델을 구축하는 반면, 본 발명에서의 화자 등록은 다채널 마이크로폰(200)을 통해 각각 이루어지며 온라인상에서 각 화자의 모델을 구축하는 것을 특징으로 한다.
또한 끝점 검출부(300)는 각 채널별로 등록된 음성에 대해, 끝점검출 알고리즘(Endpoint detection)을 이용하여 음성의 시작점 및 끝점을 검출한다(S140). 뿐만 아니라, 끝점 검출부(300)는 시작점과 끝점으로 구분된 음성의 문장들에 대해 위너필터 (Winer filter)를 이용하여 잡음 요소를 각각 제거한다(S160).
도 4는 본 발명의 실시예에 따른 도 2의 화자 모델 구축 단계(S200)를 보다 상세하게 도시한 흐름도이다.
먼저, 특징 추출부(422,442,462,482)는 각 채널별로 등록된 음성 데이터로부터 스펙트럼 기반 청각특성을 적용한 멜 캡스트럼(MFCC: Mel-Frequency Cepstral Coefficients)을 이용하여 특징 값들을 추출한다(S220).
화자 모델 구축부(424,444,464,484)는 화자별로 가우시안 혼합모델(GMM: Gaussian Mixture Model)을 이용하여 채널별 음성에 대한 화자 모델을 구축한다(S240). 가우시안 혼합모델(GMM)은 아래 수학식 1과 같이 나타낼 수 있다.
여기서 wi는 혼합 가중치이고, bi 는 가우시안 혼합모델을 통해 얻어진 확률 값이다.
여기서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합이다. 화자 모델 구축부(424,444,464,484)는 임의의 화자로부터 온라인 등록된 음성이 주어졌을 때, 가우시안 혼합모델의 파라미터를 추정한다. 본 실시예에서는 이를 위해 최도 우도 추정방법(maximum likelihood estimation)을 이용한다.
한편, 우도 로그값 변환부(426,446,466,486)는 각 화자 모델의 음성에 대해 우도의 로그 값으로 변환한다(S260). T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대해서, 가우시안 혼합모델의 우도 값은 아래 수학식 2와 같이 나타낼 수 있다.
여기서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된 , i=1,2,...,M 이다. 본 실시예에서 최대 우도 파라미터 추정은 최대 기대치(Expectation- Maximization: EM) 알고리즘을 이용함으로써 얻어질 수 있다. 수학식 2의 우도 값은 편리성을 위해 로그(log) 값으로 변환한다.
도 5는 본 발명의 실시예에 따른 도 2의 퍼지 융합 및 화자 인식 단계(S300)를 보다 상세하게 도시한 흐름도이다.
먼저, 퍼지 소속도 산출부(520,540,560,580)는 각각 채널별로 변환된 우두의 로그값에 기초하여 퍼지 소속도를 산출한다(S320). 이때 퍼지 소속도 산출부(520,540,560,580)는 시그모이드(sigmoid) 소속함수를 이용하여 아래 수학식 3과 같은 퍼지 소속도 값을 산출할 수 있다.
여기서, a는 경사값을, c는 중심값을 나타낸다. 이들 값(a,c)은 온라인상에서 등록된 학습 음성데이터로부터 얻어진 특징 값의 통계에 의해서 얻어낼 수 있 다.
한편, 퍼지 융합부(600)는 퍼지 소속도 산출부(520,540,560,580)에서 각각 산출한 퍼지 소속도 값들을 퍼지 융합한다(S340). 이때 퍼지 융합부(600)는 퍼지 적분을 이용하여 퍼지 소속도 산출부(520,540,560,580)에서 산출된 퍼지 소속도 값을 융합할 수 있다. 본 실시예에서 이용되는 퍼지 적분을 수식으로 전개하여 설명하면 다음과 같다.
집합함수 g : P(S) -> [0,1]은 아래 수학식 4를 만족하면 퍼지 척도라고 한다.
따라서, 최종적으로 퍼지 적분은 아래 수학식 7에 의해서 산출될 수 있다.
이에 따라, 화자 인식부(700)는 퍼지 융합을 통해 인식된 결과에 따라 수학식 8에 의해 얻어진 N개의 다채널의 퍼지 융합 값들 중에서 최대치를 구함으로서 화자로서 인식한다(S360).
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 및 균등한 타 실시가 가능할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부한 특허청구범위에 의해서만 정해져야 할 것이다.
상기와 같은 본 발명에 따르면, 지능형 로봇에서 음성 기반 인간-로봇 상호작용을 수행하기 위해 다채널의 마이크로폰을 통해 온라인 화자등록과 로봇의 모든 방향에서 음성 인식이 가능하도록 구현함으로써, 전 방향에 대해 발성되는 화자의 음성을 보다 높은 성능으로 정확하게 취득할 수 있다.
또한 본 발명은 다채널 기반 온라인 화자등록/인식/퍼지 융합을 통해 보다 정확하게 화자를 인식할 수 있도록 함으로써, 잡음환경이나 원거리에서 화자 인식 성능의 저하를 최소화할 수 있다.
Claims (13)
- 복수의 채널을 통해 온라인으로 화자의 음성을 취득 및 등록하는 다채널 마이크로폰;상기 등록된 각 채널별 음성들에 대해 각각 시작점 및 끝점을 검출하여 문장을 구분하고, 상기 구분된 문장에 포함된 음성의 잡음을 제거하는 음성 데이터 취득부;상기 잡음이 제거된 각 음성 데이터에 대한 특징에 기초하여 화자 모델을 구축하고, 상기 구축된 화자 모델에 대해 우도 로그값으로 변환하는 화자모델 생성부;상기 각 채널별 우도 로그값들에 대해 융합된 퍼지 값을 산출하는 퍼지 처리부; 및상기 산출된 퍼지 값에 기초한 융합값의 최대치를 화자로서 인식하는 화자 인식부를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 1항에 있어서,상기 음성 데이터 취득부는 상기 각 채널별 음성들에 대해 끝점 검출 알고리즘(Endpoint detection)을 이용하여 상기 시작점 및 끝점을 검출하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 1항 또는 제2항에 있어서,상기 음성 데이터 취득부는 위너 필터(Winer filter)를 이용하여 상기 시작점 및 끝점에 의해 구분된 문장의 음성으로부터 잡음을 제거하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 1항에 있어서,상기 화자모델 생성부는,상기 잡음이 제거된 각 채널의 음성에 대한 특징 정보를 추출하는 특징 추출부;상기 특징 정보에 기초하여 상기 각 채널의 음성에 대한 화자 모델을 구축하는 화자모델 구축부; 및상기 각 화자 모델의 음성에 대응하는 우도 로그값을 생성하는 우도 로그값 변환부를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 4항에 있어서,상기 특징 추출부는 멜 캡스트럼(MFCC: Mel-Frequency Cepstral Coefficients)을 이용하여 상기 각 채널의 음성에 대한 특징 정보를 추출하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 4항에 있어서,상기 화자모델 구축부는 가우시안 혼합모델(GMM: Gaussian Mixture Model)을 이용하여 상기 각 채널의 음성에 대한 화자 모델을 구축하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 1항에 있어서,상기 퍼지 처리부는,상기 각 채널별 우도 로그값들에 대해 각각 퍼지 소속도를 산출하는 퍼지 소속도 산출부; 및상기 산출된 퍼지소속도 값들을 퍼지 융합하는 퍼지 융합부를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 7항에 있어서,상기 퍼지 소속도 산출부는 시그모이드(sigmoid) 소속함수를 이용하여 상기 퍼지 소속도를 산출하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 제 7항에 있어서,상기 퍼지 융합부는 퍼지 적분을 이용하여 상기 퍼지소속도 값들을 퍼지 융합하는 것을 특징으로 하는 지능형 로봇의 화자 인식 장치.
- 다채널 마이크로폰을 통해 온라인으로 화자의 음성을 취득 및 등록하는 단계;상기 등록된 각 채널별 음성들에 대해 화자 모델을 구축하는 단계; 및상기 각 채널의 화자 모델에 대응하는 우도 로그값의 퍼지 소속도를 융합하여, 이에 대한 최대치를 화자로서 인식하는 단계를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 방법.
- 제 10항에 있어서,상기 화자 음성 데이터 등록 단계는,상기 다채널 마이크로폰으로부터 온라인으로 출력되는 화자의 음성을 취득하는 단계;상기 각 채널별 음성에 대해 시작점 및 끝점을 검출하는 단계; 및상기 시작점과 끝점으로 구분된 음성의 문장들에 대해 잡음 요소를 제거하는 단계를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 방법.
- 제 10항 또는 제 11항에 있어서,상기 화자 모델 구축 단계는,상기 등록된 각 채널별 음성들로부터 특징 값들을 추출하는 단계;상기 특징 값들에 기초하여 상기 채널별 음성에 대한 화자 모델을 구축하는 단계; 및상기 구축된 화자 모델에 대한 음성에 대응하는 우도 로그값을 생성하는 단계를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 방법.
- 제 12항에 있어서,상기 화자 인식 단계는,상기 각 채널별 우도 로그값에 기초하여 퍼지 소속도를 산출하는 단계;상기 산출된 퍼지 소속도 값들을 퍼지 융합하는 단계; 및상기 퍼지 융합된 값의 초대치를 상기 화자로 인식하는 단계를 포함하는 것을 특징으로 하는 지능형 로봇의 화자 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060093539A KR100776803B1 (ko) | 2006-09-26 | 2006-09-26 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060093539A KR100776803B1 (ko) | 2006-09-26 | 2006-09-26 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100776803B1 true KR100776803B1 (ko) | 2007-11-19 |
Family
ID=39079860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060093539A KR100776803B1 (ko) | 2006-09-26 | 2006-09-26 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100776803B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9804822B2 (en) | 2014-07-29 | 2017-10-31 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
WO2021217979A1 (zh) * | 2020-04-28 | 2021-11-04 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
KR102661005B1 (ko) * | 2023-02-24 | 2024-04-25 | (주)페르소나에이아이 | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219581A (ja) * | 1994-01-31 | 1995-08-18 | Babcock Hitachi Kk | 音響信号の識別方法および装置 |
JPH1040752A (ja) * | 1996-07-24 | 1998-02-13 | Sumitomo Wiring Syst Ltd | ワイヤーハーネス組立用の電線支持具 |
KR19990001828A (ko) * | 1997-06-18 | 1999-01-15 | 윤종용 | 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법 |
US6321194B1 (en) | 1999-04-27 | 2001-11-20 | Brooktrout Technology, Inc. | Voice detection in audio signals |
KR20030082265A (ko) * | 2002-04-17 | 2003-10-22 | 삼성전자주식회사 | 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치 |
KR20040010860A (ko) * | 2002-07-25 | 2004-02-05 | 주식회사 원원테크 | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 |
KR20050036331A (ko) * | 2003-10-15 | 2005-04-20 | 정용석 | 지능형 로봇과 서버간의 두뇌 양분화에 따른 로봇의지능을 원격 제어하는 운용 방법 |
KR20050055776A (ko) * | 2002-10-23 | 2005-06-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 방법 |
KR20050115857A (ko) * | 2002-12-11 | 2005-12-08 | 소프트맥스 인코퍼레이티드 | 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 |
-
2006
- 2006-09-26 KR KR1020060093539A patent/KR100776803B1/ko not_active IP Right Cessation
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219581A (ja) * | 1994-01-31 | 1995-08-18 | Babcock Hitachi Kk | 音響信号の識別方法および装置 |
JPH1040752A (ja) * | 1996-07-24 | 1998-02-13 | Sumitomo Wiring Syst Ltd | ワイヤーハーネス組立用の電線支持具 |
KR19990001828A (ko) * | 1997-06-18 | 1999-01-15 | 윤종용 | 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법 |
US6321194B1 (en) | 1999-04-27 | 2001-11-20 | Brooktrout Technology, Inc. | Voice detection in audio signals |
KR20030082265A (ko) * | 2002-04-17 | 2003-10-22 | 삼성전자주식회사 | 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치 |
KR20040010860A (ko) * | 2002-07-25 | 2004-02-05 | 주식회사 원원테크 | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 |
KR20050055776A (ko) * | 2002-10-23 | 2005-06-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 방법 |
KR20050115857A (ko) * | 2002-12-11 | 2005-12-08 | 소프트맥스 인코퍼레이티드 | 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 |
KR20050036331A (ko) * | 2003-10-15 | 2005-04-20 | 정용석 | 지능형 로봇과 서버간의 두뇌 양분화에 따른 로봇의지능을 원격 제어하는 운용 방법 |
Non-Patent Citations (3)
Title |
---|
10-2005-0036331 |
10-2005-0115857 |
특1998-040752 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9804822B2 (en) | 2014-07-29 | 2017-10-31 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
WO2021217979A1 (zh) * | 2020-04-28 | 2021-11-04 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
US20220254349A1 (en) * | 2020-04-28 | 2022-08-11 | Ping An Technology (Shenzhen) Co., Ltd. | Voiceprint recognition method, apparatus and device, and storage medium |
US12002473B2 (en) | 2020-04-28 | 2024-06-04 | Ping An Technology (Shenzhen) Co., Ltd. | Voiceprint recognition method, apparatus and device, and storage medium |
KR102661005B1 (ko) * | 2023-02-24 | 2024-04-25 | (주)페르소나에이아이 | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1667108B1 (en) | Speech synthesis system, speech synthesis method, and program product | |
JP4516527B2 (ja) | 音声認識装置 | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
EP2022042B1 (en) | Intersession variability compensation for automatic extraction of information from voice | |
Nakamura et al. | AURORA-2J: An evaluation framework for Japanese noisy speech recognition | |
Srinivasan et al. | Transforming binary uncertainties for robust speech recognition | |
EP3425628A1 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP2018049143A (ja) | 音声取得システムおよび音声取得方法 | |
JP2011186351A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
KR100822880B1 (ko) | 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법 | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
KR20180121831A (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
JP2021124530A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2000172295A (ja) | 低複雑性スピ―チ認識器の区分ベ―スの類似性方法 | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
KR100776803B1 (ko) | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 | |
Yamamoto et al. | Making a robot recognize three simultaneous sentences in real-time | |
Yamamoto et al. | Assessment of general applicability of robot audition system by recognizing three simultaneous speeches | |
KR100969138B1 (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
JP2008052178A (ja) | 音声認識装置と音声認識方法 | |
JP3798530B2 (ja) | 音声認識装置及び音声認識方法 | |
Sangeetha et al. | Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network | |
Shrawankar et al. | Speech: a challenge to digital signal processing technology for human-to-computer interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20101101 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |