KR102518543B1 - 사용자의 발화 에러 보정 장치 및 그 방법 - Google Patents
사용자의 발화 에러 보정 장치 및 그 방법 Download PDFInfo
- Publication number
- KR102518543B1 KR102518543B1 KR1020170167665A KR20170167665A KR102518543B1 KR 102518543 B1 KR102518543 B1 KR 102518543B1 KR 1020170167665 A KR1020170167665 A KR 1020170167665A KR 20170167665 A KR20170167665 A KR 20170167665A KR 102518543 B1 KR102518543 B1 KR 102518543B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- user
- speech
- voice
- texts
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010606 normalization Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 abstract description 12
- 230000015654 memory Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 208000003028 Stuttering Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000003195 fascia Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명은 사용자의 발화 에러 보정 장치 및 그 방법에 관한 것으로, 사용자의 음성 인식결과인 텍스트에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 의미 프레임을 정확도 높게 추출할 수 있는 사용자의 발화 에러 보정 장치 및 그 방법을 제공하고자 한다.
이를 위하여, 본 발명은 사용자의 발화 에러 보정 장치에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부; 상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부; 상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부; 상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함한다.
이를 위하여, 본 발명은 사용자의 발화 에러 보정 장치에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부; 상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부; 상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부; 상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함한다.
Description
본 발명은 사용자의 발화 에러 보정 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 대화형 음성인식시스템에서 사용자가 미숙하게 발화하더라도 이를 정확하게 인식할 수 있도록 사용자의 발화(utterance)를 보정하는 기술에 관한 것이다. 여기서, 발화는 사용자의 입을 통해 나온 문장 단위의 언어를 의미한다.
일반적으로 차량에는 다양한 장치들이 설치되어 있으며 최근에는 운전자나 탑승객들의 편의를 위한 장치들이 꾸준히 개발되어 설치되고 있다. 일 예로 오디오 장치나 공조 장치 등이 있으며, 더 나아가 인공위성 등을 통해 자동차의 위치를 파악하여 목적지까지의 경로를 안내해주는 내비게이션이 거의 모든 차량에 설치되고 있다.
그러나 이와 같은 편의 장치들은 운전자와 탑승객에게 여러 가지 편리함을 제공해주지만, 운전자가 운전 중에 편의 장치들을 조작하는 과정에서 운전에 대한 집중도가 저하되고 주의가 산만해져 사고가 발생할 위험이 높아지는 문제점이 있다. 이러한 문제점을 해결하기 위해서 최근에는 운전자가 편의 장치들을 직접 조작할 필요없이 음성으로 명령하면 운전자의 음성을 인식하여 운전자의 음성 명령에 따라 각종 편의 장치들을 제어하는 대화형 음성인식시스템이 개발되고 있다.
종래의 대화형 음성인식시스템은 사용자의 발화가 미숙한 경우, 예를 들어 "그.. 현대자동차로 안내해줘", "현대.. 현대자동차로 안내해줘", "현차 아니 현대자동차로 안내해줘" 등과 같이 입력 시점에 바로 말을 못하거나 발화 중 말을 더듬는 경우에 "그현대자동차", "현대현대자동차", "현차아니현대자동차"로 인식함으로써, 원래 목적지인 현대자동차를 정상적으로 인식하지 못하는 문제점이 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 사용자의 음성 인식결과인 텍스트에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 의미 프레임을 정확도 높게 추출할 수 있는 사용자의 발화 에러 보정 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 장치는, 사용자의 발화 에러 보정 장치에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부; 상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부; 상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부; 상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함한다.
여기서, 상기 텍스트 정규화부는 상기 정규화된 각 텍스트를 포함하는 리스트를 생성할 수도 있다. 이때, 상기 텍스트 결정부는 상기 리스트 상의 각 텍스트를 검색어로 상기 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정할 수 있다.
또한, 상기 개체명 인식부는 상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별할 수 있다.
따라서, 상기 텍스트 정규화부는 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제할 수도 있고, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제할 수도 있으며, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제할 수도 있다.
또한, 상기 텍스트 정규화부는 정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 기능을 더 수행할 수도 있다.
또한, 상기 사용자 발화는 차량 단말기로부터 전송될 수도 있다.
상기 목적을 달성하기 위한 본 발명의 방법은, 사용자의 발화 에러 보정 방법에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 단계; 상기 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 단계; 상기 출력되는 각 텍스트를 대상으로 개체명을 인식하는 단계; 상기 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 단계; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 단계를 포함한다.
여기서, 상기 텍스트를 정규화하는 단계는 상기 정규화된 각 텍스트를 포함하는 리스트를 생성할 수도 있다. 이때, 상기 정상 텍스트를 결정하는 단계는 상기 리스트 상의 각 텍스트를 검색어로 상기 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정할 수 있다.
또한, 상기 개체명을 인식하는 단계는 상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별할 수 있다.
따라서, 상기 텍스트를 정규화하는 단계는 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제할 수도 있고, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제할 수도 있으며, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제할 수도 있다.
또한, 상기 텍스트를 정규화하는 단계는 정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 단계를 더 포함할 수도 있다.
또한, 상기 사용자 발화는 차량 단말기로부터 전송될 수도 있다.
상기와 같은 본 발명은, 사용자의 음성에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 의미 프레임을 정확도 높게 추출할 수 있는 효과가 있다.
또한, 본 발명은 사용자의 음성에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 목적지를 정상적으로 인식할 수 있도록 하는 효과가 있다.
도 1 은 본 발명이 적용되는 대화형 음성인식시스템의 일예시도,
도 2 는 본 발명에 이용되는 차량 단말기의 일실시예 구성도,
도 3 은 본 발명이 적용되는 서버의 일실시예 구성도,
도 4 는 본 발명에 따른 사용자의 발화 에러 보정 장치에 대한 일실시예 구성도,
도 5 는 본 발명에 따른 사용자의 발화 에러 보정 장치의 음성 추출부(41)가 사용자의 발화를 음성과 묵음으로 분리하는 과정을 나타내는 일예시도,
도 6 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 개체명 인식부가 각 텍스트의 개체명을 인식한 후 각 텍스트를 조합하는 과정을 나타내는 일예시도,
도 7 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 정규화부가 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화하는 과정을 나타내는 일예시도,
도 8 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 결정부가 텍스트 정규화부에 의해 생성된 리스트에 기초하여 정상 텍스트를 결정하는 과정을 나타내는 일예시도,
도 9 는 본 발명에 따른 사용자 발화 에러 보정 방법에 대한 일실시예 흐름도,
도 10은 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.
도 2 는 본 발명에 이용되는 차량 단말기의 일실시예 구성도,
도 3 은 본 발명이 적용되는 서버의 일실시예 구성도,
도 4 는 본 발명에 따른 사용자의 발화 에러 보정 장치에 대한 일실시예 구성도,
도 5 는 본 발명에 따른 사용자의 발화 에러 보정 장치의 음성 추출부(41)가 사용자의 발화를 음성과 묵음으로 분리하는 과정을 나타내는 일예시도,
도 6 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 개체명 인식부가 각 텍스트의 개체명을 인식한 후 각 텍스트를 조합하는 과정을 나타내는 일예시도,
도 7 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 정규화부가 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화하는 과정을 나타내는 일예시도,
도 8 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 결정부가 텍스트 정규화부에 의해 생성된 리스트에 기초하여 정상 텍스트를 결정하는 과정을 나타내는 일예시도,
도 9 는 본 발명에 따른 사용자 발화 에러 보정 방법에 대한 일실시예 흐름도,
도 10은 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1 은 본 발명이 적용되는 대화형 음성인식시스템의 일예시도이다.
도 1에 도시된 바와 같이, 본 발명이 적용되는 대화형 음성인식시스템은 차량 단말기(10) 및 서버(20)로 구성된다.
먼저, 차량 단말기(10)는 차량에 탑재되어 사용자 인터페이스를 제공하며, 아울러 고립어(an isolated language) 음성인식 기능을 제공할 수 있다.
이러한 차량 단말기(10)는 도 2에 도시된 바와 같이 입력부(11), 표시부(12), 통신부(13), 처리부(Processor, 14), 저장부(15), 및 스피커(16)를 포함할 수 있다.
입력부(11)는 사용자 음성을 입력받을 수 있다. 예를 들어, 입력부(11)는 마이크를 포함할 수 있으며, 사용자의 음성이 입력되는 경우 이를 전기적인 신호로 변환하여 고립어 음성인식 엔진으로 전달할 수 있다. 입력부(11)는 차량의 대시보드의 센터페시아 영역 또는 스티어링 휠에 배치될 수 있으나, 이에 한정되는 것은 아니며, 사용자 음성을 용이하게 입력받을 수 있는 위치이면 차량 내부의 어떠한 위치에나 배치될 수 있다.
표시부(12)는 차량의 동작 상태를 보여주는 화면, 내비게이션 화면, 인포테인먼트 프로그램화면 등을 표시할 수 있다. 예를 들어, 표시부(12)는 입력된 사용자 음성에 따른 차량의 동작 수행 결과 화면을 표시할 수 있다. 표시부(12)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), CRT(Cathode Ray Tube) 등 다양한 디스플레이 장치를 포함할 수 있다. 한편, 표시부(12)가 터치 스크린으로 마련되는 경우 표시부(12)는 사용자로부터 터치 입력을 수신할 수도 있다.
통신부(13)는 네트워크를 통해 외부 기기(ex. 타차량, 인프라, 서버 등)와 통신할 수 있다. 예를 들어, 통신부(13)는 외부 기기와 메시지를 송수신할 수 있다.
또한, 통신부(13)는 입력부(11)를 통해 입력받은 사용자의 음성을 인식하기 위해 서버(20)로 전송할 수도 있다.
이러한 통신부(13)는 이동통신모듈, 무선인터넷모듈, 근거리통신모듈 중 적어도 하나 이상을 구비할 수 있다.
이동통신모듈은 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTEA(Long Term Evolution-Advanced) 등)에 따라 구축된 이동통신망 상에서 서버(20)와 데이터를 송수신할 수 있다.
무선인터넷모듈은 무선 인터넷 접속을 위한 모듈로서, 무선인터넷기술에 따른 통신망에서 각종 데이터를 송수신할 수 있다.
무선인터넷기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있으며, 상기 무선인터넷모듈은 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선인터넷기술에 따라 데이터를 송수신하게 된다.
근거리통신모듈은 근거리통신(Short range communication)을 위한 모듈로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리통신을 지원할 수 있다.
처리부(14)는 차량의 전반적인 동작을 제어할 수 있다. 예를 들어, 처리부(14)는 차량의 주행 제어와 관련된 동작, 엔터테인먼트 관련 동작, 통신 관련 동작, 내비게이션 관련 동작, 오디오 및 비디오 관련 동작, 공조 관련 동작 등 다양한 동작들을 제어할 수 있다. 예를 들어, 처리부(14)는 차량(10)에 구비된 고립어 음성인식 엔진 또는 서버(10)에 구비된 대용량 음성인식 엔진으로부터 전달되는 동작 명령에 기초하여 차량 내부에 배치된 각 구성들의 동작을 제어할 수도 있다.
이러한 처리부(14)는 상술한 동작을 수행하기 위한 소프트웨어 모듈로서, 앱(App) 이벤트 매니저, ccOS(Connected Car Operating system) API(Application Programming Interface), 상황인지 엔진, 고립어 음성인식 엔진 등을 더 포함할 수 있다.
앱 이벤트 매니저는 차량의 상태 및 앱에서 발생하는 모든 이벤트를 모니터링한다.
ccOS API는 단말의 음성인식 엔진과 연동하는 API, 서버의 음성인식 엔진과 연동하는 API, 상황인지 엔진 API, 스마트 에이전트(서버) 연동 API를 포함한다.
상황인지 엔진은 상황 데이터 기반 서비스를 추천하거나 제안하며, 사용자의 명령 인식 결과에 상황 분석 결과를 적용하여 동작 단계를 처리하고, 검색정보에 상황 분석 결과를 적용하여 재정렬 등의 기능을 수행한다.
고립어 음성인식 엔진은 비교적 단순한 음성인식 기능으로서 고립어의 음성인식을 수행할 수 있다.
저장부(15)는 차량과 관련된 각종 데이터, 차량의 사용자와 관련된 각종 데이터 등을 저장할 수 있다. 예를 들어, 저장부(15)는 차량의 주행 이력 데이터, 내비게이션 관련 데이터, 사용자의 일정, 개인정보와 관련된 데이터 등을 저장할 수 있다.
이러한 저장부(15)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
스피커(16)는 처리부(14)의 제어에 따라 음원을 출력할 수 있다. 예를 들어, 스피커(16)는 오디오 기능, 내비게이션 기능 등이 구현되는 경우 필요한 음원을 출력할 수 있다.
본 발명의 일 실시예에 따른 차량 단말기(10)는 사용자의 음성을 인식하고, 인식된 음성에 대응되는 동작 명령을 실행함으로써 사용자 음성에 대응되는 동작을 수행할 수도 있다. 예를 들어, 차량 단말기(10)는 사용자 음성의 인식 결과에 대응하여 목적지 이용 예약, 내비게이션 목적지 설정, 메시지 송수신, 질의응답, 정보 검색 등의 동작을 실행할 수 있으며, 이에 한정되는 것은 아니다.
다음으로, 서버(20)는 네트워크에 연결되어 스마트 에이전트로서 동작하며, 대화형 음성인식 기능을 제공하기 위해, 도 3에 도시된 바와 같이 입력 관리부(21), 출력 관리부(22), 대화 관리부(23), 상황인지 분석 엔진(24), 차량 환경 빅 데이터 저장부(25), 시나리오 관리부(26), 콘텐츠 제공자(CP, Contents Provider) 어댑터(27), 외부 연동 데이터 저장부(28) 등을 포함할 수 있다.
입력 관리부(21)는 대용량 음성인식 엔진을 구비하여 사용자 음성을 텍스트로 변환하고, 의도 분석 엔진을 구비하여 음성인식 처리 결과인 텍스트에서 자연어처리(Natural Language Processing) 기법을 활용하여 의미 프레임을 추출하고, 상기 의미 프레임의 의미와 관련된 주요 정보(Entity)를 추출한다.
출력(액션) 관리부(22)는 자연서 생성 엔진을 구비하여 음성인식 결과에 상응하는 액션에 대한 텍스트를 생성하고, 상기 생성한 텍스트의 내용을 분석하여 합성관련 파라미터를 생성한다.
또한, 출력 관리부(22)는 음성 합성 엔진을 구비하여 자연어 생성 엔진에서 생성한 텍스트를 음성으로 변환한다. 이때, 음성 합성 엔진은 파라미터를 기반으로 합성 기능을 수행한다.
대화 관리부(23)는 세션 관리로서 의미 프레임의 연속성을 관리할 수 있고, 대화 추가 관리로서 의미 프레임의 추가 및 삭제를 관리할 수 있으며, 대화 상태 관리로서 의미 프레임의 상태를 관리할 수 있고, 대화 이력 관리로서 의미 프레임 간 연관 관계를 관리할 수 있으며, 서비스 관리로서 의미 프레임과 연결되는 서비스를 관리할 수 있고 아울러 시나리오 DB, 시나리오 상태, CP(Contents Provider) 연동 등을 관리할 수 있다.
상황인지 분석 엔진(24)은 대용량 통계 분석으로서 사용 이력을 기반으로 사용 패턴을 분석할 수 있고, 단기 또는 장기 기억분석으로서 사용 이력을 기반으로 연관 정보를 복원할 수 있으며, 통합 또는 복합 추론으로서 서로 다른 정보를 연결할 수 있고, 텍스트 또는 음성 분석으로서 음성정보와 텍스트정보를 분석하여 상황을 추론할 수 있으며, 질의응답 분석으로서 질문을 분석하여 연결되는 답변을 추론할 수 있다.
차량 환경 빅 데이터 저장부(25)는 차량 사용 정보가 기록되는 자동차 고객 관계 관리(VCRM) DB, 서비스 가입 고객 정보가 기록되는 고객 DB, 서비스 사용 이력 정보가 기록되는 이력 DB, 데이터 간 관계 정보 및 데이터 간 연동 정보가 기록되는 관계 DB, 질의응답에 필요한 지식 정보가 기록되는 지식베이스 등을 포함할 수 있다.
시나리오 관리부(26)는 차량 서비스를 위한 시나리오(목적지 검색, 음악추천, 일정관리, 맛집 추천 등)를 관리한다.
콘텐츠 제공자 어댑터(27)는 콘텐츠 제공자로부터 외부 연동 데이터(28)를 입력받는다. 이러한 외부 연동 데이터(28)는 지도, 음악, 일정, 맛집 리뷰 등을 포함할 수 있다.
상술한 대화형 음성인식시스템은 네트워크와 연결된 차량을 베이스로 하는 시스템으로서, 언급한 다양한 기능들은 일반적으로 널리 알려진 기술들이다.
이하, 상술한 서버(20)에 적용되어 사용자의 발화 에러 보정하는 기술에 대해 상세히 살펴보기로 한다.
도 4 는 본 발명에 따른 사용자의 발화 에러 보정 장치에 대한 일실시예 구성도이다.
도 4에 도시된 바와 같이, 본 발명에 따른 사용자의 발화 에러 보정 장치는, 음성 추출부(Voice Activity Detector, 41), 음성 인식부(Voice Recognizer, 42), 개체명 인식부(Named Entity Recognizer, 43), 텍스트 정규화부(44), 텍스트 결정부(45)를 포함할 수 있다. 본 발명을 실시하는 방식에 따라서 각 구성요소는 서로 결합되어 하나로 구비될 수 있으며, 발명을 실시하는 방식에 따라서 일부의 구성요소가 생략될 수도 있다. 사용자의 발화 에러 보정 장치의 각 구성요소는 하드웨어 또는 소프트웨어의 형태로 구현될 수 있으며, 하드웨어 및 소프트웨어가 결합된 형태로도 구현할 수 있다. 이때, 소프트웨어 형태로 구현되는 경우 각 구성요소들의 기능은 프로그램 형태로 메모리에 저장될 수 있으며, 제어기의 역할을 수행하는 프로세서는 상기 프로그램에 기초하여 각 구성요소들의 기능을 완벽하게 수행할 수 있다.
상기 각 구성요소들에 대해 살펴보면, 먼저 음성 추출부(41)는 사용자부터 발화된 말에서 음성과 묵음을 구분하는 기능(Voice Activity Detection)을 수행하는 하드웨어 또는 소프트웨어 모듈로서, 사용자 발화로부터 음성을 추출한다. 여기서, 발화는 사용자의 입을 통해 나온 문장 단위의 언어로서 음성구간과 묵음구간을 포함한다.
또한, 음성 추출부(41)는 차량 단말기(10)로부터 전송받은 사용자의 발화에서 음성을 추출할 수도 있다.
다음으로, 음성 인식부(42)는 음성 추출부(31)에 의해 추출된 음성(voice)을 인식한 후 그에 상응하는 텍스트(text)를 출력한다. 이러한 음성 인식부(42)는 일반적으로 널리 알려진 다양한 방식을 이용하여 음성을 인식할 수 있다.
다음으로, 개체명 인식부(43)는 음성 인식부(42)로부터 출력되는 각 텍스트의 개체명과 상기 각 텍스트를 조합한 결과에 대한 개체명을 인식한다. 이때, 각 텍스트를 조합한 결과 역시 텍스트이므로, 이하에서 각 텍스트는 조합하지 않은 텍스트와 조합한 텍스트를 모두 포함하는 개념으로 이해되어야 할 것이다.
이러한 개체명 인식부(43)는 각 텍스트의 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사 등을 식별해 낼 수 있다. 이렇게 개체명을 인식하는 기술 역시 주지 관용의 기술로서 일반적으로 널리 알려진 어떠한 방식을 이용하더라도 무방하다.
다음으로, 텍스트 정규화부(44)는 개체명 인식부(43)에 의해 인식된 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화한 후 정규화된 각 텍스트가 기록된 리스트를 생성한다.
즉, 텍스트 정규화부(44)는 각 텍스트 중에서 지시대명사가 존재하면 지시대명사에 해당하는 텍스트를 삭제한다.
또한, 텍스트 정규화부(44)는 각 텍스트 중에서 중복단어가 존재하면 중복단어를 삭제한다.
또한, 텍스트 정규화부(44)는 각 텍스트 중에서 부정어와 상기 부정어의 앞 단어(텍스트)를 삭제한다.
부가로, 텍스트 정규화부(44)는 연계 보정을 수행할 수도 있다. 예를 들어, 사용자의 발화가 "현대자동차 남양연구소로 안내해줘"라고 정상적으로 입력한 경우, "현대자동차 남양연구소"가 검색되어 정상적으로 목적지 설정이 가능합니다. 이때, 대화형 음성인식시스템은 사용자에게 "현대자동차 남양연구소로 검색할까요?"라고 확인할 수 있는데, 사용자가 마음을 바꿔 "남양연구소 말고 본사"라고 입력할 수 있다. 이때, 텍스트 정규화부(44)는 1차 입력한 "현대자동차 남양연구소"에서 남양연구소를 개체명 인식부(43)에 의해 인식된 부정어인 "말고"를 다음에 오는 단어인 "본사"로 대체한다. 그 결과는 "현대자동차 본사"가 되고 대화형 음성인식시스템은 "현대자동차 본사로 검색할까요?"를 출력할 수 있다.
다음으로, 텍스트 결정부(45)는 지도 DB에 기초하여 텍스트 정규화부(44)에 의해 생성된 리스트에서 정상 텍스트를 결정한다. 즉, 텍스트 결정부(45)는 리스트 상의 각 텍스트를 검색어로 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정한다.
또한, 텍스트 결정부(45)는 음악 검색과 관련하여 사용자의 발화가 입력된 경우 음악 DB에 기초하여 정상 텍스트를 결정할 수도 있고, 일정 검색과 관련하여 사용자의 발화가 입력된 경우 일정 DB에 기초하여 정상 텍스트를 결정할 수도 있다.
이하, 도 5 내지 도 8을 참조하여 사용자의 발화 에러를 보정하는 과정에 대해 상세히 살펴보도록 한다.
도 5 는 본 발명에 따른 사용자의 발화 에러 보정 장치의 음성 추출부(41)가 사용자의 발화를 음성과 묵음으로 분리하는 과정을 나타내는 일예시도이다.
도 5에서, 사용자가 "현대자동차로 안내해줘"라고 발화해야 하나 현대자동차가 바로 생각나지 않아 "그 현대자동차로 안내해줘"와 같이 발화한 경우, 이러한 사용자의 발화가 음성 추출부(41)로 입력되고, 음성 추출부(41)는 VAD 기능에 기초하여 사용자의 발화에서 음성을 추출해 낸다. 이렇게 추출된 음성은 "그", "현대자동차로", "안내해줘"가 된다.
또한, 사용자가 "현대자동차로 안내해줘"라고 발화해야 하나 말을 더듬어 "현대 현대자동차로 안내해줘"와 같이 발화한 경우, 이러한 사용자의 발화가 음성 추출부(41)로 입력되고, 음성 추출부(41)는 VAD 기능에 기초하여 사용자의 발화에서 음성을 추출해 낸다. 이렇게 추출된 음성은 "현대", "현대자동차로", "안내해줘"가 된다.
또한, 사용자가 "현대자동차로 안내해줘"라고 발화해야 하나 얼떨결에 "현차(현대자동차의 약어) 아니 현대자동차로 안내해줘"와 같이 발화한 경우, 이러한 사용자의 발화가 음성 추출부(41)로 입력되고, 음성 추출부(41)는 VAD 기능에 기초하여 사용자의 발화에서 음성을 추출해 낸다. 이렇게 추출된 음성은 "현차", "아니", "현대자동차로", "안내해줘"가 된다.
이렇게 추출된 각 음성은 음성 인식부(42)를 통해 해당 텍스트와 연결된다. 즉, 각 음성은 그에 상응하는 텍스트와 매칭된다.
도 6 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 개체명 인식부가 각 텍스트의 개체명을 인식한 후 각 텍스트를 조합하는 과정을 나타내는 일예시도이다.
도 6에서, 음성 인식부(42)로부터 출력된 텍스트가 "그", "현대자동차로", "안내해줘"인 경우, 이러한 출력이 개체명 인식부(43)로 입력되고, 개체명 인식부(43)는 개체명 인식(Named Entity Recognition) 기능에 기초하여 "그"를 지시대명사로 인식하고, "현대자동차"를 브랜드명으로 인식하고, "그+현대자동차"를 고유명사로 인식한다.
또한, 음성 인식부(42)로부터 출력된 텍스트가 "현대", "현대자동차로", "안내해줘"인 경우, 이러한 출력이 개체명 인식부(43)로 입력되고, 개체명 인식부(43)는 개체명 인식(Named Entity Recognition) 기능에 기초하여 "현대"를 브랜드명으로 인식하고, "현대자동차"를 브랜드명으로 인식하고, "현대+현대자동차"를 고유명사로 인식한다.
또한, 음성 인식부(42)로부터 출력된 텍스트가 "현차", "아니", "현대자동차로", "안내해줘"인 경우, 이러한 출력이 개체명 인식부(43)로 입력되고, 개체명 인식부(43)는 개체명 인식(Named Entity Recognition) 기능에 기초하여 "현차"를 브랜드명으로 인식하고, "아니"를 부정어로 인식하고, "현대자동차"를 브랜드명으로 인식하고, "현차+아니"를 고유명사로 인식하고, "아니+현대자동차"를 고유명사로 인식하고, "현차+아니+현대자동차"를 고유명사로 인식한다.
여기서, 개체명 인식부(43)는 "안내해줘"는 서술어임을 인식하여 제거하고, 아울러 "현대자동차로"에서 "로"를 방향을 나타내는 격조사로 인식하여 개체명 인식시 고려하지 않는다.
도 7 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 정규화부가 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화하는 과정을 나타내는 일예시도이다.
도 7에서, 지시대명사인 "그", 브랜드명인 "현대자동차", 고유명사인 "그+현대자동차"가 입력된 경우, 텍스트 정규화부(44)는 지시대명사가 있는지 확인하여 지시대명사를 제거한다. 여기서, 지시대명사는 "그"이므로 정규화 결과로서 "현대자동차"와 "그현대자동차"를 포함하는 리스트를 생성한다.
또한, 브랜드명인 "현대", 브랜드명인 "현대자동차", 고유명사인 "현대+현대자동차"가 입력된 경우, 텍스트 정규화부(44)는 중복단어가 있는지 확인하여 중복단어를 제거한다. 여기서, 중복단어는 "현대"이므로 정규화 결과로서 "현대자동차"와 "현대현대자동차"를 포함하는 리스트를 생성한다.
또한, 브랜드명인 "현차", 부정어인 "아니", 브랜드명인 "현대자동차", 고유명사인 "현차+아니", 고유명사인 "아니+현대자동차", 고유명사인 "현차+아니+현대자동차"가 입력된 경우, 텍스트 정규화부(44)는 부정어와 상기 부정어의 앞 단어를 삭제한다. 여기서, 부정어는 "아니"이고 상기 부정어의 앞 단어는 "현차"이므로, 정규화 결과로서 "현대자동차", "현차+아니", "아니+현대자동차", 현차+아니+현대자동차"를 포함하는 리스트를 생성한다.
도 8 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 결정부가 텍스트 정규화부에 의해 생성된 리스트에 기초하여 정상 텍스트를 결정하는 과정을 나타내는 일예시도이다.
도 8에서, 리스트 상의 텍스트가 "현대자동차", "그현대자동차"인 경우, 텍스트 결정부(45)는 지도 DB에서 "현대자동차"를 검색어로 사용하여 "현재자동차"에 대한 위치가 정상적으로 검색되면 "현대자동차"를 정상 텍스트로 결정한다. 이때, "그현대자동차"의 위치는 검색되지 않으므로 비정상 텍스트임을 알 수 있다.
또한, 리스트 상의 텍스트가 "현대자동차", "현대현대자동차"인 경우, 텍스트 결정부(45)는 "현대자동차"를 정상 텍스트로 결정한다. 이때, "현대현대자동차"의 위치는 검색되지 않으므로 비정상 텍스트임을 알 수 있다
또한, 리스트 상의 텍스트가 "현대자동차", "현차아니", "아니현대자동차", 현차아니현대자동차"인 경우, 텍스트 결정부(45)는 "현대자동차"를 정상 텍스트로 결정한다. 이때, "현차아니", "아니현대자동차", 현차아니현대자동차"의 각 위치는 검색되지 않으므로 비정상 텍스트임을 알 수 있다.
부가로, 사용자의 발화를 인식한 후 그 인식결과로서 출력되는 텍스트를 자연어처리(Natural Language Processing) 기법을 활용하여 의미 프레임을 추출하고, 상기 추출된 의미 프레임에 기초하여 목적지를 설정하는 일반적인 목적지 설정과정에서, 상기 의미 프레임에 상응하는 목적지가 검색되지 않는 경우에 본 발명에 따른 사용자의 발화 에러 보정 장치가 활성화되어 사용자의 발화 에러를 보정할 수도 있다.
도 9 는 본 발명에 따른 사용자 발화 에러 보정 방법에 대한 일실시예 흐름도이다.
먼저, 음성 추출부(41)가 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출한다(901).
이후, 음성 인식부(42)가 음성 추출부(41)에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력한다(902).
이후, 개체명 인식부(43)가 음성 인식부(42)로부터 출력되는 각 텍스트를 대상으로 개체명을 인식한다(903).
이후, 텍스트 정규화부(44)가 개체명 인식부(43)에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화한다(904).
이후, 텍스트 결정부(45)가 텍스트 정규화부(44)에 의해 정규화된 각 텍스트 중에서 정상 텍스트를 결정한다(905).
도 10은 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.
도 10을 참조하면, 상술한 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법은 컴퓨팅 시스템을 통해서도 구현될 수 있다. 컴퓨팅 시스템(1000)은 시스템 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
41 : 음성 추출부
42 : 음성 인식부
43 : 개체명 인식부
44 : 텍스트 정규화부
45 : 텍스트 결정부
1000: 컴퓨팅 시스템
1100: 프로세서
1200: 시스템 버스
1300: 메모리
1310: ROM
1320: RAM
1400: 사용자 인터페이스 입력장치
1500: 사용자 인터페이스 출력장치
1600: 스토리지
1700: 네트워크 인터페이스
42 : 음성 인식부
43 : 개체명 인식부
44 : 텍스트 정규화부
45 : 텍스트 결정부
1000: 컴퓨팅 시스템
1100: 프로세서
1200: 시스템 버스
1300: 메모리
1310: ROM
1320: RAM
1400: 사용자 인터페이스 입력장치
1500: 사용자 인터페이스 출력장치
1600: 스토리지
1700: 네트워크 인터페이스
Claims (18)
- 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부;
상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부;
상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부;
상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및
상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함하되,
상기 텍스트 정규화부는,
상기 정규화된 각 텍스트를 포함하는 리스트를 생성하고,
상기 텍스트 결정부는,
상기 리스트 상의 각 텍스트를 검색어로 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 삭제
- 삭제
- 제 1 항에 있어서,
상기 개체명 인식부는,
상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 제 4 항에 있어서,
상기 텍스트 정규화부는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 제 4 항에 있어서,
상기 텍스트 정규화부는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 제 4 항에 있어서,
상기 텍스트 정규화부는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 제 1 항에 있어서,
상기 텍스트 정규화부는,
정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 기능을 더 수행하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 제 1 항에 있어서,
상기 사용자의 발화는,
차량 단말기로부터 전송되는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
- 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 단계;
상기 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 단계;
상기 출력되는 각 텍스트를 대상으로 개체명을 인식하는 단계;
상기 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 단계; 및
상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 단계를 포함하되,
상기 텍스트를 정규화하는 단계는,
상기 정규화된 각 텍스트를 포함하는 리스트를 생성하는 단계를 포함하고,
상기 정상 텍스트를 결정하는 단계는,
상기 리스트 상의 각 텍스트를 검색어로 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
- 삭제
- 삭제
- 제 10 항에 있어서,
상기 개체명을 인식하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
- 제 13 항에 있어서,
상기 텍스트를 정규화하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
- 제 13 항에 있어서,
상기 텍스트를 정규화하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
- 제 13 항에 있어서,
상기 텍스트를 정규화하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
- 제 10 항에 있어서,
상기 텍스트를 정규화하는 단계는,
정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 단계
를 더 포함하는 사용자의 발화 에러 보정 방법.
- 제 10 항에 있어서,
상기 사용자의 발화는,
차량 단말기로부터 전송되는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170167665A KR102518543B1 (ko) | 2017-12-07 | 2017-12-07 | 사용자의 발화 에러 보정 장치 및 그 방법 |
US15/933,753 US10629201B2 (en) | 2017-12-07 | 2018-03-23 | Apparatus for correcting utterance error of user and method thereof |
DE102018108947.3A DE102018108947A1 (de) | 2017-12-07 | 2018-04-16 | Vorrichtung zum Korrigieren eines Äußerungsfehlers eines Benutzers und Verfahren davon |
CN201810337775.6A CN109903770A (zh) | 2017-12-07 | 2018-04-16 | 用于校正用户的话语错误的装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170167665A KR102518543B1 (ko) | 2017-12-07 | 2017-12-07 | 사용자의 발화 에러 보정 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190067582A KR20190067582A (ko) | 2019-06-17 |
KR102518543B1 true KR102518543B1 (ko) | 2023-04-07 |
Family
ID=66629610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170167665A KR102518543B1 (ko) | 2017-12-07 | 2017-12-07 | 사용자의 발화 에러 보정 장치 및 그 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10629201B2 (ko) |
KR (1) | KR102518543B1 (ko) |
CN (1) | CN109903770A (ko) |
DE (1) | DE102018108947A1 (ko) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11183186B2 (en) * | 2019-01-16 | 2021-11-23 | International Business Machines Corporation | Operating a voice response system |
KR20200119377A (ko) * | 2019-03-25 | 2020-10-20 | 삼성전자주식회사 | 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치 |
US11107468B2 (en) * | 2019-03-27 | 2021-08-31 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for context-based communications |
CN113924721B (zh) * | 2019-06-07 | 2023-08-25 | 松下知识产权经营株式会社 | 车载电源系统 |
KR20190089128A (ko) * | 2019-07-10 | 2019-07-30 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20190118996A (ko) * | 2019-10-01 | 2019-10-21 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN110853621B (zh) * | 2019-10-09 | 2024-02-13 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11482214B1 (en) * | 2019-12-12 | 2022-10-25 | Amazon Technologies, Inc. | Hypothesis generation and selection for inverse text normalization for search |
CN111523327B (zh) * | 2020-04-23 | 2023-08-22 | 北京市科学技术情报研究所 | 一种基于语音识别的文本确定方法及系统 |
CN111554295B (zh) * | 2020-04-24 | 2021-06-22 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
US11586821B2 (en) * | 2020-11-25 | 2023-02-21 | Iqvia Inc. | Classification code parser |
CN113836935A (zh) * | 2021-09-09 | 2021-12-24 | 海信视像科技股份有限公司 | 服务器及文本纠错方法 |
CN116129906B (zh) * | 2023-02-14 | 2024-09-20 | 新声科技(深圳)有限公司 | 语音识别文本修订方法、装置、计算机设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118374A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | Method for generating closed captions |
JP2008310004A (ja) * | 2007-06-14 | 2008-12-25 | Panasonic Corp | 音声認識装置、音声認識方法、及び音声認識プログラム |
KR101696555B1 (ko) * | 2015-10-06 | 2017-02-02 | 서울시립대학교 산학협력단 | 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법 |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7065201B2 (en) * | 2001-07-31 | 2006-06-20 | Sbc Technology Resources, Inc. | Telephone call processing in an interactive voice response call management system |
US20030171926A1 (en) * | 2002-03-07 | 2003-09-11 | Narasimha Suresh | System for information storage, retrieval and voice based content search and methods thereof |
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
US7493253B1 (en) * | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
JP4453377B2 (ja) * | 2004-01-30 | 2010-04-21 | 株式会社デンソー | 音声認識装置、プログラム及びナビゲーション装置 |
US7933399B2 (en) * | 2005-03-22 | 2011-04-26 | At&T Intellectual Property I, L.P. | System and method for utilizing virtual agents in an interactive voice response application |
JP4861687B2 (ja) * | 2005-11-21 | 2012-01-25 | シスメックス株式会社 | 医療用シミュレーションシステム及びそのコンピュータプログラム |
US7983401B1 (en) * | 2006-08-15 | 2011-07-19 | At&T Mobility Ii Llc | Customized provision of automated menu options |
US8281010B2 (en) * | 2006-12-29 | 2012-10-02 | Prodea Systems, Inc. | System and method for providing network support services and premises gateway support infrastructure |
US20080243498A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | Method and system for providing interactive speech recognition using speaker data |
US8374872B2 (en) * | 2008-11-04 | 2013-02-12 | Verizon Patent And Licensing Inc. | Dynamic update of grammar for interactive voice response |
KR20100111164A (ko) | 2009-04-06 | 2010-10-14 | 삼성전자주식회사 | 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법 |
US20130166303A1 (en) * | 2009-11-13 | 2013-06-27 | Adobe Systems Incorporated | Accessing media data using metadata repository |
US8675842B2 (en) * | 2010-03-30 | 2014-03-18 | Verizon Patent And Licensing Inc. | Speech usage and performance tool |
US20130163746A1 (en) * | 2011-12-21 | 2013-06-27 | Matthew J. Wick | Voice response unit (vru) optimization |
EP2839391A4 (en) * | 2012-04-20 | 2016-01-27 | Maluuba Inc | CONVERSATION AGENT |
KR20140008835A (ko) * | 2012-07-12 | 2014-01-22 | 삼성전자주식회사 | 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치 |
US20140214541A1 (en) * | 2013-01-30 | 2014-07-31 | Kiosked Oy | Method and system for user-controlled rendering of mobile advertisements |
US10586556B2 (en) * | 2013-06-28 | 2020-03-10 | International Business Machines Corporation | Real-time speech analysis and method using speech recognition and comparison with standard pronunciation |
US10191987B2 (en) * | 2013-11-22 | 2019-01-29 | Capital One Services, Llc | Systems and methods for searching financial data |
US10063701B2 (en) * | 2014-05-29 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | Custom grammars builder platform |
KR101594835B1 (ko) * | 2014-11-05 | 2016-02-17 | 현대자동차주식회사 | 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법 |
US9609126B2 (en) * | 2015-05-11 | 2017-03-28 | Paypal, Inc. | User device detection and integration for an IVR system |
US9691070B2 (en) * | 2015-09-01 | 2017-06-27 | Echostar Technologies L.L.C. | Automated voice-based customer service |
CA2941950A1 (en) * | 2015-09-21 | 2017-03-21 | Wal-Mart Stores, Inc. | Adjustable interactive voice response system |
US9998601B2 (en) * | 2016-04-28 | 2018-06-12 | Verizon Patent And Licensing Inc. | Dynamically configuring interactive voice response call trees |
US20180020093A1 (en) * | 2016-07-15 | 2018-01-18 | Circle River, Inc. | Automated call answering based on artificial intelligence |
US20180068031A1 (en) * | 2016-08-16 | 2018-03-08 | Ebay Inc. | Enhancing user queries using implicit indicators |
US10467510B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
CN107315737B (zh) * | 2017-07-04 | 2021-03-23 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
US20190082043A1 (en) * | 2017-09-14 | 2019-03-14 | Tal Lavian | Systems and methods for visual presentation and selection of ivr menu |
US10714084B2 (en) * | 2018-02-09 | 2020-07-14 | Accenture Global Solutions Limited | Artificial intelligence based service implementation |
-
2017
- 2017-12-07 KR KR1020170167665A patent/KR102518543B1/ko active IP Right Grant
-
2018
- 2018-03-23 US US15/933,753 patent/US10629201B2/en active Active
- 2018-04-16 DE DE102018108947.3A patent/DE102018108947A1/de active Pending
- 2018-04-16 CN CN201810337775.6A patent/CN109903770A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118374A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | Method for generating closed captions |
JP2008310004A (ja) * | 2007-06-14 | 2008-12-25 | Panasonic Corp | 音声認識装置、音声認識方法、及び音声認識プログラム |
KR101696555B1 (ko) * | 2015-10-06 | 2017-02-02 | 서울시립대학교 산학협력단 | 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법 |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
Also Published As
Publication number | Publication date |
---|---|
KR20190067582A (ko) | 2019-06-17 |
CN109903770A (zh) | 2019-06-18 |
US10629201B2 (en) | 2020-04-21 |
US20190180741A1 (en) | 2019-06-13 |
DE102018108947A1 (de) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102518543B1 (ko) | 사용자의 발화 에러 보정 장치 및 그 방법 | |
CN109841212B (zh) | 分析具有多个意图的命令的语音识别系统和语音识别方法 | |
US9368107B2 (en) | Permitting automated speech command discovery via manual event to command mapping | |
Lo et al. | Development and evaluation of automotive speech interfaces: useful information from the human factors and the related literature | |
US9618352B2 (en) | Apparatus and method for controlling navigator via speech dialogue | |
US10553200B2 (en) | System and methods for correcting text-to-speech pronunciation | |
US20190005950A1 (en) | Intention estimation device and intention estimation method | |
CN111301312B (zh) | 语音识别系统的会话引导方法 | |
US20200327888A1 (en) | Dialogue system, electronic apparatus and method for controlling the dialogue system | |
KR102450816B1 (ko) | 실시간 자동 통역 시스템 및 이의 발화 검증 방법 | |
US10468017B2 (en) | System and method for understanding standard language and dialects | |
US11333518B2 (en) | Vehicle virtual assistant systems and methods for storing and utilizing data associated with vehicle stops | |
Tchankue et al. | Are mobile in-car communication systems feasible? a usability study | |
US20230298581A1 (en) | Dialogue management method, user terminal and computer-readable recording medium | |
KR102485339B1 (ko) | 차량의 음성 명령 처리 장치 및 방법 | |
US12136420B2 (en) | Vehicle and method of controlling the same | |
US9858918B2 (en) | Root cause analysis and recovery systems and methods | |
KR20200053242A (ko) | 차량용 음성 인식 시스템 및 그 제어 방법 | |
WO2021166504A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN115662430B (zh) | 输入数据解析方法、装置、电子设备和存储介质 | |
US11355114B2 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP2017187559A (ja) | 音声認識装置及びコンピュータプログラム | |
KR20230171728A (ko) | 클라우드 플랫폼 연동 음성 인식 기술 기반 차량 제어 방법 | |
JP2021026188A (ja) | 通信制御システム、通知制御方法、及び通信制御プログラム | |
KR20200122034A (ko) | 차량용 대화 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |