KR20120048139A - Automatic translation device and method thereof - Google Patents
Automatic translation device and method thereof Download PDFInfo
- Publication number
- KR20120048139A KR20120048139A KR1020100109610A KR20100109610A KR20120048139A KR 20120048139 A KR20120048139 A KR 20120048139A KR 1020100109610 A KR1020100109610 A KR 1020100109610A KR 20100109610 A KR20100109610 A KR 20100109610A KR 20120048139 A KR20120048139 A KR 20120048139A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- translation
- keyword
- similarity
- band
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 자동 번역 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 커버리지가 넓은 고품질의 번역결과를 생성할 수 있는 자동 번역 장치 및 그 방법에 관한 것이다.The present invention relates to an automatic translation apparatus and a method thereof, and more particularly, to an automatic translation apparatus and method capable of generating a high quality translation results with a wide coverage.
일반적으로 자동 번역 시스템에 채택되어 있는 종래의 번역 메모리는 고품질의 번역문을 얻을 수 있다는 장점이 있지만 번역을 요하는 입력문과 완전히 일치되는 경우에만 번역문을 출력함으로써 일부 제한된 문장만 번역할 수 있다는 한계를 지니고 있다.In general, the conventional translation memory adopted by the automatic translation system has the advantage of obtaining a high quality translation, but it has a limitation that only a limited sentence can be translated by outputting the translation only when it is completely matched with the input requiring translation. have.
한편, 번역 지원 시스템의 경우에는 완전히 일치하는 문장뿐만 아니라 문장의 유사도를 계산해 비교적 유사한 문장까지 번역 메모리로부터 검색해 낸다는 장점은 있으나 최종 번역문의 생성은 번역자에 의해 이루어지므로 반드시 사람의 개입이 필요하다는 단점이 있다.On the other hand, the translation support system has the advantage of calculating not only completely identical sentences but also similarity of sentences and retrieving relatively similar sentences from the translation memory, but the final translation is generated by the translator. have.
따라서, 이러한 번역 지원 시스템에서 사용되는 번역 메모리를 자동 번역 시스템에 활용하기 위해서는 적절한 대역문을 생성하기 위한 추가 작업이 필요하다. Therefore, in order to utilize the translation memory used in the translation support system in the automatic translation system, additional work for generating an appropriate band sentence is required.
예를 들어, 미리 번역 메모리 확장 작업을 통해서 기존의 번역 메모리의 커버리지를 높이도록 하는 방법들이 제시되었다. 하지만, 그러한 작업을 위해서는 사람의 수작업이 들어가거나 확장성에 제한이 있는 등 여전히 문제가 있었다.For example, a method of increasing the coverage of an existing translation memory by expanding the translation memory in advance has been proposed. However, there was still a problem for such a work, such as manual work or limited scalability.
본 발명은 상기한 바와 같은 일반적인 기술의 문제점을 해결하기 위하여 안출된 것으로서, 추가적인 번역 메모리의 확장 없이 번역 메모리의 커버리지를 높일 수 있는 자동 번역 장치 및 방법을 제공하는 데에 그 목적이 있다. Disclosure of Invention The present invention has been made to solve the problems of the general technology as described above, and an object thereof is to provide an automatic translation apparatus and method capable of increasing the coverage of a translation memory without an additional translation memory expansion.
본 발명의 다른 목적은 자동 번역의 성능을 높일 수 있는 자동 번역 장치 및 방법을 제공하는 데에 그 목적이 있다. Another object of the present invention is to provide an automatic translation apparatus and method that can improve the performance of the automatic translation.
상기의 기술적 과제를 해결하기 위한 본 발명의 일 양태로서, 자동 번역 장치는, 입력 문장에 대하여 키워드를 생성하는 입력문장 키워드 생성부; 상기 생성된 키워드에 기초하여, 번역 메모리에서 하나 이상의 유사 문장을 검색하는 DB 검색부; 상기 입력 문장으로 수정하기 위해 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치에 기초하여, 상기 검색된 하나 이상의 유사 문장의 유사도를 계산하는 유사도 계산부; 및 상기 검색된 하나 이상의 유사 문장에 대하여 치환/삭제/추가 작업에 따라 대역문을 생성하는 대역문 생성부를 포함할 수 있다. As an aspect of the present invention for solving the above technical problem, an automatic translation device, an input sentence keyword generation unit for generating a keyword for the input sentence; A DB search unit searching for one or more similar sentences in a translation memory based on the generated keyword; A similarity calculation unit that calculates a similarity degree of the searched one or more similar sentences based on the parts of speech to be replaced / deleted / added to the input sentence and weights corresponding to substitution / deletion / addition operations; And a band sentence generation unit configured to generate a band sentence according to a substitution / deletion / addition operation on the searched one or more similar sentences.
여기서, 상기 키워드 생성부는, 동사, 의문사, 접속사, 전치사와 같은 품사 및 이런 품사 또는 구두점 바로 앞의 명사 또는 형용사를 키워드에 포함시키는 것을 특징으로 한다. Here, the keyword generation unit may include a part-of-speech such as a verb, a question mark, a conjunction, a preposition, and a noun or adjective immediately preceding such a part-of-speech or punctuation.
또한, 상기 유사도 계산부는, 상기 입력 문장으로 수정하기 위해 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치의 곱의 총합으로 유사도를 계산할 수 있고, 상기 계산된 유사도에 따라 상기 검색된 하나 이상의 유사 문장을 정렬시킬 수 있다. In addition, the similarity calculator may calculate the similarity by the sum of the products of the parts of speech to be replaced / deleted / added and the weights corresponding to the substitution / deletion / addition in order to correct the input sentence, and the calculated similarity. According to one or more similar sentences can be sorted according to.
나아가, 상기 대역문 생성부는, 상기 유사도 순서에 따라 치환/삭제/추가 작업이 필요한 단어가 정렬되어 있거나 일반적으로 번역하지 않아도 되는 것인지 여부를 판정하고, 상기 판정 결과를 만족하는 최초의 유사 문장에 기초하여 대역문을 생성할 수 있다.Further, the band sentence generation unit determines whether words requiring substitution / deletion / addition are arranged or generally do not need to be translated according to the similarity order, and is based on the first similar sentence that satisfies the determination result. To generate a band statement.
본 발명의 다른 양태로서, 자동 번역 방법은, 입력 문장에 대하여 키워드를 생성하는 단계; 상기 생성된 키워드에 기초하여, 번역 메모리에서 하나 이상의 유사 문장을 검색하는 단계; 상기 입력 문장으로 수정하기 위해 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치에 기초하여, 상기 검색된 하나 이상의 유사 문장의 유사도를 계산하는 단계; 및 상기 검색된 하나 이상의 유사 문장에 대하여 치환/삭제/추가 작업에 따라 대역문을 생성하는 단계를 포함한다. In another aspect of the present invention, an automatic translation method includes: generating a keyword for an input sentence; Searching for one or more similar sentences in a translation memory based on the generated keywords; Calculating similarity of the retrieved one or more similar sentences based on the parts of speech to be replaced / deleted / added and the weights corresponding to the substitution / deleted / added operations to correct the input sentence; And generating a band sentence according to a substitution / deletion / addition operation on the searched one or more similar sentences.
여기서, 상기 키워드 생성 단계는, 동사, 의문사, 접속사, 전치사와 같은 품사 및 이런 품사 또는 구두점 바로 앞의 명사 또는 형용사를 키워드에 포함시키는 단계를 포함한다. Here, the keyword generating step includes a part of a verb, a question mark, a conjunction, a preposition such as a preposition, and a noun or adjective immediately preceding such a part of speech or punctuation.
또한, 상기 유사도 계산 단계는, 상기 입력 문장으로 수정하기 위해 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치의 곱의 총합으로 유사도를 계산할 수 있고, 상기 계산된 유사도에 따라 상기 검색된 하나 이상의 유사 문장이 정렬되는 단계를 더 포함할 수 있다. In addition, the similarity calculation step, the similarity can be calculated by the sum of the product of the parts of the word to be replaced / deleted / added to the input sentence and the weight corresponding to the replacement / deletion / addition operation, the calculated The method may further include sorting the searched one or more similar sentences according to similarity.
나아가, 상기 대역문 생성 단계는, 상기 상기 유사도 순서에 따라 치환/삭제/추가 작업이 필요한 단어가 정렬되어 있거나 일반적으로 번역하지 않아도 되는 것인지 여부를 판정하는 단계를 포함하고, 상기 판정 결과를 만족하는 최초의 유사 문장에 기초하여 대역문을 생성할 수 있다.Furthermore, the band sentence generation step may include determining whether words requiring substitution / deletion / addition are arranged or generally not translated according to the similarity order, and satisfying the determination result. A band sentence can be generated based on the first similar sentence.
본 발명은 다음과 같은 효과가 있다. The present invention has the following effects.
첫째, 추가적인 번역 메모리의 확장 없이 번역 메모리의 커버리지를 높일 수 있는 자동 번역 장치 및 방법을 제공한다.First, there is provided an automatic translation apparatus and method that can increase the coverage of a translation memory without additional translation memory expansion.
둘째, 추가적인 번역 메모리의 확장 없이 자동 번역의 성능을 높일 수 있는 자동 번역 장치 및 방법을 제공한다. Second, there is provided an automatic translation apparatus and method that can enhance the performance of automatic translation without additional translation memory expansion.
도 1은, 본 발명에 따른 번역 메모리 생성 과정을 보여주는 기능 블록도이다.
도 2는, 본 발명에 따른 자동 번역 과정을 보여주는 기능 블록도이다.
도 3은, 본 발명에 따른 번역 메모리 DB의 일 실시예를 보여주는 도면이다.
도 4는, 본 발명에 따른 자동 번역 방법을 보여주는 흐름도이다.1 is a functional block diagram illustrating a process of generating a translation memory according to the present invention.
2 is a functional block diagram illustrating an automatic translation process according to the present invention.
3 is a diagram illustrating an embodiment of a translation memory DB according to the present invention.
4 is a flowchart showing an automatic translation method according to the present invention.
이하의 실시예들은 본 발명의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.The following embodiments are a combination of elements and features of the present invention in a predetermined form. Each component or feature may be considered to be optional unless otherwise stated. Each component or feature may be implemented in a form that is not combined with other components or features. In addition, some of the elements and / or features may be combined to form an embodiment of the present invention. The order of the operations described in the embodiments of the present invention may be changed. Some configurations or features of certain embodiments may be included in other embodiments, or may be replaced with corresponding configurations or features of other embodiments.
본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. Embodiments of the invention may be implemented through various means. For example, embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.For a hardware implementation, the method according to embodiments of the present invention may be implemented in one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs) , Field programmable gate arrays (FPGAs), processors, controllers, microcontrollers, microprocessors, and the like.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.In the case of an implementation by firmware or software, the method according to the embodiments of the present invention may be implemented in the form of a module, a procedure, or a function that performs the functions or operations described above. The software code may be stored in a memory unit and driven by a processor. The memory unit may be located inside or outside the processor, and may exchange data with the processor by various known means.
이하의 설명에서 사용되는 특정(特定) 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are intended to provide further explanation of the invention, and are not intended to limit the scope of the invention.
도 1은, 본 발명에 따른 번역 메모리 생성 과정을 보여주는 기능 블록도이다. 도 1을 참조하면, 번역 메모리 태깅부(120)에서는 가공되지 않은 형태의 대역 코퍼스(110)의 원문 및 대역문에 대한 태깅을 수행한다. 단어 정렬부(130)에서는 시스템 번역 사전(140)과 통계적 방법을 이용하여 단어 정렬을 수행하고, 단어정렬 사전(150)을 구축한다. 번역 메모리 키워드 생성부(160)는 원문의 태깅 결과를 이용하여 DB 키로 사용할 키워드를 생성한다. 번역 메모리 DB 생성부(170)는 생성된 키워드를 키로 하여 번역 메모리(180)를 구축한다.1 is a functional block diagram illustrating a process of generating a translation memory according to the present invention. Referring to FIG. 1, the translation
이하, 본 발명에 따른 자동 번역 장치 및 방법에서 사용하게 될 번역 메모리의 생성을 각 구성요소에서 수행되는 기능을 중심으로 일 예를 통하여 상세히 설명하기로 한다.Hereinafter, the generation of the translation memory to be used in the automatic translation apparatus and method according to the present invention will be described in detail with an example focusing on the functions performed in each component.
대역 코퍼스(110)는, 하기의 예와 같이, 가공되지 않은 형태의 원문과 대역문으로 구성되어 있다. The
I'll call back in about five minutes.||제가 약 5분 후에 다시 걸겠습니다.I'll call back in about five minutes. || I'll call you back in about five minutes.
We are having a meeting at ten tomorrow morning.||내일 아침 10시에 회의를 열겠습니다.We are having a meeting at ten tomorrow morning. ||
Split the salad.|| 샐러드 좀 나눠 주세요.Split the salad. || Please share your salad.
Rainy days get me down.||비가 오는 날에는 기분이 처집니다.Rainy days get me down. ||
How is your food?|| 음식 맛이 어때요?How is your food? || How does the food taste?
Can i order the food in advance?|| 미리 음식 주문도 가능하죠?Can i order the food in advance? || Can I order food in advance?
We have to have important meeting right now.|| 우리는 지금 중요한 회의를 해야 합니다.We have to have important meeting right now. || We need to have an important meeting now.
번역 메모리 태깅부(120)는, 하기의 예와 같이, 원문과 대역문 각각을 구성하는 단어에 대해 형태소 분석하고, 동시에 그 단어들의 품사를 결정하여, 태깅한다.The translation
i/대명사 will/조동사 call/동사원형 back/부사 in/전치사 about/부사 five/수사 minutes/복수명사 ./. || 제 +가 약 5 +분 후 +에 다시 걸 +겠 +습니다 +.i / pronouns will / verb verb / verb circle back / verb in / preposition about / verb five / verb minutes / plural noun ./. || My + will + be back in + after about 5 + minutes.
we/대명사 are/동사현재형 having/동사진행형 a/관사 meeting/단수명사 at/전치사 ten/수사 tomorrow/부사 morning/단수명사 ./. || 내일아침 10 +시 +에 회의 +를 열 +겠 +습니다 +.we / pronouns are / verb present having / verbal action a / article meeting / singular noun at / preposition ten / investigation tomorrow / adverb morning / singular noun ./. || Tomorrow will open the meeting + at 10 + + + tomorrow morning.
단어 정렬부(130)는, 통계적 기계 번역에서 사용하는 IBM 모델 1과 같은 통계 모델을 이용하여 단어 정렬을 수행하면서 단어정렬 사전(150)을 구축한다. The
여기서, 단어 정렬이란, 원문 및 대역문을 구성하는 단어들의 해당 문장에서의 위치를 대응시켜 놓는 것을 말하며, 단어정렬 사전은, 원문의 단어 하나에 대하여 유사한 의미를 가지는 대역문의 단어를 총망라하여 대응시켜 놓은 데이터베이스를 지칭한다. Here, the word alignment refers to matching positions of the words constituting the original text and the band sentence in the corresponding sentences, and the word alignment dictionary corresponds to a word of the band sentence having a similar meaning with respect to one word in the original text. Refers to the database you placed.
1) 단어 정렬의 일 예:1) One example of word sort:
i/대명사 will/조동사 call/동사원형 back/부사 in/전치사 about/부사 five/수사 minutes/복수명사 ./. || 제 +가 약 5 +분 후 +에 다시 걸 +겠 +습니다 +. || 1-1, 6-3, 7-4, 8-5, 9-9i / pronouns will / verb verb / verb circle back / verb in / preposition about / verb five / verb minutes / plural noun ./. || My + will + be back in + after about 5 + minutes. || 1-1, 6-3, 7-4, 8-5, 9-9
we/대명사 be/동사현재형 having/동사진행형 a/관사 meeting/단수명사 at/전치사 ten/수사 tomorrow/부사 morning/단수명사 ./. || 내일아침 10 +시 +에 회의 +를 열 +겠 +습니다 +. || 7-2, 5-5, 8:9-1, 10-10we / pronouns be / verb present having / verbal action a / article meeting / singular noun at / preposition ten / investigation tomorrow / adverb morning / singular noun ./. || Tomorrow will open the meeting + at 10 + + + tomorrow morning. || 7-2, 5-5, 8: 9-1, 10-10
여기서, 1-1의 의미는 원문에서의 1번째 단어와 대역문에서 1번째 단어가 서로 대응한다는 의미이다.Here, 1-1 means that the first word in the original text and the first word in the band text correspond to each other.
2) 단어정렬 사전의 일 예:2) An example of a word sort dictionary:
i-나,제,...i-Me, my, ...
food-음식,요리,...food-food, cooking, ...
meeting-회의,...meeting-meeting, ...
five-5,다섯,오,...five-5, five, oh, ...
ten-10,십,열,...ten-10, ten, ten, ...
번역 메모리 키워드 생성부(160)에서 생성하는 번역 메모리 키워드는, 태깅 결과 중 동사, 의문사, 종속접속사, 전치사와 같은 품사, 및 이런 품사 또는 구두점 바로 앞의 명사 또는 형용사로 구성될 수 있다. The translation memory keyword generated by the translation memory
예를 들어, i will call back in aout five minutes. 라는 원문이 있고, 이 원문의 태깅 결과는 다음과 같다. For example, i will call back in aout five minutes. There is an original text, and the tagging result of this text is as follows.
i/대명사 will/조동사 call/동사원형 back/부사 in/전치사 about/부사 five/수사 minutes/복수명사 ./.i / pronouns will / verb verb / verb circle back / verb in / preposition about / verb five / verb minutes / plural noun ./.
상기 원문 중 대명사(i), 조동사(will), 부사(back, about), 및 수사(five)는 키워드 생성시 포함되지 않는 품사이므로 제외된다. 따라서, 동사인 call, 전치사인 in, 그리고 구두점 바로 앞의 명사인 minutes가 키워드에 포함되게 되고 키워드는 call in minutes가 된다.Pronouns (i), verbs (will), adverbs (back, about), and rhetoric (five) in the original text are excluded because they are not included in the keyword generation. Thus, the keyword call, the preposition in, and the noun minutes immediately before the punctuation are included in the keyword, and the keyword is call in minutes.
또 다른 예를 들면, We are having a meeting at ten tomorrow morning. 이라는 원문이 있고, 이 원문의 태깅 결과는 다음과 같다.In another example, We are having a meeting at ten tomorrow morning. There is an original text, and the tagging result of this text is as follows.
we/대명사 are/동사현재형 having/동사진행형 a/관사 meeting/단수명사 at/전치사 ten/수사 tomorrow/부사 morning/단수명사 ./.we / pronouns are / verb present having / verbal action a / article meeting / singular noun at / preposition ten / investigation tomorrow / adverb morning / singular noun ./.
상기 원문 중 대명사(we), 관사(a), 수사(ten), 부사(tomorrow)는 키워드 생성시 포함되지 않는 품사이므로 제외된다. 따라서, 동사인 are having, 전치사 바로 앞의 명사인 meeting, 전치사인 at, 구두점 바로 앞의 명사인 morning이 키워드에 포함되게 되고 키워드는 are having meeting at morning이 된다.Pronouns (we), articles (a), investigations (ten), and adverbs (tomorrow) in the original text are excluded because they are not included in the keyword generation. Therefore, the keywords are having, the meeting just before the preposition, the preposition at, and the morning just before the punctuation are included in the keyword, and the keyword is having meeting at morning.
번역 메모리 DB 생성부(170)에서 구축하는 번역 메모리(180)의 일 실시예는 도 3과 같다. 도 3에 도시된 바와 같이, 번역 메모리는 원문 및 번역문에 대한 태깅 결과, 및 단어 정렬 결과를 포함하고 있으며, 상기에서 생성된 키워드를 DB 키로 하여 동일한 DB 엔트리에 저장되게 된다.An embodiment of the
이와 같은 구성요소 및/또는 과정을 거쳐 본 발명에 따른 자동 번역 장치 및 방법에서 이용하게 될 번역 메모리는 생성되게 된다.Through such components and / or processes, a translation memory to be used in the automatic translation apparatus and method according to the present invention is generated.
도 2는, 본 발명에 따른 자동 번역 과정을 보여주는 기능 블록도이다. 도 2를 참조하면, 번역할 원문이 입력되면 입력문장 태깅부(210)에서는 원문에 대한 태깅을 수행한다. 입력문장 키워드 생성부(220)에서는 번역 메모리 키워드 생성부(160)에서와 동일한 방법으로 입력 문장에 대한 키워드를 생성하고, 생성된 키워드를 이용하여 DB 검색부(230)에서 번역 메모리(180)를 검색한다. 유사도 계산부(240)에서는 번역 메모리(180)로부터 검색된 하나 이상의 유사 문장에 대해 edit distance와 같은 dynamic programming 기법을 이용하여 유사도를 계산하고, 대역문 생성부(250)에서는 대역문 생성 조건을 만족하는 유사 문장에 대해 단어정렬 사전(150) 및 번역 사전(140)를 이용하여 원문에 대한 대역문을 생성한다.2 is a functional block diagram illustrating an automatic translation process according to the present invention. Referring to FIG. 2, when an original text to be translated is input, the input
이하, 본 발명에 따른 자동 번역 장치 및 방법을 그 구성요소를 중심으로 영한 번역하는 일 예를 통하여 상세히 설명하기로 한다. 예를 들어, I'll call you back in about ten minutes.라는 문장이 입력되었다고 가정한다. Hereinafter, the automatic translation apparatus and method according to the present invention will be described in detail through an example of the English-Korean translation around the components. For example, suppose the sentence I'll call you back in about ten minutes.
입력문장 태깅부(210)는, 하기의 예와 같이, 입력 문장을 구성하는 단어에 대해 형태소 분석하고, 동시에 그 단어들의 품사를 결정하여, 태깅한다.The input
i/대명사 will/조동사 call/동사원형 back/부사 in/전치사 about/부사 ten/수사 minutes/복수명사 ./.i / pronouns will / verb verb / verb round back / adverb in / preposition about / verb ten / verb minutes / plural noun ./.
입력문장 키워드 생성부(220)는, 상기 번역 메모리 키워드 생성부(160)에서의 방법과 동일한 방식으로 키워드를 생성한다. 즉, 입력문장 키워드는, 태깅 결과 중 동사, 의문사, 종속접속사, 전치사와 같은 품사, 및 이런 품사 또는 구두점 바로 앞의 명사 또는 형용사로 구성될 수 있다. The input
상기 입력 문장 중 대명사(i), 조동사(will), 부사(back, about), 및 수사(ten)는 키워드 생성시 포함되지 않는 품사이므로 제외된다. 따라서, 동사인 call, 전치사인 in, 그리고 구두점 바로 앞의 명사인 minutes가 키워드에 포함되게 되고 키워드는 call in minutes가 된다.Pronouns (i), modal verbs (will), adverbs (back, about), and rhetorical sentences (ten) are excluded because they are not included in keyword generation. Thus, the keyword call, the preposition in, and the noun minutes immediately before the punctuation are included in the keyword, and the keyword is call in minutes.
DB 검색부(230)는, 상기 생성된 입력 문장의 키워드인 call in minutes를 이용하여 번역 메모리(180) 내에서 동일한 키워드를 가지는 DB 엔트리를 검색한다. 본 발명의 일 예의 결과는 도 3과 같다. The
유사도 계산부(240)에서는 edit distance와 같은 dynamic programming 기법을 이용하여 유사도를 계산하는데, 먼저 상기 동일한 키워드 내의 복수의 문장들 각각에 대하여 입력 문장으로 수정하기 위해 필요한 최소한의 수정 사항, 즉 치환/삭제 추가 작업이 필요한지 여부를 파악한다. 치환의 경우는 동일한 품사에 대해서만 가능하고 품사가 다른 경우는 삭제 및 추가를 하여 수정을 하여야 한다.The
유사도 계산은 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치에 기초하여 수행되는데, 각 품사에 대한 가중치 및 각 수정 작업에 대한 가중치는 각각 아래 표 1 및 표 2와 같다. The similarity calculation is performed based on the parts of parts of the word to be replaced / deleted / added and the weights corresponding to the parts of the parts / substituted / deleted / added. Same as
유사도 계산은, 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치의 곱의 총합으로 표현될 수 있는데. 예를 들어, 아래와 같은 식으로 표현될 수도 있다.The similarity calculation may be expressed as the sum of the product of the parts of the words to be substituted / deleted / added and the weights corresponding to the substitution / deleted / added operations. For example, it may be expressed as follows.
여기서, Sim은 유사도, pos_weighti는 i 번째 단어의 품사 가중치, edit_costi는 i 번째 단어의 수정 작업 가중치를 말한다. Here, Sim is similarity, pos_weight i is the part-of-speech weight of the i-th word, and edit_cost i is the modification work weight of the i-th word.
상기 DB 검색부(230)에서 검색된 동일한 키워드 아래의 하나 이상의 유사 문장에 대하여 각각 유사도가 계산되는데, 예를 들어 도 3에 나타난 문장들에 대하여 수학식 1에 따라 유사도를 계산해 보면 다음과 같다.Similarity is calculated for each of one or more similar sentences under the same keyword searched by the
문장 1: may(삭제) i will(추가) call you(삭제) back in about five(치환) minutes ?(삭제)Sentence 1: may (delete) i will (add) call you (delete) back in about five (substitution) minutes? (Delete)
유사도: 0 - [3+3(-3)+3*2+10(-3)+3+3(-3)+8(-3)+3(-3)+3*2+5(-3)+3] = 75Similarity: 0-[3 + 3 (-3) + 3 * 2 + 10 (-3) + 3 + 3 (-3) +8 (-3) +3 (-3) + 3 * 2 + 5 (- 3) +3] = 75
문장 2: may(삭제) i will(추가) call you(삭제) in about thirty(치환) minutes ?(삭제)Sentence 2: may (delete) i will (add) call you (delete) in about thirty (substitute) minutes? (Delete)
유사도: 0 - [3+3(-3)+3*2+10(-3)+3+8(-3)+3(-3)+3*2+5(-3)+3] = 66Similarity: 0-[3 + 3 (-3) + 3 * 2 + 10 (-3) + 3 + 8 (-3) +3 (-3) + 3 * 2 + 5 (-3) +3] = 66
문장 3: i(추가) will(추가) call again(치환) in about 10(치환) minutesSentence 3: i (added) will (added) call again (substituted) in about 10 (substituted) minutes
유사도: 0 - [3*2+3*2+10(-3)+3*2+8(-3)+3(-3)+3*2+5(-3)] = 54Similarity: 0-[3 * 2 + 3 * 2 + 10 (-3) + 3 * 2 + 8 (-3) +3 (-3) + 3 * 2 + 5 (-3)] = 54
문장 4: i will call back in about five(치환) minutesSentence 4: i will call back in about five minutes
유사도: 0 - [3(-3)+3(-3)+10(-3)+3(-3)+8(-3)+3(-3)+3*2+5(-3)] = 99Similarity: 0-[3 (-3) +3 (-3) +10 (-3) +3 (-3) +8 (-3) +3 (-3) + 3 * 2 + 5 (-3) ] = 99
문장 5: i(추가) will(추가) call back in about ten minutesSentence 5: i (added) will (added) call back in about ten minutes
유사도: 0 - [3*2+3*2+10(-3)+3(-3)+8(-3)+3(-3)+3(-3)+5(-3)] = 84 Similarity: 0-[3 * 2 + 3 * 2 + 10 (-3) +3 (-3) +8 (-3) +3 (-3) +3 (-3) +5 (-3)] = 84
유사도 계산부(240)에서는 또한, 상기 계산된 유사도에 따라 상기 검색된 하나 이상의 유사 문장을 유사도에 따라 아래와 같이 내림차순으로 정렬시킬 수도 있다. The
1: i will call back in about five(치환) minutes1: i will call back in about five minutes
2: i(추가) will(추가) call back in about ten minutes2: i (added) will (added) call back in about ten minutes
3: may(삭제) i will(추가) call you(삭제) back in about five(치환) minutes ?(삭제)3: may (delete) i will (add) call you (delete) back in about five minutes (?)
4: may(삭제) i will(추가) call you(삭제) in about thirty(치환) minutes ?(삭제)4: may (Delete) i will (Add) call you (Delete) in about thirty (Substitute) minutes? (Delete)
5: i(추가) will(추가) call again(치환) in about 10(치환) minutes5: i (added) will (added) call again (substituted) in about 10 (substituted) minutes
대역문 생성부(250)에서는, 상기 검색된 하나 이상의 유사 문장에 대하여 치환/삭제/추가 작업이 필요한 단어가 일반적으로 번역하지 않아도 되는 것인지 여부를 판정한다. 예를 들어, 치환/삭제 작업이 필요한 단어의 경우 해당 단어들이 전부 정렬되어 있거나 a, an, the, your, my 등과 같이 영한번역에서 일반적으로 번역되지 않는 단어에 해당하는지 여부를 판정한다. 추가 작업이 필요한 단어의 경우 부사, 구두점 또는 a, an, the, your, my 등과 같이 영한번역에서 일반적으로 번역되지 않는 단어에 해당하는지 여부를 판정한다.The band
이러한 판정은 유사도에 따라 내림 차순으로 정렬된 상기 하나 이상의 유사 문장에 대하여 순차적으로 수행될 수 있고, 이러한 판정 조건을 만족하는 최초의 유사 문장에 대하여 대역문 생성을 수행할 수 있다. This determination may be performed sequentially on the one or more similar sentences arranged in descending order according to the similarity, and the band sentence generation may be performed on the first similar sentence that satisfies this determination condition.
예를 들어, 삭제 작업이 필요한 단어의 경우 상기 유사 문장의 대역문에서 정렬된 대역어를 제거하고, 치환 작업이 필요한 단어의 경우 치환해야 할 입력 문장의 단어에 대한 대역어를 단어정렬 사전 또는 시스템 사전으로부터 선택한 후 대역문에서 정렬된 대역어를 선택된 대역어로 치환한다.For example, in the case of a word that needs to be deleted, the band word aligned in the band sentence of the similar sentence is removed, and in the case of the word that needs to be replaced, the band word for the word of the input sentence to be substituted is changed from the word sort dictionary or the system dictionary. After the selection, the bandwords aligned in the band statement are replaced with the selected bandword.
또한, 추가 작업이 필요한 단어의 경우 예를 들어, 추가될 부사의 대역어를 대역문에 적당히 삽입하면 되는데 이때 생성 위치는 만일 부사 다음 단어가 정렬되어 있으면 해당 대역어 바로 앞이고, 정렬되어 있지 않으면 문장 맨 앞에 생성하면 된다. For words that require additional work, for example, a band word of an adverb to be added may be appropriately inserted into a band sentence, where the generation position is immediately before the band word if the next word of the adverb is sorted, and at the top of the sentence if it is not sorted. Create it earlier.
유사도에 따라 내림 차순으로 정렬된 상기 하나 이상의 유사 문장에 대하여 순차적으로 대역문 생성 조건을 만족하는지 판정을 수행하는 방식을 본 실시예에 적용해 보면, 유사도가 가장 높게 나온 문장 4에 대하여 먼저 대역문 생성 조건을 만족하는지 판정하게 된다.According to the present embodiment, a method of performing a determination on whether one or more similar sentences are arranged in descending order according to the similarity and sequentially satisfying the condition for generating a band sentence is applied to the present embodiment. It is determined whether the generation condition is satisfied.
i will call back in about five(치환) minutes|| 제 +가 약 5 +분 후 +에 다시 걸 +겠 +습니다 . || 1-1, 6-3, 7-4, 8-5i will call back in about five minutes || My + will call you again in about +5 minutes. || 1-1, 6-3, 7-4, 8-5
치환 작업이 필요한 단어의 경우 해당 단어들이 전부 정렬되어 있거나 a, an, the, your, my 등과 같이 영한번역에서 일반적으로 번역되지 않는 단어에 해당하는지 여부를 판정하는데, 문장 4의 정렬 결과에서 five-4 가 정렬되어 있으므로 대역문 생성 조건을 만족하므로, 이를 기초로 대역문을 생성하게 된다. 만일 five-4가 정렬되지 않은 경우 차순위 유사도를 가지는 문장 5에 대해 대역문 생성 조건을 만족하는지를 판정하게 된다.For words that require substitution, it is determined whether the words are all sorted or correspond to words that are not normally translated in English-Korean translations such as a, an, the, your, my, etc. Since 4 is aligned, the band generation condition is satisfied, and thus a band sentence is generated based on this. If five-4 is not aligned, it is determined whether the sentence generation condition is satisfied for the sentence 5 having the second order similarity.
따라서, 단어정렬 사전(150)에서 ten의 대역어 "10"을 대역문의 "5"의 자리에 치환하면, "제 +가 약 10 +분 후 +에 다시 걸 +겠 +습니다." 라는 결과가 나오고, 분리된 형태소를 다시 결합시켜서 최종 대역문 "제가 약 10분 후에 다시 걸겠습니다."가 생성되게 된다.Therefore, if you replace ten's band word "10" in the word sort dictionary (150) with the place of "5" in the band sentence, "the + will re-add + after about 10 + minutes." The result is a recombination of the separated morphemes, resulting in the final band statement "I'll call again in about 10 minutes."
도 4는, 본 발명에 따른 자동 번역 방법을 보여주는 흐름도이다. 도 4를 참조하면, 번역하고자 하는 문장이 사용자 또는 시스템에 의해 입력되면, 상기 입력 문장에 대하여 키워드를 생성한다(S400). 상기 생성된 키워드에 기초하여, 번역 메모리에서 하나 이상의 유사 문장을 검색한다(S420). 이어서, 상기 입력 문장으로 수정하기 위해 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치에 기초하여, 상기 검색된 하나 이상의 유사 문장의 유사도를 계산한다(S440). 마지막으로, 상기 검색된 하나 이상의 유사 문장에 대하여 치환/삭제/추가 작업에 따라 대역문을 생성한다(S460). 여기서, 본 발명에 따른 자동 번역 장치의 구성요소들의 기능 및 구조에 대한 설명은 또한 본 발명에 따른 자동 번역 방법에 그대로 채용될 수 있다. 4 is a flowchart showing an automatic translation method according to the present invention. Referring to FIG. 4, when a sentence to be translated is input by a user or a system, a keyword is generated for the input sentence (S400). Based on the generated keyword, one or more similar sentences are searched in the translation memory (S420). Subsequently, the similarity of the searched one or more similar sentences is calculated based on the parts of speech to be replaced / deleted / added and the weights corresponding to the replacement / deleted / added operations in order to correct the input sentence (S440). Finally, a band sentence is generated according to the substitution / deletion / addition operation on the searched one or more similar sentences (S460). Here, the description of the function and structure of the components of the automatic translation apparatus according to the present invention may also be employed as it is in the automatic translation method according to the present invention.
아래는 본 발명에 따른 자동 번역 장치 및 방법에 따라, 각각의 입력 문장에 대한 대역문들이 생성되는 예시를 보여준다.The following shows an example in which band sentences for each input sentence are generated according to the automatic translation apparatus and method according to the present invention.
(1) 예 1(1) Example 1
번역 메모리: We are having a meeting at ten tomorrow morning.|| 내일 아침 10시에 회의를 열겠습니다.Translation memory: We are having a meeting at ten tomorrow morning. || I will have a meeting tomorrow at 10 o'clock.
입력 문장: We're having a meeting at 9 tomorrow morning.Input Sentence: We're having a meeting at 9 tomorrow morning.
대역문: 내일 아침 9시에 회의를 열겠습니다.Kim Moon-moon: I'll have a meeting tomorrow at 9:00.
(2) 예 2(2) Example 2
번역 메모리: Rainy days get me down.|| 비가 오는 날에는 기분이 처집니다.Translation memory: Rainy days get me down. || On rainy days, I feel down.
입력 문장: Rainy days always get me down.Input sentence: Rainy days always get me down.
대역문: 항상 비가 오는 날에는 기분이 처집니다.Band Moon: Always feels down on a rainy day.
(3) 예 3(3) Example 3
번역 메모리: What do you personally recommend?|| 개인적으로 무엇이 좋겠습니까?Translation memory: What do you personally recommend? || What would you like personally?
입력 문장: What do you recommend?Input sentence: What do you recommend?
대역문: 무엇이 좋겠습니까?Band Moon: What would you like?
(4) 예 4(4) Example 4
번역 메모리: When would be a convenient time to reach him?|| 그분과 통화하려면 언제가 제일 좋습니까?Translation memory: When would be a convenient time to reach him? || When is the best time to speak with him?
입력 문장: Well, when would be a convenient time to reach him?Input Sentence: Well, when would be a convenient time to reach him?
대역문: 음 그분과 통화하려면 언제가 제일 좋습니까?Band Moon: Well, when is the best time to talk to him?
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있다.The invention can be embodied in other specific forms without departing from the spirit and essential features of the invention. Accordingly, the above detailed description should not be construed as limiting in all aspects and should be considered as illustrative. The scope of the invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention. In addition, claims that do not have an explicit citation in the claims may be combined to form an embodiment or included in a new claim by amendment after the application.
본 발명의 자동 번역 장치 및 방법은, 본래 목적이 자동 번역인 장치 및 방법에만 한정되는 것이 아니라, 자동 번역을 기초로 특정 기능들이 수행될 것을 요하는 기술 분야에는 어디든 적용가능하다. The automatic translation apparatus and method of the present invention is applicable not only to the apparatus and method in which the original purpose is automatic translation, but also to any technical field that requires specific functions to be performed based on the automatic translation.
150: 단어정렬 사전 180: 번역 메모리
210: 입력문장 태깅부 220: 입력문장 키워드 생성부
230: DB 검색부 240: 유사도 계산부
250: 대역문 생성부150: word alignment dictionary 180: translation memory
210: input sentence tagging unit 220: input sentence keyword generation unit
230: DB search unit 240: Similarity calculator
250: band sentence generation unit
Claims (1)
상기 생성된 키워드에 기초하여, 번역 메모리에서 하나 이상의 유사 문장을 검색하는 DB 검색부;
상기 입력 문장으로 수정하기 위해 치환/삭제/추가되어야 할 단어의 품사 및 치환/삭제/추가 작업에 대응하는 가중치에 기초하여, 상기 검색된 하나 이상의 유사 문장의 유사도를 계산하는 유사도 계산부; 및
상기 검색된 하나 이상의 유사 문장에 대하여 치환/삭제/추가 작업에 따라 대역문을 생성하는 대역문 생성부를 포함하는 자동 번역 장치. An input sentence keyword generator to generate a keyword for the input sentence;
A DB search unit searching for one or more similar sentences in a translation memory based on the generated keyword;
A similarity calculation unit that calculates a similarity degree of the searched one or more similar sentences based on the parts of speech to be replaced / deleted / added and weights corresponding to substitution / deletion / addition in order to correct the input sentence; And
And a band sentence generator for generating a band sentence in response to the substitution / deletion / addition of the searched one or more similar sentences.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100109610A KR20120048139A (en) | 2010-11-05 | 2010-11-05 | Automatic translation device and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100109610A KR20120048139A (en) | 2010-11-05 | 2010-11-05 | Automatic translation device and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20120048139A true KR20120048139A (en) | 2012-05-15 |
Family
ID=46266540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100109610A KR20120048139A (en) | 2010-11-05 | 2010-11-05 | Automatic translation device and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20120048139A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016043539A1 (en) * | 2014-09-18 | 2016-03-24 | 특허법인 남앤드남 | Translation memory comprising small translation memory, backward translation memory using same, and computer-readable storage medium having translation memories recorded thereon |
US10474758B2 (en) | 2017-06-21 | 2019-11-12 | Samsung Electronics Co., Ltd. | Method and apparatus for machine translation using neural network and method of training the apparatus |
US11574190B2 (en) | 2019-10-15 | 2023-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus for determining output token |
US11694677B2 (en) | 2019-07-31 | 2023-07-04 | Samsung Electronics Co., Ltd. | Decoding method and apparatus in artificial neural network for speech recognition |
-
2010
- 2010-11-05 KR KR1020100109610A patent/KR20120048139A/en not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016043539A1 (en) * | 2014-09-18 | 2016-03-24 | 특허법인 남앤드남 | Translation memory comprising small translation memory, backward translation memory using same, and computer-readable storage medium having translation memories recorded thereon |
US10474758B2 (en) | 2017-06-21 | 2019-11-12 | Samsung Electronics Co., Ltd. | Method and apparatus for machine translation using neural network and method of training the apparatus |
US11694677B2 (en) | 2019-07-31 | 2023-07-04 | Samsung Electronics Co., Ltd. | Decoding method and apparatus in artificial neural network for speech recognition |
US12100392B2 (en) | 2019-07-31 | 2024-09-24 | Samsung Electronics Co., Ltd. | Decoding method and apparatus in artificial neural network for speech recognition |
US11574190B2 (en) | 2019-10-15 | 2023-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus for determining output token |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Abstractive summarization: An overview of the state of the art | |
Yang et al. | Joint relational embeddings for knowledge-based question answering | |
Abdurakhmonova et al. | Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz | |
Irvine et al. | End-to-end statistical machine translation with zero or small parallel texts | |
Way et al. | wEBMT: developing and validating an example-based machine translation system using the world wide web | |
Tukeyev et al. | Morphological segmentation method for Turkic language neural machine translation | |
Aasha et al. | Machine translation from English to Malayalam using transfer approach | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
KR20120048139A (en) | Automatic translation device and method thereof | |
Rabbani et al. | A new verb based approach for English to Bangla machine translation | |
Hkiri et al. | Arabic-English text translation leveraging hybrid NER | |
Alkhatib et al. | Paraphrasing Arabic metaphor with neural machine translation | |
Hatem et al. | Morphological analysis for rule based machine translation | |
CN102135957A (en) | Clause translating method and device | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
Wu et al. | Parsing-based Chinese word segmentation integrating morphological and syntactic information | |
Gupta et al. | Quality Estimation of Machine Translation Outputs Through Stemming | |
Reddy et al. | POS Tagger for Kannada Sentence Translation | |
Bak et al. | Kakao enterprise’s WMT21 machine translation using terminologies task submission | |
Saini et al. | Relative clause based text simplification for improved english to hindi translation | |
Satpathy et al. | Analysis of Learning Approaches for Machine Translation Systems | |
Ruiz et al. | Lexical normalization of spanish tweets with preprocessing rules, domain-specific edit distances, and language models | |
Rosa et al. | Translation model interpolation for domain adaptation in tectomt | |
Karmani et al. | Building a standardized Wordnet in the ISO LMF for aeb language | |
Ji et al. | Phonetic name matching for cross-lingual spoken sentence retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |