TWI760234B - 翻譯方法 - Google Patents
翻譯方法 Download PDFInfo
- Publication number
- TWI760234B TWI760234B TW110118893A TW110118893A TWI760234B TW I760234 B TWI760234 B TW I760234B TW 110118893 A TW110118893 A TW 110118893A TW 110118893 A TW110118893 A TW 110118893A TW I760234 B TWI760234 B TW I760234B
- Authority
- TW
- Taiwan
- Prior art keywords
- language
- translation
- content
- encoder
- common
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000014616 translation Effects 0.000 abstract 4
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本案係關於一種翻譯方法,包括步驟:提供翻譯裝置;輸入對應第一語言之第一會話聲音;將第一會話聲音轉換為通用語言內容;將通用語言內容轉換為對應第二語言之第二會話聲音;以及輸出第二會話聲音。藉此,可以將任意的語言轉換為通用語言,再將通用語言轉換為任意的目標語言,進而達到簡單設定並實現多國語言翻譯及對話之功效。
Description
本案係關於一種翻譯方法,尤指一種翻譯方法及翻譯裝置。
一直以來,翻譯工作在日常生活或商務場合中,都扮演著一個重要的角色。例如會議、旅遊,都會有翻譯的需求。雖然可以自行學習新的語言,但要掌握多種語言還是有一定的難度。這時,就會產生翻譯的需求。假設以旅遊、參加演講或是跨國公司會議等非政府活動來說,帶上一個翻譯人員的可能性較低,因此在現實環境中多以機器翻譯來達成需求。
以市面上的翻譯機為例。在翻譯時,需要先選擇使用者說話的語言,再選擇需要翻譯的目標語言。因此,特別是有來自多個不同語系國家人員與會的場合時,各個翻譯器的設定需要根據對話者的語系而持續變更,使用上相當不便。
請參閱第1圖,其係顯示傳統翻譯方法在多種語言中實現翻譯之示意圖。在傳統翻譯方法中,在不同語言間都是採用一對一的翻譯。假設有三個使用者要以中文、英文及西班牙文進行對話,在對話過程中翻譯裝置會需要在中文-英文、英文-中文、中文-西班牙文、西班牙文-中文、英文-西班牙文及西班牙文-英文等6種翻譯器之間不斷切換,且多半需要使用者自行操作切換。若有
四個使用者分別以中文、英文、西班牙文及法文進行對話,在對話過程中翻譯裝置會需要在12種翻譯器之間不斷切換。具體而言,當中文使用者與英文使用者、西班牙文使用者及法文使用者對話並說出「你好」時,中文的「你好」需要對應地被翻譯到英文的“Hello”、西班牙文的“Hola”以及法文的“Bonjour”等同義詞時,會需要中文-英文、中文-西班牙文及中文-法文等翻譯器,而在英文使用者、西班牙文使用者及法文使用者有所回應時,會各需要該語言對應另外三種語言的翻譯器,才能讓四個不同語言的使用者彼此瞭解互相的對話內容。簡單來說,待翻譯語言及目標語言越多,需要準備的翻譯器也就越多,不僅不利於使用者進行操作,對於翻譯裝置的資源,例如運算效能、儲存空間以及記憶體利用等,皆存在相當大的負擔。
故此,如何發展一種可有效解決先前技術之問題與缺點的翻譯方法及翻譯裝置,實為目前尚待解決的問題。
本案之主要目的為提供一種翻譯方法及翻譯裝置,俾解決並改善前述先前技術之問題與缺點。
本案之另一目的為提供一種翻譯方法及翻譯裝置,藉由將對應第一語言之第一會話聲音轉換為通用語言內容,再將通用語言內容轉換為對應第二語言之第二會話聲音並輸出,可以將任意的語言轉換為通用語言,再將通用語言轉換為任意的目標語言,進而達到簡單設定並實現多國語言翻譯及對話之功效。
本案之另一目的為提供一種翻譯方法及翻譯裝置,透過通用語言內容之通用性特徵及語意特徵對多種語言的共通性描述,使用不同語言的多個使用者以多個翻譯裝置進行對話時,各個翻譯裝置僅需具備對應自身語言的一組編碼器及解碼器,即可實現多國語言翻譯及對話。不僅能大幅降低資源消耗,更可有效改善記憶體利用。
為達上述目的,本案之一較佳實施態樣為提供一種翻譯方法,包括步驟:(a)提供一翻譯裝置;(b)輸入對應一第一語言之一第一會話聲音;(c)將該第一會話聲音轉換為一通用語言內容;(d)將該通用語言內容轉換為對應一第二語言之一第二會話聲音;以及(e)輸出該第二會話聲音。
為達上述目的,本案之一較佳實施態樣為提供一種翻譯方法,包括步驟:(a)提供一翻譯裝置,其中該翻譯裝置包括對應一第一語言之一編碼器及一解碼器;(b)輸入對應該第一語言之一第一會話聲音;(c)該編碼器將該第一會話聲音轉換為一通用語言輸出內容;(d)允許該翻譯裝置將該通用語言輸出內容輸出至一外部翻譯裝置,並接收該外部翻譯裝置輸出且轉換自對應一第二語言之一第二會話聲音之一通用語言輸入內容;(e)該解碼器將該通用語言輸入內容轉換為對應該第一語言之一翻譯語音;以及(f)輸出該翻譯語音。
為達上述目的,本案之一較佳實施態樣為提供一種翻譯裝置,包括:一控制單元;一聲音輸入單元,與該控制單元相連接,用以接收對應一第一語言之一第一會話聲音;一聲音轉換文字模組,與該控制單元相連接,用以將該第一會話聲音轉換為一第一語言文字;一編碼器,與該控制單元相連接,用以將該第一語言文字轉換為一通用語言內容;一解碼器,與該控制單元相連接,用以將該通用語言內容轉換為對應一第二語言之一第二語言文字;一文字轉換聲音模組,與該控制單元相連接,用以將該第二語言文字轉換為一第二會
話聲音;以及一聲音輸出單元,與該控制單元相連接,用以輸出該第二會話聲音。
1:翻譯裝置
10:控制單元
11:聲音輸入單元
12:聲音轉換文字模組
13:編碼器
14:解碼器
15:文字轉換聲音模組
16:聲音輸出單元
2:翻譯裝置
20:控制單元
21:編碼器
22:解碼器
23:通訊單元
3:網路
4:外部翻譯裝置
S100、S200、S300、S400、S500:步驟
S310、S320、S330、S410、S420、S430:子步驟
S110、S120、S130、S140、S150、S160、S170、S180、S190:步驟
S1、S2、S3、S4、S5、S6:步驟
第1圖係顯示傳統翻譯方法在多種語言中實現翻譯之示意圖。
第2圖係顯示本案一實施例之一翻譯方法流程圖。
第3圖係顯示以本案之翻譯方法實現二種語言之翻譯之流程方塊圖。
第4圖係顯示以本案之一翻譯方法實現多種語言之翻譯之流程方塊圖。
第5圖係顯示本案之一翻譯方法在多種語言中實現翻譯之示意圖。
第6圖係顯示本案一實施例之一翻譯裝置之架構方塊圖。
第7圖係顯示本案一實施例之一翻譯方法之部分步驟之細部流程圖。
第8圖係顯示本案一實施例之一翻譯方法之部分步驟之細部流程圖。
第9圖係顯示本案一實施例之一翻譯方法之部分步驟之流程圖。
第10圖係顯示本案之一翻譯方法之一編碼器訓練過程之示意圖。
第11圖係顯示本案之一翻譯方法之一解碼器訓練過程之示意圖。
第12圖係顯示本案一實施例之一翻譯方法之部分步驟之流程圖。
第13圖係顯示本案一實施例之一翻譯方法流程圖。
第14圖係顯示本案一實施例之一翻譯方法之一翻譯裝置之架構方塊圖。
第15圖係顯示多個使用者以多個本案之翻譯裝置在一虛擬對話室實現多語言翻譯及會話之示意圖。
體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化,其皆不脫離本案的範圍,且其中的說明及圖示在本質上係當作說明之用,而非架構於限制本案。
請參閱第2圖,其係顯示本案一實施例之一翻譯方法流程圖。如第2圖所示,本案一實施例之翻譯方法係包括步驟如下:首先,如步驟S100所示,提供翻譯裝置。其次,如步驟S200所示,輸入對應第一語言之第一會話聲音。具體而言,第一會話聲音可由一使用第一語言之使用者發出並被翻譯裝置接收。然後,如步驟S300所示,將第一會話聲音轉換為通用語言內容。接著,如步驟S400所示,將通用語言內容轉換為對應第二語言之第二會話聲音。然後,如步驟S500所示,輸出第二會話聲音。藉此,可以將任意的語言轉換為通用語言,再將通用語言轉換為任意的目標語言,進而達到簡單設定並實現多國語言翻譯及對話之功效。
請參閱第3圖,其係顯示以本案之翻譯方法實現二種語言之翻譯之流程方塊圖。如第3圖所示,本案之翻譯方法在實現二種語言之翻譯時,主要是將第一語言內容,例如對應第一語言之第一會話聲音或對應第一語言之第一語言文字,以第一語言編碼器編碼轉換為通用語言內容,再透過第二語言解碼器將通用語言內容解碼轉換為第二語言內容,例如對應第二語言之第二會話聲音或對應第二語言之第二語言文字。在此實施例中,第一語言及第二語言為相異語言,通用語言內容係對應至通用機械語言,且通用語言內容包括通用性特徵以及語意特徵。其中,通用性特徵包括至少第一語言及第二語言之複數個語言特徵,且語意特徵至少部分地對應至第一會話聲音及第二會話聲音之語意,但不以此為限。進一步地,複數個語言特徵包括至少一詞性特徵、至少一意圖特徵、至少一動詞狀態特徵及至少一時間性特徵,但亦不以此為限。
請參閱第4圖及第5圖,其中第4圖係顯示以本案之一翻譯方法實現多種語言之翻譯之流程方塊圖,以及第5圖係顯示本案之一翻譯方法在多種語言中實現翻譯之示意圖。如第4圖及第5圖所示,本案之翻譯方法在實現多種語言之翻譯時,係以第一語言編碼器將第一語言內容編碼轉換為通用語言內容,以第二語言編碼器將第二語言內容編碼轉換為通用語言內容,以第三語言編碼器將第三語言內容編碼轉換為通用語言內容,以及以第四語言編碼器將第四語言內容編碼轉換為通用語言內容。在一些實施例中,通用語言內容包括通用性特徵以及語意特徵。通用性特徵包括第一語言、第二語言、第三語言及第四語言之複數個語言特徵,例如詞性特徵、意圖特徵、動詞狀態特徵及時間性特徵等,且語意特徵至少部分地對應至第一語言內容、第二語言內容、第三語言內容及第四語言內容所對應之語意。當本案之翻譯方法欲將通用語言內容翻譯為第一語言、第二語言、第三語言及第四語言等特定語言時,係以第一語言解碼器將通用語言內容解碼轉換為第一語言內容,以第二語言解碼器將通用語言內容解碼轉換為第二語言內容,以第三語言解碼器將通用語言內容解碼轉換為第三語言內容,以及以第四語言解碼器將通用語言內容解碼轉換為第四語言內容。舉例而言,本案之翻譯方法在實現如第5圖所示之中文、英文、西班牙文及法文之間的多種語言之翻譯時,若假設第一語言為中文,第二語言為英文,第三語言為西班牙文,第四語言為法文,且欲將中文內容如「你好」翻譯為英文內容“Hello”、西班牙文內容“Hola”及法文內容“Bonjour”時,本案之翻譯方法係將中文內容編碼轉換為通用語言內容,即將「你好」轉換為包括通用性特徵以及語意特徵之通用語言,再以英文解碼器、西班牙文解碼器及法文解碼器將通用語言內容解碼轉換為英文內容“Hello”、西班牙文內容“Hola”及法文內容“Bonjour”並輸出。簡單來說,不論來源內容對應之語言為何,本案之翻譯方法
皆可將來源內容編碼轉換為通用語言內容,並以對應特定語言的解碼器產生翻譯後的語言內容並輸出,相對前案而言可有效降低資源消耗並改善記憶體利用。
應特別注意的是,本案之翻譯方法在添加可翻譯的新增語言時,僅須加入一組對應新增語言之編碼器及解碼器,即可將新增語言內容編碼轉換為共通語言內容,以及將共通語言內容解碼轉換為新增語言內容,進而實現新增語言對其他任意語言之翻譯。相較於先前技術,先前技術新增語言時,需要準備新增語言對每一種語言的雙向翻譯器,不僅準備上較為困難,對於記憶體及硬體資源的需求也較高。
請參閱第6圖、第7圖及第8圖,其中第6圖係顯示本案一實施例之一翻譯裝置之架構方塊圖,第7圖係顯示本案一實施例之一翻譯方法之部分步驟之細部流程圖,以及第8圖係顯示本案一實施例之一翻譯方法之部分步驟之細部流程圖。如第6圖至第8圖所示,本案之翻譯方法之步驟S300係包括子步驟S310、子步驟S320及子步驟S330,且步驟S400係包括子步驟S410、子步驟S420及子步驟S430。在子步驟S310中,係以翻譯裝置1之聲音轉換文字模組12將第一會話聲音轉換為第一語言文字。在子步驟S320中,係將第一語言文字輸入至編碼器13。在子步驟S330中,編碼器13將第一語言文字編碼轉換為通用語言內容。在子步驟S410中,係將通用語言內容輸入至解碼器14。在子步驟S420中,解碼器14將通用語言內容解碼轉換為第二語言文字。在子步驟S430中,係以文字轉換聲音模組15將第二語言文字轉換為第二會話聲音。
在一些實施例中,本案之翻譯裝置1包括控制單元10、聲音輸入單元11、聲音轉換文字模組12、編碼器13、解碼器14、文字轉換聲音模組15以及聲音輸出單元16。其中,聲音輸入單元11與控制單元10相連接,用以接收對應第一語言之第一會話聲音。聲音轉換文字模組12與控制單元10相連接,用以將第一會話聲音轉換為第一語言文字。編碼器13與控制單元10相連接,用以將
第一語言文字轉換為通用語言內容。解碼器14與控制單元10相連接,用以將通用語言內容轉換為對應第二語言之第二語言文字。文字轉換聲音模組15與控制單元10相連接,用以將第二語言文字轉換為第二會話聲音。聲音輸出單元16與控制單元10相連接,用以輸出第二會話聲音。其中,聲音輸入單元11可為麥克風,聲音轉換文字模組12可為聲音轉換文字晶片或聲音轉換文字軟體模組,編碼器13可為硬體編碼器或軟體編碼器,解碼器14可為硬體解碼器或軟體解碼器,文字轉換聲音模組15可為文字轉換聲音晶片或文字轉換聲音軟體模組,且聲音輸出單元16可為耳機或喇叭,但不以此為限。
根據本案之構想,在本案之翻譯方法之一實施例中,翻譯裝置係包含有預先訓練之特定語言編碼器及特定語言解碼器,其具體可以機器學習之監督學習方式實現,但不以此為限。請參閱第9圖、第10圖、第11圖及第12圖,其中第9圖係顯示本案一實施例之一翻譯方法之部分步驟之流程圖,第10圖係顯示本案之一翻譯方法之一編碼器訓練過程之示意圖,第11圖係顯示本案之一翻譯方法之一解碼器訓練過程之示意圖,以及第12圖係顯示本案一實施例之一翻譯方法之部分步驟之流程圖。如第9圖至第12圖所示,在本案一實施例之翻譯方法中,在步驟S100及步驟S200之間,係進一步包括步驟S110至步驟S160以及步驟S170至步驟S190,以下將詳細說明。
當本案之翻譯方法之翻譯裝置具有預先訓練好的特定語言編碼器及特定語言解碼器,在步驟S100及步驟S200之間可以執行一種最佳化,或一種基於對抗式網路的深度學習。具體而言,本案之翻譯裝置的訓練流程可以概括性地分類為包括步驟S110至步驟S130之編碼器訓練過程,以及包括步驟S140至步驟S160之解碼器訓練過程。首先,如步驟S110所示,擷取預先訓練完成之特定語言解碼器並固定其參數。接著,如步驟S120所示,接收複數個其他語言編碼器輸出之複數個通用性特徵以及複數個語意特徵並進行翻譯,根據翻譯結
果產生複數個通用性誤差值及複數個語意誤差值,再根據複數個通用性誤差值及複數個語意誤差值調整複數個其他語言編碼器之參數,以使複數個其他語言編碼器輸出之複數個通用性特徵以及複數個語意特徵彼此相近。應特別注意的是,通用性誤差值及語意誤差值代表翻譯過程中的損耗程度,因此越小越好。然後,如步驟S130所示,再次執行步驟S120,並判斷複數個通用性誤差值及複數個語意誤差值之數值相較於前次執行步驟S120產生之複數個通用性誤差值及複數個語意誤差值之數值是否降低。當判斷結果為是,完成一編碼器訓練,且當判斷結果為否,再次執行此步驟S130。在一些實施例中,具體實現前述編碼器訓練的方法例如第10圖所示,對輸入文字分別以各個編碼器進行翻譯,並在通用性誤差值及語意誤差值不再降低時,以解碼器輸出翻譯文字。其次,如步驟S140所示,自複數個其他語言編碼器中選擇一個其他語言編碼器並固定其參數。然後,如步驟S150所示,接收於步驟S140中選擇之其他語言編碼器之語言,並將語言轉換為通用語言,再將通用語言翻譯為複數個其他語言解碼器各別對應之語言,根據翻譯結果計算出複數個翻譯誤差,同時因應複數個翻譯誤差調整對應之複數個其他語言解碼器之參數。當然,亦可如第11圖所示直接將通用語言以各個解碼器分別翻譯為各個語言的翻譯文字並直接輸出,但不以此為限。接著,如步驟S160所示,再次執行步驟S150,並判斷複數個翻譯誤差之數值相較於前次執行步驟S150計算出之複數個翻譯誤差之數值不再降低。當判斷結果為是,完成一解碼器訓練,且當判斷結果為否,再次執行此步驟S160。
在步驟S170中,係再次執行前述之步驟S110至步驟S160,以使各個其他語言編碼器逐漸調整為一致,並訓練出能接收各種語言輸入且對應一特定語言的解碼器。其次,如步驟S180所示,判斷每一次完成編碼器訓練累積的總和通用性誤差值及總和語意誤差值之數值相較於前一次完成編碼器訓練累積的總和通用性誤差值及總和語意誤差值之數值是否降低。當步驟S180之判斷結
果為是,於步驟S180之後係重新執行步驟S170,即再次執行步驟S110至步驟S160;當步驟S180之判斷結果為否,於步驟S180之後係執行步驟S190,完成複數個其他語言編碼器及複數個其他語言解碼器之訓練。換言之,當本案之翻譯方法將複數個其他語言編碼器及複數個其他語言解碼器之間的翻譯損耗降到最低時,即完成對各個其他語言編碼器及其他語言解碼器的訓練。
以下將說明使用者使用本案翻譯方法所提供之翻譯裝置來與其他使用相同翻譯裝置的使用者進行會話的實施例。請參閱第13圖及第14圖,其中第13圖係顯示本案一實施例之一翻譯方法流程圖,以及第14圖係顯示本案一實施例之一翻譯方法之一翻譯裝置之架構方塊圖。如第13圖及第14圖所示,在一實施例中,本案之翻譯方法包括步驟如下:首先,如步驟S1所示,提供翻譯裝置2,其中翻譯裝置2包括對應第一語言之編碼器21及解碼器22,其中編碼器21及解碼器22較佳係與控制單元20相連接,但不以此為限,且編碼器21及解碼器22為對應翻譯裝置之使用者主要使用的特定語言之編碼器及解碼器,於此實施例中特定語言即為第一語言。其次,如步驟S2所示,輸入對應第一語言之第一會話聲音,例如使用者以第一語言講出特定語句。接著,如步驟S3所示,編碼器21將第一會話聲音轉換為通用語言輸出內容。然後,如步驟S4所示,允許翻譯裝置2將通用語言輸出內容輸出,例如透過通訊單元23及網路3輸出,至外部翻譯裝置4,並接收外部翻譯裝置4輸出且轉換自對應第二語言之第二會話聲音之通用語言輸入內容。接著,如步驟S5所示,解碼器22將通用語言輸入內容轉換為對應第一語言之翻譯語音。然後,如步驟S6所示,輸出翻譯語音。在此實施例中,使用者僅須選定一組編碼器21及解碼器22,即可將自身發出之會話聲音透過翻譯裝置2以通用語言輸出內容傳輸至外部翻譯裝置4,並將使用各種語言的使用者所使用的外部翻譯裝置4所發出的共通語言輸入內容翻譯為使用者選定之語言的翻譯語音輸出。
請參閱第15圖,其係顯示多個使用者以多個本案之翻譯裝置在一虛擬對話室實現多語言翻譯及會話之示意圖。在一些實施例中,本案之翻譯方法及翻譯裝置可搭配應用程式,例如一虛擬對話室應用程式。多個使用者可以掃描QR CODE的方式加入虛擬對話室。虛擬對話室主要的功能是可以將共通語言輸出內容及共通語言輸入內容在多個使用者之間傳遞,使用者僅須如前段所述選擇對應自身使用語言之編碼器及解碼器,即可實現與各種語言使用者之即時翻譯及會話,對於運算及記憶體的使用來說,相較先前技術皆有大幅度的改進。
請再參閱第13圖及第15圖。舉例來說,當一主要使用中文之使用者如步驟S1以本案之翻譯裝置進入虛擬對話室,並開始與使用不同語言的其他使用者進行對話時,係如步驟S2所示,輸入對應第一語言之第一會話聲音,例如以中文說出「你好」。接著,如步驟S3所示,翻譯裝置之編碼器將「你好」轉換為通用語言輸出內容。然後,如步驟S4所示,允許翻譯裝置將通用語言輸出內容至外部翻譯裝置,即其他使用不同語言的各使用者所使用的翻譯裝置,並接收外部翻譯裝置輸出且轉換自對應第二語言之第二會話聲音之通用語言輸入內容,例如由英文使用者所說出之“Hello”、西班牙文使用者所說出之“Hola”或法文使用者所說出之“Bonjour”轉換而成的通用語言輸入內容。接著,如步驟S5所示,解碼器將此通用語言輸入內容轉換為對應第一語言之翻譯語音,例如「你好」之翻譯語音。最後則如步驟S6所示,以喇叭或揚聲器輸出「你好」給中文使用者。對於其他語言使用者,亦能透過本案之翻譯裝置以及翻譯方法以相似步驟實現即時且快速的翻譯與即時對談。
綜上所述,本案提供一種翻譯方法及翻譯裝置,藉由將對應第一語言之第一會話聲音轉換為通用語言內容,再將通用語言內容轉換為對應第二語言之第二會話聲音並輸出,可以將任意的語言轉換為通用語言,再將通用語
言轉換為任意的目標語言,進而達到簡單設定並實現多國語言翻譯及對話之功效。此外,透過通用語言內容之通用性特徵及語意特徵對多種語言的共通性描述,使用不同語言的多個使用者以多個翻譯裝置進行對話時,各個翻譯裝置僅需具備對應自身語言的一組編碼器及解碼器,即可實現多國語言翻譯及對話。不僅能大幅降低資源消耗,更可有效改善記憶體利用。
縱使本發明已由上述之實施例詳細敘述而可由熟悉本技藝之人士任施匠思而為諸般修飾,然皆不脫如附申請專利範圍所欲保護者。
S100、S200、S300、S400、S500:步驟
Claims (6)
- 一種翻譯方法,包括步驟:(a)提供一翻譯裝置,該翻譯裝置至少包括一控制單元、複數個編碼器、及複數個解碼器,其中該複數個編碼器及該複數個解碼器分別與該控制單元連接,且該複數個編碼器及該複數個解碼器係分別對應至不同語言;(b)該翻譯裝置接收對應一第一語言之一第一會話聲音;(c)該翻譯裝置將該第一會話聲音轉換為一通用語言內容;(d)該翻譯裝置將該通用語言內容轉換為對應一第二語言之一第二會話聲音;以及(e)該翻譯裝置輸出該第二會話聲音;其中該翻譯裝置係依下列步驟訓練而成:(a1)擷取該複數個解碼器中預先訓練完成之一特定語言解碼器並固定其參數;(a2)該特定語言解碼器接收該複數個編碼器中非對應該特定語言之複數個其他語言編碼器輸出之複數個通用性特徵以及複數個語意特徵並進行翻譯,該控制單元根據翻譯結果產生複數個通用性誤差值及複數個語意誤差值,再根據該複數個通用性誤差值及該複數個語意誤差值調整該複數個其他語言編碼器之參數,以使該複數個其他語言編碼器輸出之該複數個通用性特徵以及該複數個語意特徵彼此相近;(a3)重複執行該步驟(a2),直到該複數個通用性誤差值及該複數個語意誤差值之數值相較於前次執行該步驟(a2)產生之該複數個通用性誤差值及該複數個語意誤差值之數值不再降低,即完成一次編碼器訓練; (a4)自該複數個其他語言編碼器中選擇一其他語言編碼器並固定其參數,其中該其他語言編碼器係用以對一所選語言進行編碼;(a5)該其他語言編碼器接收相對應之一語言,並將該語言轉換為一通用語言,該複數個解碼器中非對應該所選語言之複數個其他語言解碼器將該通用語言翻譯為各別對應之語言,該控制單元根據翻譯結果計算出複數個翻譯誤差,同時因應該複數個翻譯誤差調整對應之該複數個其他語言解碼器之參數;(a6)重複執行該步驟(a5),直到該複數個翻譯誤差之數值相較於前次執行該步驟(a5)計算出之該複數個翻譯誤差之數值不再降低,即完成一次解碼器訓練;以及(a7)重複執行該步驟(a1)至該步驟(a6)直到每一次完成編碼器訓練累積的一總和通用性誤差值及一總和語意誤差值之數值相較於前一次完成編碼器訓練累積的該總和通用性誤差值及該總和語意誤差值之數值不再降低,即完成該複數個其他語言編碼器及該複數個其他語言解碼器之訓練。
- 如請求項1所述之翻譯方法,其中該步驟(c)包括子步驟:(c1)以一聲音轉換文字模組將該第一會話聲音轉換為一第一語言文字;(c2)該複數個編碼器的其中一編碼器接收該第一語言文字;以及(c3)該編碼器將該第一語言文字編碼轉換為該通用語言內容。
- 如請求項2所述之翻譯方法,其中該步驟(d)包括子步驟:(d1)該複數個解碼器的其中一解碼器接收該通用語言內容;(d2)該解碼器將該通用語言內容解碼轉換為一第二語言文字;以及(d3)以一文字轉換聲音模組將該第二語言文字轉換為該第二會話聲音。
- 如請求項1所述之翻譯方法,其中該第一語言及該第二語言為相異語言,該通用語言內容係對應至一通用機械語言,該通用語言內容包括該 通用性特徵以及該語意特徵,該通用性特徵包括至少該第一語言及該第二語言之複數個語言特徵,且該語意特徵至少部分地對應至該第一會話聲音及該第二會話聲音之語意。
- 如請求項4所述之翻譯方法,其中該複數個語言特徵包括至少一詞性特徵、至少一意圖特徵、至少一動詞狀態特徵及至少一時間性特徵。
- 如請求項1所述之翻譯方法,其中該翻譯裝置更包括一通訊單元,以與一外部翻譯裝置進行通訊,且該翻譯裝置進一步執行下列步驟:該複數個編碼器中對應該第一語言的一編碼器接收該第一會話聲音;該編碼器將該第一會話聲音轉換為一通用語言輸出內容;該翻譯裝置透過該通訊單元將該通用語言輸出內容輸出至該外部翻譯裝置,並接收該外部翻譯裝置輸出且轉換自對應該第二語言之該第二會話聲音之一通用語言輸入內容;該複數個解碼器中對應該第二語言的一解碼器將該通用語言輸入內容轉換為對應該第一語言之一翻譯語音;以及該翻譯裝置輸出該翻譯語音。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110118893A TWI760234B (zh) | 2021-05-25 | 2021-05-25 | 翻譯方法 |
JP2021112897A JP7267346B2 (ja) | 2021-05-25 | 2021-07-07 | 翻訳方法及び翻訳装置 |
US17/392,043 US11783137B2 (en) | 2021-05-25 | 2021-08-02 | Translation method and translation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110118893A TWI760234B (zh) | 2021-05-25 | 2021-05-25 | 翻譯方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI760234B true TWI760234B (zh) | 2022-04-01 |
TW202247139A TW202247139A (zh) | 2022-12-01 |
Family
ID=82198755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110118893A TWI760234B (zh) | 2021-05-25 | 2021-05-25 | 翻譯方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11783137B2 (zh) |
JP (1) | JP7267346B2 (zh) |
TW (1) | TWI760234B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959447A (zh) * | 2022-11-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 语音转换模型的训练方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200801988A (en) * | 2006-06-08 | 2008-01-01 | George Ko | Concurrent multilingual translation system |
TW201007483A (en) * | 2008-08-05 | 2010-02-16 | Inventec Corp | Multi-language translation system and method |
TW201020814A (en) * | 2008-11-18 | 2010-06-01 | Inventec Corp | Real-time translation system with auto-detecting multi-language and method thereof |
TWM565821U (zh) * | 2018-03-23 | 2018-08-21 | 中國科技大學 | 智慧即時翻譯裝置 |
TWI685759B (zh) * | 2018-08-31 | 2020-02-21 | 愛酷智能科技股份有限公司 | 智能學習語詞編修與多國語言互譯的系統與方法 |
US20210034335A1 (en) * | 2019-08-01 | 2021-02-04 | Microsoft Technology Licensing, Llc. | Multi-lingual line-of-code completion system |
US20210042475A1 (en) * | 2019-08-07 | 2021-02-11 | Yappn Canada Inc. | System and method for language translation |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105763424B (zh) | 2016-03-22 | 2019-05-07 | 网易有道信息技术(北京)有限公司 | 一种文字信息处理方法和装置 |
CN107145589B (zh) | 2017-05-12 | 2020-09-29 | 网易有道信息技术(北京)有限公司 | 一种词语训练控制方法、介质、装置和计算设备 |
KR102199067B1 (ko) | 2018-01-11 | 2021-01-06 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 방법 |
JP6995698B2 (ja) * | 2018-06-04 | 2022-01-17 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
US11138392B2 (en) * | 2018-07-26 | 2021-10-05 | Google Llc | Machine translation using neural network models |
CN109582982A (zh) * | 2018-12-17 | 2019-04-05 | 北京百度网讯科技有限公司 | 用于翻译语音的方法和装置 |
WO2020146873A1 (en) | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
CN109523989B (zh) | 2019-01-29 | 2022-01-11 | 网易有道信息技术(北京)有限公司 | 语音合成方法、语音合成装置、存储介质及电子设备 |
CN111369980B (zh) | 2020-02-27 | 2023-06-02 | 网易有道信息技术(江苏)有限公司 | 语音检测方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-25 TW TW110118893A patent/TWI760234B/zh active
- 2021-07-07 JP JP2021112897A patent/JP7267346B2/ja active Active
- 2021-08-02 US US17/392,043 patent/US11783137B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200801988A (en) * | 2006-06-08 | 2008-01-01 | George Ko | Concurrent multilingual translation system |
TW201007483A (en) * | 2008-08-05 | 2010-02-16 | Inventec Corp | Multi-language translation system and method |
TW201020814A (en) * | 2008-11-18 | 2010-06-01 | Inventec Corp | Real-time translation system with auto-detecting multi-language and method thereof |
TWM565821U (zh) * | 2018-03-23 | 2018-08-21 | 中國科技大學 | 智慧即時翻譯裝置 |
TWI685759B (zh) * | 2018-08-31 | 2020-02-21 | 愛酷智能科技股份有限公司 | 智能學習語詞編修與多國語言互譯的系統與方法 |
US20210034335A1 (en) * | 2019-08-01 | 2021-02-04 | Microsoft Technology Licensing, Llc. | Multi-lingual line-of-code completion system |
US20210042475A1 (en) * | 2019-08-07 | 2021-02-11 | Yappn Canada Inc. | System and method for language translation |
Also Published As
Publication number | Publication date |
---|---|
US11783137B2 (en) | 2023-10-10 |
JP7267346B2 (ja) | 2023-05-01 |
TW202247139A (zh) | 2022-12-01 |
JP2022181151A (ja) | 2022-12-07 |
US20220382998A1 (en) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20030115059A1 (en) | Real time translator and method of performing real time translation of a plurality of spoken languages | |
Lam | A Complex ForceP for Speaker-and Addressee-oriented Discourse Particles in Cantonese. | |
CA2510663A1 (en) | A real time translator and method of performing real time translation of a plurality of spoken word languages | |
US9009042B1 (en) | Machine translation of indirect speech | |
WO2019111346A1 (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
US20090144048A1 (en) | Method and device for instant translation | |
WO2013189342A2 (zh) | 一种信息处理方法和移动终端 | |
TWI760234B (zh) | 翻譯方法 | |
CN113488026B (zh) | 基于语用信息的语音理解模型生成方法和智能语音交互方法 | |
JP2017120616A (ja) | 機械翻訳方法、及び、機械翻訳システム | |
KR20110080096A (ko) | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 | |
Xie et al. | Mini-omni: Language models can hear, talk while thinking in streaming | |
JPH07129594A (ja) | 自動通訳システム | |
KR20140079543A (ko) | 자동 통번역 장치 | |
TWI594136B (zh) | 一種通過語音對機器人進行訓練的系統及方法 | |
JP2005004716A (ja) | 異言語間対話処理方法およびその装置、ならびにそのプログラムと記録媒体 | |
KR20190046124A (ko) | 문맥 정보에 기반한 실시간 자동통역 방법 및 장치 | |
WO2021218750A1 (en) | System and method for translating sign language | |
US20170185587A1 (en) | Machine translation method and machine translation system | |
JP2017182395A (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
TWI765437B (zh) | 中文文字轉譯成台文或台語拼音之系統、方法及電腦可讀媒介 | |
Enam et al. | Infinite Lingos: A Straightforward Methodology for Speech Translation | |
Raheem et al. | Real-time speech recognition of arabic language | |
JP2008158642A (ja) | 言語翻訳方法、言語翻訳装置、言語翻訳プログラム、および言語翻訳プログラムを記録した記録媒体 | |
JP2004355226A (ja) | 異言語間対話装置および異言語間対話方法 |