語言行業(yè)AI的新趨勢
近年來,人工智能取得了令人難以置信的進步,自2022年底OpenAI的ChatGPT發(fā)布以來,成為每個行業(yè)的話題。
在語言服務行業(yè)內(nèi),人工智能的使用當然不是什么新鮮事,但它卻在繼續(xù)塑造這個行業(yè)。由于MT和合成語音質(zhì)量的進步(以前被認為是不合格的、不準備使用的技術(shù))現(xiàn)在正走出陰影,呈現(xiàn)出新的用例和機會。這是一個我們可以預期會加速的趨勢。
本文概述了企業(yè)和相關(guān)人士都應注意的語言服務行業(yè)的人工智能趨勢。
機器生成的現(xiàn)場字幕:召開(虛擬)會議的新主力軍?
實時字幕是一項自視頻會議激增以來得到發(fā)展的服務,這一領(lǐng)域的技術(shù)已經(jīng)取得進步。
從本質(zhì)上講,現(xiàn)場字幕服務涉及將口語內(nèi)容以轉(zhuǎn)換為多種語言的書面內(nèi)容。實時字幕可用于在線會議以及現(xiàn)場廣播、現(xiàn)場活動,并使廣播內(nèi)容可以在線獲取。目前有三種主要方式可以生成實時字幕:
1.一位譯員實時打出字幕。
2. 使用語音轉(zhuǎn)文字技術(shù)和機器翻譯生成初始字幕,然后由譯員實時編輯輸出結(jié)果。
3. 字幕由機器生成,沒有人工干預。
雖然第一種選擇是傳統(tǒng)的方式,但它也越來越成為一種罕見的現(xiàn)象。即使是現(xiàn)場直播,為了提高速度和效率,人工和機器的混合也正在成為常態(tài)。自從Zoom火爆以來,由于需求的增加和MT技術(shù)的進步,純機器生成的現(xiàn)場字幕的使用已經(jīng)增加。
這一趨勢值得注意的是,與更廣泛的多語言會議空間類似,現(xiàn)場字幕服務的提供商來自行業(yè)的不同方面。
• 媒體本地化供應商在更廣泛意義上的字幕領(lǐng)域經(jīng)驗豐富。
• 正在將其技術(shù)融入會議和活動空間的機器翻譯供應商。
• 希望為其現(xiàn)有客戶提供更強大的服務組合,同時也能接觸到預算較少的客戶的RSI供應商。
• 來自行業(yè)外的技術(shù)公司以及視頻會議巨頭,如Zoom、MS Teams和Webex,他們都在其平臺上添加了自己的文本到語音翻譯功能。
換句話說,隨著人工智能的進步,我們開始看到過去很長一段時間內(nèi)相當獨立的行業(yè)部門之間的交叉。
AI配音
配音是媒體本地化行業(yè)中的主要服務之一,到目前為止,由配音演員來完成。然而,人工智能配音的新發(fā)展可能會改變這一局面。
合成語音技術(shù)的發(fā)展已經(jīng)有了很大的進步。一些合成語音現(xiàn)在聽起來與人類的聲音驚人地相似,使人很難將它們與實際的人類語言區(qū)分開來。新的技術(shù)創(chuàng)新使合成語音能夠模仿原始說話者的語氣和舉止。
盡管目前還不適用于娛樂目的,但人工智能配音的當前用例范圍從國際廣播到紀錄片和企業(yè)視頻的配音。此外,在接受Nimdzi 100采訪時,一些媒體和游戲本地化服務提供商報告稱,他們正在探索以下用例:
• 次要角色:人工智能配音可能用于次要角色,要么以合成的方式,要么以一個配音演員說出所有次要角色的方式,聲音被合成改變,每次聽起來都不同。
• 背景喧囂:在游戲中,當玩家仍然需要理解背景信息,但娛樂因素不那么重要時,人工智能配音可以用于背景喧囂。
• 分層:一些LSP提到,他們正在考慮向客戶提供不同的等級,這取決于不同類型的制作和預算可能需要的配音質(zhì)量。
• 通過人工智能改變聲音。
— 兒童演員有可能由年長的演員進行配音,然后利用人工智能將聲音改變成年輕的聲音,這將是效率的一大提高。
— 在許多傳統(tǒng)的配音國家,特定的配音演員被分配給屏幕上的演員(總是同一個聲音)。但如果這些配音演員突然太忙或退休怎么辦?人工智能可能會給這樣的配音演員帶來機會,讓他們出售自己的聲音,也就是說,由別人來做實際的配音工作,然后在之后人為地改變聲音。
• 語音描述(AD):語音描述是一項尚未在所有市場提供的服務,在有語音描述的國家,大多數(shù)的語音描述服務是以英語提供的??紤]到AD通常需要比表演更中立的敘述,使用人工智能可能是以預算友好的方式將AD帶到更多市場的方法之一。
合成語音應用和人工智能的發(fā)展已經(jīng)引起了商業(yè)界的關(guān)注。盡管對這項技術(shù)的探索還在進行中,但重要的是,人工智能配音的想法已經(jīng)從被拒絕過渡到被主要媒體本地化參與者積極研究和考慮。
機器翻譯 - 迅速崛起
這不是我們第一次報道人工智能,但它仍然是一個熱門話題,因為人工智能以如此快的速度發(fā)展。
但是,讓我們首先澄清一下,當我們談論MI時,我們到底是什么意思。MI是使用人工智能將一種語言的口語信息傳輸?shù)搅硪环N語言的口語信息中。MI,也可以稱為語音翻譯(S2ST),使用自動語音識別(ASR),然后是人工智能轉(zhuǎn)錄,機器翻譯,最后是合成語音,以目標語言說出信息。這種所謂的級聯(lián)模式是迄今為止市場上所有MI解決方案的基礎(chǔ)。
目前有哪些MI解決方案?
MI技術(shù)可以大致分為兩類:針對個人的技術(shù)和針對企業(yè)的技術(shù)。
針對個人的解決方案以手持設(shè)備的形式出現(xiàn),如Cheetah Talk、ili Handheld Translator和Vasco Translator,或作為應用程序出現(xiàn)。移動設(shè)備的解決方案,如Skype Translator和iTranslate Voice App。另一種流行的MI硬件形式是耳塞。Timekettles的WT2 Plus是這種技術(shù)的一個好例子,谷歌Pixel Buds也是如此。
對于企業(yè)來說,應用程序形式的MI軟件使用廣泛,而且越來越受歡迎。這種類型的MI工具被用來翻譯會議、大會、大型活動(包括在線和現(xiàn)場)或其他在線口語互動,如在線課程。在會議和活動領(lǐng)域,Wordly是目前市場上知名的解決方案。例如,其他值得注意的解決方案包括來自GTCOM和XL8的解決方案。請關(guān)注這個領(lǐng)域。
直到最近,大多數(shù)MI解決方案針對個人消費者(如游客)特別是在亞洲市場。它們被設(shè)計為促進簡單的雙向交流。然而,MI正越來越多地進入多語言在線會議領(lǐng)域,這在傳統(tǒng)上是人類會議口譯員的領(lǐng)域。這種轉(zhuǎn)變有兩個主要原因;第一個是疫情引起的,第二個是技術(shù)原因。疫情開創(chuàng)了一個虛擬會議的新時代,推動了對在線多語言的需求。同時,這一領(lǐng)域的技術(shù)也取得了重大飛躍,特別是得益于機器生成的現(xiàn)場字幕的進步。
這種需求的增加和質(zhì)量的大幅提高相結(jié)合,導致更多的公司投資于語音轉(zhuǎn)語音技術(shù)和新的解決方案在市場上不斷涌現(xiàn)。這一發(fā)展不僅適用于口譯領(lǐng)域,也適用于媒體本地化領(lǐng)域,在該領(lǐng)域,人工智能配音正在出現(xiàn),一些解決方案甚至可以在合成版本中保留原演員的聲音(見關(guān)于人工智能配音的部分)。當涉及到人工智能時,我們最終將見證媒體和口譯領(lǐng)域的融合,這不是不可能的。
另一個值得注意的發(fā)展是,RSI供應商開始進入這一領(lǐng)域。2023年1月,KUDO是第一個RSI平臺,以發(fā)布自己的MI功能。這一發(fā)展使該公司可以做到以下兩點:
1. 一方面,可以接觸到更大的客戶群,另一方面,也可以接觸到那些預算較小的客戶,而對于這些客戶而言,RSI服務過于昂貴。
2. 在與視頻會議巨頭(如Zoom、MS Teams和Webex)競爭時保持競爭力,這些巨頭除了封閉式字幕和機器生成的現(xiàn)場字幕外,還增加了自己的RSI功能。至少現(xiàn)在,這些大平臺都沒有自己的MI功能,盡管Zoom有一個Wordly的附加功能。
ChatGPT
OpenAI的GPT-3(生成預訓練轉(zhuǎn)換器3)變體,稱為ChatGPT,最近風頭正勁。有理由支持這種現(xiàn)象——技術(shù)已經(jīng)發(fā)展了很長一段時間,有些人將其視為AI的一個轉(zhuǎn)折點。對于那些不了解的人,這里簡要介紹一下:GPT-3使用公共數(shù)據(jù)進行訓練,并應用機器學習技術(shù),僅需要較少的輸入即可執(zhí)行多種按需任務,包括:
• 常用語言的翻譯
• 歸納文本
• 寫文章、詩歌、故事、科學論文等
• 回答問題
ChatGPT是GPT-3的新變體。除了上述任務外,ChatGPT還可以。
• 編寫和糾正代碼
• 用于聊天機器人和虛擬助手
• 生成對話文本
• 解釋復雜的主題
• 可以針對各種語言任務進行微調(diào)/定制化
為什么ChatGPT相比其他已經(jīng)存在的技術(shù)有可能是一個改變游戲規(guī)則的潛在因素?有兩個主要原因:
• 1)ChatGPT的結(jié)果質(zhì)量高,聽起來逼真。
• 2)ChatGPT的潛在應用廣泛,因為它是開放使用的!
盡管ChatGPT并非沒有局限性,也絕非事實上的真相來源,但它已經(jīng)改變了游戲規(guī)則,因為它使人們能以更快的速度完成更多工作。這項技術(shù)能在多大程度上被使用(例如需要多少編輯和事實核查),以及它是否會真正成為一些人炒作的“谷歌殺手”,還有待觀察。
在語言行業(yè)中,人們正在談論ChatGPT并嘗試弄清它將如何影響他們。雖然現(xiàn)在還為時過早,但像GPT-3這樣的大型語言模型(LLM)被嵌入到翻譯過程的不同步驟中也不是沒有可能。已經(jīng)證明它是在內(nèi)容創(chuàng)作過程中解決寫作障礙或快速處理演示文稿和演講腳本的有用工具。雖然它不全是單語言的,但目前在英語方面表現(xiàn)較佳。已確定的其他用例包括:
• 增強型MT:沒有性別偏見,調(diào)整形式。
• TMS集成:自動術(shù)語提取、QA、評分等。
現(xiàn)在,有很多的炒作,無論你從哪個角度看,ChatGPT已經(jīng)成為一個游戲規(guī)則的改變者。然而,從長遠來看,這是否意味著該技術(shù)將成為真正的顛覆者,影響我們的日常生活以及語言行業(yè)的工作流程,這一點相當值得懷疑,但現(xiàn)在說這些還為時尚早。
貝納托定理
這種現(xiàn)象表現(xiàn)為新技術(shù)的引入造成了對淘汰或行業(yè)消亡的新恐懼。
這是一個普遍的原則,人們傾向于采用新的恐懼,如對未來的焦慮或?qū)^時的恐懼,在他們能夠克服以前的恐懼之前,這些恐懼最終會消逝在潛意識里。
在語言行業(yè)中,這種現(xiàn)象表現(xiàn)為新技術(shù)的引入造成了新的擔心,擔心行業(yè)會被淘汰或消亡。然而,隨著時間的推移和新技術(shù)的出現(xiàn),這個行業(yè)開始克服這些恐懼,它們最終被歸入潛意識。這種循環(huán)反復出現(xiàn),因為每項新技術(shù)都會帶來新的恐懼,只是隨著行業(yè)的調(diào)整、前進和不斷發(fā)展而被克服。
貝納托定理和阿馬拉定律為理解像ChatGPT這樣的新技術(shù)對語言行業(yè)的影響提供了一個框架。阿馬拉定律強調(diào),我們往往高估了一項技術(shù)的短期影響,而低估了其長期影響。通過考慮這兩個原則,我們可以更加了解ChatGPT和其他人工智能語言模型將如何塑造這個行業(yè)的未來。