神武八荒一颗小说,欢乐颂第三季

語言行業(yè)AI的新趨勢

2023-03-23

近年來，人工智能取得了令人難以置信的進步，自2022年底OpenAI的ChatGPT發(fā)布以來，成為每個行業(yè)的話題。

在語言服務行業(yè)內(nèi)，人工智能的使用當然不是什么新鮮事，但它卻在繼續(xù)塑造這個行業(yè)。由于MT和合成語音質(zhì)量的進步（以前被認為是不合格的、不準備使用的技術(shù)）現(xiàn)在正走出陰影，呈現(xiàn)出新的用例和機會。這是一個我們可以預期會加速的趨勢。

本文概述了企業(yè)和相關(guān)人士都應注意的語言服務行業(yè)的人工智能趨勢。

機器生成的現(xiàn)場字幕：召開（虛擬）會議的新主力軍？

實時字幕是一項自視頻會議激增以來得到發(fā)展的服務，這一領(lǐng)域的技術(shù)已經(jīng)取得進步。

從本質(zhì)上講，現(xiàn)場字幕服務涉及將口語內(nèi)容以轉(zhuǎn)換為多種語言的書面內(nèi)容。實時字幕可用于在線會議以及現(xiàn)場廣播、現(xiàn)場活動，并使廣播內(nèi)容可以在線獲取。目前有三種主要方式可以生成實時字幕：
    1.一位譯員實時打出字幕。
    2. 使用語音轉(zhuǎn)文字技術(shù)和機器翻譯生成初始字幕，然后由譯員實時編輯輸出結(jié)果。
    3. 字幕由機器生成，沒有人工干預。

雖然第一種選擇是傳統(tǒng)的方式，但它也越來越成為一種罕見的現(xiàn)象。即使是現(xiàn)場直播，為了提高速度和效率，人工和機器的混合也正在成為常態(tài)。自從Zoom火爆以來，由于需求的增加和MT技術(shù)的進步，純機器生成的現(xiàn)場字幕的使用已經(jīng)增加。

這一趨勢值得注意的是，與更廣泛的多語言會議空間類似，現(xiàn)場字幕服務的提供商來自行業(yè)的不同方面。
    • 媒體本地化供應商在更廣泛意義上的字幕領(lǐng)域經(jīng)驗豐富。
    • 正在將其技術(shù)融入會議和活動空間的機器翻譯供應商。
    • 希望為其現(xiàn)有客戶提供更強大的服務組合，同時也能接觸到預算較少的客戶的RSI供應商。
    • 來自行業(yè)外的技術(shù)公司以及視頻會議巨頭，如Zoom、MS Teams和Webex，他們都在其平臺上添加了自己的文本到語音翻譯功能。

換句話說，隨著人工智能的進步，我們開始看到過去很長一段時間內(nèi)相當獨立的行業(yè)部門之間的交叉。

AI配音

配音是媒體本地化行業(yè)中的主要服務之一，到目前為止，由配音演員來完成。然而，人工智能配音的新發(fā)展可能會改變這一局面。

合成語音技術(shù)的發(fā)展已經(jīng)有了很大的進步。一些合成語音現(xiàn)在聽起來與人類的聲音驚人地相似，使人很難將它們與實際的人類語言區(qū)分開來。新的技術(shù)創(chuàng)新使合成語音能夠模仿原始說話者的語氣和舉止。

盡管目前還不適用于娛樂目的，但人工智能配音的當前用例范圍從國際廣播到紀錄片和企業(yè)視頻的配音。此外，在接受Nimdzi 100采訪時，一些媒體和游戲本地化服務提供商報告稱，他們正在探索以下用例：
    • 次要角色：人工智能配音可能用于次要角色，要么以合成的方式，要么以一個配音演員說出所有次要角色的方式，聲音被合成改變，每次聽起來都不同。
    • 背景喧囂：在游戲中，當玩家仍然需要理解背景信息，但娛樂因素不那么重要時，人工智能配音可以用于背景喧囂。
    • 分層：一些LSP提到，他們正在考慮向客戶提供不同的等級，這取決于不同類型的制作和預算可能需要的配音質(zhì)量。
    • 通過人工智能改變聲音。
    — 兒童演員有可能由年長的演員進行配音，然后利用人工智能將聲音改變成年輕的聲音，這將是效率的一大提高。
    — 在許多傳統(tǒng)的配音國家，特定的配音演員被分配給屏幕上的演員（總是同一個聲音）。但如果這些配音演員突然太忙或退休怎么辦？人工智能可能會給這樣的配音演員帶來機會，讓他們出售自己的聲音，也就是說，由別人來做實際的配音工作，然后在之后人為地改變聲音。
    • 語音描述（AD）：語音描述是一項尚未在所有市場提供的服務，在有語音描述的國家，大多數(shù)的語音描述服務是以英語提供的?？紤]到AD通常需要比表演更中立的敘述，使用人工智能可能是以預算友好的方式將AD帶到更多市場的方法之一。

合成語音應用和人工智能的發(fā)展已經(jīng)引起了商業(yè)界的關(guān)注。盡管對這項技術(shù)的探索還在進行中，但重要的是，人工智能配音的想法已經(jīng)從被拒絕過渡到被主要媒體本地化參與者積極研究和考慮。

機器翻譯 - 迅速崛起

這不是我們第一次報道人工智能，但它仍然是一個熱門話題，因為人工智能以如此快的速度發(fā)展。

但是，讓我們首先澄清一下，當我們談論MI時，我們到底是什么意思。MI是使用人工智能將一種語言的口語信息傳輸?shù)搅硪环N語言的口語信息中。MI，也可以稱為語音翻譯（S2ST），使用自動語音識別（ASR），然后是人工智能轉(zhuǎn)錄，機器翻譯，最后是合成語音，以目標語言說出信息。這種所謂的級聯(lián)模式是迄今為止市場上所有MI解決方案的基礎(chǔ)。

目前有哪些MI解決方案？

MI技術(shù)可以大致分為兩類：針對個人的技術(shù)和針對企業(yè)的技術(shù)。

針對個人的解決方案以手持設(shè)備的形式出現(xiàn)，如Cheetah Talk、ili Handheld Translator和Vasco Translator，或作為應用程序出現(xiàn)。移動設(shè)備的解決方案，如Skype Translator和iTranslate Voice App。另一種流行的MI硬件形式是耳塞。Timekettles的WT2 Plus是這種技術(shù)的一個好例子，谷歌Pixel Buds也是如此。

對于企業(yè)來說，應用程序形式的MI軟件使用廣泛，而且越來越受歡迎。這種類型的MI工具被用來翻譯會議、大會、大型活動（包括在線和現(xiàn)場）或其他在線口語互動，如在線課程。在會議和活動領(lǐng)域，Wordly是目前市場上知名的解決方案。例如，其他值得注意的解決方案包括來自GTCOM和XL8的解決方案。請關(guān)注這個領(lǐng)域。

直到最近，大多數(shù)MI解決方案針對個人消費者（如游客）特別是在亞洲市場。它們被設(shè)計為促進簡單的雙向交流。然而，MI正越來越多地進入多語言在線會議領(lǐng)域，這在傳統(tǒng)上是人類會議口譯員的領(lǐng)域。這種轉(zhuǎn)變有兩個主要原因；第一個是疫情引起的，第二個是技術(shù)原因。疫情開創(chuàng)了一個虛擬會議的新時代，推動了對在線多語言的需求。同時，這一領(lǐng)域的技術(shù)也取得了重大飛躍，特別是得益于機器生成的現(xiàn)場字幕的進步。

這種需求的增加和質(zhì)量的大幅提高相結(jié)合，導致更多的公司投資于語音轉(zhuǎn)語音技術(shù)和新的解決方案在市場上不斷涌現(xiàn)。這一發(fā)展不僅適用于口譯領(lǐng)域，也適用于媒體本地化領(lǐng)域，在該領(lǐng)域，人工智能配音正在出現(xiàn)，一些解決方案甚至可以在合成版本中保留原演員的聲音（見關(guān)于人工智能配音的部分）。當涉及到人工智能時，我們最終將見證媒體和口譯領(lǐng)域的融合，這不是不可能的。

另一個值得注意的發(fā)展是，RSI供應商開始進入這一領(lǐng)域。2023年1月，KUDO是第一個RSI平臺，以發(fā)布自己的MI功能。這一發(fā)展使該公司可以做到以下兩點：
1. 一方面，可以接觸到更大的客戶群，另一方面，也可以接觸到那些預算較小的客戶，而對于這些客戶而言，RSI服務過于昂貴。
2. 在與視頻會議巨頭（如Zoom、MS Teams和Webex）競爭時保持競爭力，這些巨頭除了封閉式字幕和機器生成的現(xiàn)場字幕外，還增加了自己的RSI功能。至少現(xiàn)在，這些大平臺都沒有自己的MI功能，盡管Zoom有一個Wordly的附加功能。

ChatGPT

OpenAI的GPT-3（生成預訓練轉(zhuǎn)換器3）變體，稱為ChatGPT，最近風頭正勁。有理由支持這種現(xiàn)象——技術(shù)已經(jīng)發(fā)展了很長一段時間，有些人將其視為AI的一個轉(zhuǎn)折點。對于那些不了解的人，這里簡要介紹一下：GPT-3使用公共數(shù)據(jù)進行訓練，并應用機器學習技術(shù)，僅需要較少的輸入即可執(zhí)行多種按需任務，包括：
    • 常用語言的翻譯
    • 歸納文本
    • 寫文章、詩歌、故事、科學論文等
    • 回答問題

ChatGPT是GPT-3的新變體。除了上述任務外，ChatGPT還可以。
    • 編寫和糾正代碼
    • 用于聊天機器人和虛擬助手
    • 生成對話文本
    • 解釋復雜的主題
    • 可以針對各種語言任務進行微調(diào)/定制化

為什么ChatGPT相比其他已經(jīng)存在的技術(shù)有可能是一個改變游戲規(guī)則的潛在因素？有兩個主要原因：
• 1）ChatGPT的結(jié)果質(zhì)量高，聽起來逼真。
• 2）ChatGPT的潛在應用廣泛，因為它是開放使用的！

盡管ChatGPT并非沒有局限性，也絕非事實上的真相來源，但它已經(jīng)改變了游戲規(guī)則，因為它使人們能以更快的速度完成更多工作。這項技術(shù)能在多大程度上被使用（例如需要多少編輯和事實核查），以及它是否會真正成為一些人炒作的“谷歌殺手”，還有待觀察。

在語言行業(yè)中，人們正在談論ChatGPT并嘗試弄清它將如何影響他們。雖然現(xiàn)在還為時過早，但像GPT-3這樣的大型語言模型（LLM）被嵌入到翻譯過程的不同步驟中也不是沒有可能。已經(jīng)證明它是在內(nèi)容創(chuàng)作過程中解決寫作障礙或快速處理演示文稿和演講腳本的有用工具。雖然它不全是單語言的，但目前在英語方面表現(xiàn)較佳。已確定的其他用例包括：
• 增強型MT：沒有性別偏見，調(diào)整形式。
• TMS集成：自動術(shù)語提取、QA、評分等。

現(xiàn)在，有很多的炒作，無論你從哪個角度看，ChatGPT已經(jīng)成為一個游戲規(guī)則的改變者。然而，從長遠來看，這是否意味著該技術(shù)將成為真正的顛覆者，影響我們的日常生活以及語言行業(yè)的工作流程，這一點相當值得懷疑，但現(xiàn)在說這些還為時尚早。

貝納托定理

這種現(xiàn)象表現(xiàn)為新技術(shù)的引入造成了對淘汰或行業(yè)消亡的新恐懼。

這是一個普遍的原則，人們傾向于采用新的恐懼，如對未來的焦慮或?qū)^時的恐懼，在他們能夠克服以前的恐懼之前，這些恐懼最終會消逝在潛意識里。

在語言行業(yè)中，這種現(xiàn)象表現(xiàn)為新技術(shù)的引入造成了新的擔心，擔心行業(yè)會被淘汰或消亡。然而，隨著時間的推移和新技術(shù)的出現(xiàn)，這個行業(yè)開始克服這些恐懼，它們最終被歸入潛意識。這種循環(huán)反復出現(xiàn)，因為每項新技術(shù)都會帶來新的恐懼，只是隨著行業(yè)的調(diào)整、前進和不斷發(fā)展而被克服。

貝納托定理和阿馬拉定律為理解像ChatGPT這樣的新技術(shù)對語言行業(yè)的影響提供了一個框架。阿馬拉定律強調(diào)，我們往往高估了一項技術(shù)的短期影響，而低估了其長期影響。通過考慮這兩個原則，我們可以更加了解ChatGPT和其他人工智能語言模型將如何塑造這個行業(yè)的未來。

關(guān)于我們

質(zhì)量管理

服務

解決方案

行業(yè)洞見

語言行業(yè)AI的新趨勢

機器生成的現(xiàn)場字幕：召開（虛擬）會議的新主力軍？

AI配音

機器翻譯 - 迅速崛起

ChatGPT

貝納托定理

關(guān)于我們

服務項目

行業(yè)解決方案

翻譯質(zhì)量

資源中心

關(guān)注我們

上海

南京

關(guān)于我們

質(zhì)量管理

服務

解決方案

行業(yè)洞見

語言行業(yè)AI的新趨勢

機器生成的現(xiàn)場字幕：召開（虛擬）會議的新主力軍？

AI配音

機器翻譯 - 迅速崛起

ChatGPT

貝納托定理

相關(guān)閱讀

關(guān)于我們

服務項目

行業(yè)解決方案

翻譯質(zhì)量

資源中心

關(guān)注我們

上海

南京