截至12月6日,世界杯無障礙字幕直播間已累計觀看超1800萬,多次占據熱榜前列……但TA帶來的遠不止這些。
“過去覺得世界杯距離我太遠了,熬夜看球卻聽不懂、聽不清只能緊緊盯著屏幕;但今年無障礙字幕直播間一出,似乎一下子就把我骨子里的體育DNA帶動起來了,字幕和畫面同時播放,那感覺說身臨其境也不為過,最重要的是再也不用擔心跟不上、聽不懂了……”
“以前觀看這種節目其實我挺迷茫的,周圍人都在熱烈討論,甚至到精彩處歡呼雀躍,但因為我自己的身體原因,很難融入,脫節帶來的孤獨感一度讓我很沮喪……如今借助無障礙字幕直播間,我又找到了那份可以與朋友快樂同步的體驗!”
無障礙字幕直播間展示
沉浸體驗并與快樂同步,是“無障礙字幕直播間”帶來的驚喜與感動;但對火山引擎來說,做好“無障礙字幕直播間”的技術支持與保障,讓精彩持續,卻是前所未有的挑戰。
攻克口語現象、語速語氣差異化 火山引擎自研端到端流式語音識別系統
“其實語音識別本身就是一種挑戰!足球比賽瞬息萬變,解說下來,很多口語現象不可避免,尤其是自我修正以及語序顛倒,差異化的語速語氣更是司空見慣。如果再碰上一些沒有經過專業訓練的解說嘉賓參與其中,識別的難度就會進一步加碼。為應對這個問題,我們其實思考了很久,最終還是通過自研端到端的流式語音識別系統得到了解決?!被鹕秸Z音團隊表示。
據了解,火山引擎基于RNN-T框架,通過大量訓練數據的積累和持續的算法優化,自研推出端到端的流式語音識別系統,可以有效規避傳統語音識別系統中涉及的大量人工流程,例如依賴專業人員設計各種口音的發聲規則等,大幅度提高口音識別的效果。當然其他中間環節的人工假設也減少了很多,比方說對于猶豫、自我修正、語序顛倒等口語現象的表達,會有更好的建模能力。
混合模型和端到端模型的對比示意圖
據團隊介紹,端到端識別系統的backbone結構(主干網絡結構)對識別效果至關重要,所以火山引擎采用了業界領先的Conformer結構,可以同時對局部信息和全局信息進行建模,識別效果較傳統的CNN、LSTM和DFSMN等結構都有了大幅提升。但隨之而來的Conformer的計算開銷也會增加不少,因此團隊又從模型角度優化了Conformer的訓練和推理耗時,主要包括下采樣、Attention Mask和模型壓縮等方式?!笆紫菴onformer結構的計算復雜度與輸入音頻的長度相關,特別是Attention計算復雜度與n的平方相關,即音頻序列長度越長模型越慢,因此在整個模型的淺層,我們通過增加下采樣來降低模型的序列長度;其次通過Attention Mask的方式約束Attention的范圍;最后通過自研的模型壓縮框架,自動對模型進行裁剪和量化,在降低計算復雜度的同時,效果基本無損。”
除了對識別準確率的要求之外,字幕的上屏速度也對觀賽體驗起到重要影響?;鹕揭嫱ㄟ^在RNN-T訓練過程中,對于每個字的發射延遲增加損失函數,疊加Conformer結構強大的上下文建模能力,發射延遲提升了300-400ms。
“無視”背景噪聲 優化術語識別,品質字幕如此煉成
在過往的很多大型競技比賽中,因為“遭遇”大量背景噪音,例如背景音樂以及現場歡呼聲等,而帶來的識別困擾,被認為是同傳字幕不準的“罪魁禍首”?!百悎錾辖洺霈F的觀眾吶喊聲,特別容易被誤識別為'嗯、啊、哈'的語氣詞;背景音樂和觀眾聲則會降低解說員聲音的清晰度,對識別模型造成了較大挑戰?!被鹕秸Z音團隊提出。
針對上述問題,團隊設計了一整套流程應對優化:首先需要自動化地從足球比賽音頻中提取出這些噪聲片段,通過在模型中顯式地建模噪聲,將噪聲誤出字的比例下降了95%;同時通過數據增強方式提高聲學模型在足球場景下的魯棒性,即在有背景音的情況下也能清晰識別人聲,實現更好的流式字幕效果。
在世界杯這樣的大型賽事中,提高對相關術語的識別效果,提升同傳字幕的專業度往往很關鍵。通常的做法是收集相關場景的語音識別訓練集,但收集的過程耗費時間太長且成本較高;此外面對大量文本語料,如何利用這些純文本來優化領域識別效果,這對于端到端的語音識別是一個業界難題。
“針對足球術語的優化,我們選擇在收集的足球文本語料的基礎上訓練語言模型,通過語言模型干預方式提高模型在足球領域的適配性?!庇捎诙说蕉四P捅旧硪搽[含語言模型信息,直接與外部語言模型進行融合,往往效果不佳。所以團隊根據RNN-T的建模方式,通過解耦聲學模型和語言模型,顯式建模內部語言模型,調整內部語言模型和外部語言模型的權重,可以實現最佳的融合效果。
“對于教練與運動員人名識別難的問題,我們從足球相關語料中自動挖掘專有名詞、球隊和球員名稱等術語,通過在解碼備選中引入FST(Finite State Transducer)邏輯結構,結合'匹配走圖+Backoff權重償還'的方式對熱詞進行干預,有效利用該熱詞專項技術優化后,這些術語的召回從 64% 提升到 76%?!眻F隊總結道。
盡管成功使用了熱詞干預的方式,但經過大量測試實踐,火山引擎發現,人名又是一種特殊的熱詞,在 RNN-T 訓練平行語料中多為 OOV,采用簡單的熱詞干預方式會存在兩個問題:第一,人名中的每個單字RNN-T建模單元都是常見字,但是組合起來作為熱詞是OOV,這種情況下,純熱詞激勵權重會導致在不該出現人名的時候召回了人名,即“過召回”,再加上scale過大,導致弧上的邊加分過于明顯,更易過召回,這是人名重復出字的主要原因;第二,Top10備選路徑里面不會出現人名,單純通過外掛熱詞FST根本無法有效加分。
針對上述兩個問題,團隊對人名熱詞干預做出了兩方面優化,分別是擴大FST干預備選以及對熱詞區分稀疏熱詞和普通熱詞,然后對兩種熱詞分別構圖,在解碼邏輯區別處理。經過兩項優化,人名的召回率從76%提升到84%。此外火山引擎采用了TTS技術合成術語音頻,并加入聲學模型訓練中,將這些術語的召回率進一步提高到90%,字幕效果更佳。
熱詞干預方案的流程示意圖
如今,火山引擎語音識別產品已廣泛應用于視頻娛樂、辦公會議、硬件交互、智能客服等諸多行業,為客戶提供了優質且有前景的語音識別解決方案。近日,火山引擎語音識別產品獲得了國家語音及圖像識別產品質量檢驗檢測中心(簡稱“AI國檢中心”)頒發的語音識別增強級檢驗檢測證書,充分表明其語音識別技術能力已達到行業領先水平。
從洗腦主題曲“下蛋歌”的魔性旋律與動作被爭先效仿,到可愛吉祥物“拉伊卜”被譽為“會飛的餃子皮兒”,再到旅居中東的大熊貓四海竟然能聽懂四川話,鄉音未改好不歡樂……不得不說今年的卡塔爾世界杯確實貢獻了很多“眼前一亮”,如今賽程已進四強爭霸,想必無障礙字幕直播間還將帶來更多驚喜。
點擊語音技術-火山引擎,了解相關技術。
版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/tiyuzhishi/21338.html