【客新聞/綜合報導】近年AI技術盛行,從ChatGPT聊天機器人到數位影像處理,都看得見AI科技的蹤影,在一片AI的浪潮中,客家也不缺席!國立聯合大學客家研究學院文創系張陳基教授與諾思資訊李鴻欣博士的研究團隊,共同研發客語AI系統,透過《客新聞》提供的新聞資料,將文字轉成客語,並搭配虛擬人像,將影片所需元素全部完成,首度開發出客語AI虛擬主播的測試,張陳基教授表示:「AI技術都已經完備,只差大量的客語語料庫,就可完整呈現客語AI的發展」。
張陳基教授表示,透過自動抓取(爬蟲、web crawler),將各家新聞搜集,希望能夠透過AI機器人直接生成新聞稿,並製作出完整影片,目前則是先使用《客新聞》網站內的客字文稿,用AI合成語音、影像處理等步驟,最後生成一個完整的影音檔案,初步開發出客語虛擬主播。
(可以打開CC字幕,為客語字幕。)
張陳基教授進一步說明,現在所開發的系統有幾種方式可以運用,一種就是提供客語文字稿,就可以將文字生成AI語音、影片,並生成字幕SRT檔案,可直接上傳影音平台,供觀眾自行選擇開啟CC字幕,另外一種就是可以將影片內的聲音讓AI辨識,直接生成客語字幕SRT檔案,目前辨識率約80%,但最後仍需人工校對才能夠100%正確。
張陳基更表示,文章交由AI處理後,產生客語音檔只需要一分鐘的時間、產生影片需要3至4分鐘,最後進行語音辨識(對時間上字幕)也是3、4分鐘,因此從文字檔到可以上架到影音平台,只需要10分鐘,保守估計20分鐘內一定可以完成。
現階段,可以從影片中聽到AI所生成的客語語音,還不是很通順,張陳基教授提到關鍵的一點就是客語語料庫還不足。放眼全球,英文語料庫最齊全,因此英文的AI語音生成、語音辨識等等功能,正確率都最高,所產生的語音也很通順。華語的部分也有豐富的語料庫,也能做出通順的語音生成,如許多短影音平台、短影音製作軟體中都能見到實際應用。最後客語語料庫的部分,做的人比較少,因此會是目前碰到的最大難題。
張陳基教授表示,目前僅有的客語資源是教育部臺灣客家語常用詞辭典內的語音資料庫,不過語音合成系統TTS(Text-To-Speech)要讓AI語音唸得順暢,關鍵就要有大量的客語語音資料,透過播報的情緒、聲音的起伏,來訓練模型更為成熟。
張陳基指出,要訓練出能夠使用的效果,大概需要20小時的語音時間,如情緒要更多,則需要將詞彙重新設計情緒起伏,語音時間資料需要50個小時,訓練出來的AI機器人效果才會比較好。
上月底,客家公共傳播基金會與三所國立大學簽署合作意向書(MOU),希望促進客家主流化,提升客語傳播能量、推動客語復振為目標,盼透過產學合作,共享資源。國立聯合大學客家研究學院就是簽署學校之一,《客新聞》擁有豐富的客語字專欄「寫客文」、「新聞學客語」每天八節新聞的播報,另還有華、客對照文字,未來也將提供給國立聯合大學客家研究學院當作語料庫使用。
張陳基教授也提醒,語音合成有兩種,一種是單一語者的語音合成,另一種就是多語者的語音合成,不管如何,只要語音時間夠長,都能使AI機器人的合成效果更好。張陳基教授提到目前技術上都已經完備,未來將透過AI技術,讓客語跟上科技主流,方便更多人學習與傳承。
延伸閱讀: