【李台源/綜合報導】AI客語語音技術持續有新的突破。國立聯合大學智慧客家實驗室與聯和科創合作,開發「文字轉語音系統VoxHakka」,該語音合成系統可以實現客語四縣、海陸、大埔、饒平、詔安與南四縣等多腔調、不同語者切換。只要在系統輸入客語字,即可產生指定腔調的AI合成語音並能客製化語者,發音準確性與自然度有高度完整性,未來將免費授權模型供研究、教育和創意應用領域使用。
聯合大學智慧客家實驗室負責人張陳基博士受訪指出,團隊長期投入客語AI語音領域,蒐集坊間公開的語料來源,例如講客廣播電臺、客家電視的語音資料,利用聯合科創的靜音修剪、強制對齊以及語音修剪等語音處理技術,搭配實驗室擁有的完整客語拼音資料庫,建置這套系統,實現客語多腔調、多語者語音AI合成模型。
張陳基說,客語是擁有多個腔調的語言,過往訓練AI語音模型,一個語者通常就是講一個腔調,現在做到多語者、多腔調,是技術上非常大的突破,「原本講四縣腔的人,透過模型,可以讓他講海陸腔。」
張陳基指出,系統還可以「客製化語者」,使用者提供聲音檔案,就可以透過系統「輸入客語字,就可用使用者的聲音,合成出各種不同腔調的客語。」不過他強調,因為有隱私與倫理的問題,系統只做到聲音「相似」,不會讓聲紋百分百相同。
張陳基感謝聯和科創願意投注心力在客家語言研究與保存,雙方希望透過系統,建構出AI輔助的母語友善環境,例如透過系統,即可以輕鬆錄製不同腔調的客語教材或是電子繪本,未來無論是河洛語或是原住民語,都可以使用同樣模式發展語言模型,運用在教育、長照以及語言傳承領域。
張陳基透露,該研究成果預計於明天(17日)在國立陽明交通大學舉辦的第27屆Oriental-COCOSDA(O-COCOSDA 2024)國際會議上發表。團隊未來也會持續致力於個人化語音合成以及即時客語字幕生成等客語AI領域。
聯和科創AI部門主管李鴻欣博士指出,VoxHakka系統研發,基於YourTTS架構,實現語音合成的高自然度、準確性及低延遲,並支援客與六種主要腔調。團隊採用新穎的網路爬蟲技術以及先進的自動語音辨識(ASR)技術,確保創建高品質、多語者、多腔調資料集。經過測試證實,系統在發音準確性、聲調正確性和整體自然度方面,明顯優於市場上公開的客語語音合成系統。
李鴻欣說,團隊致力於運用AI貢獻社會文化貢獻,特別是在保存傳統語言領域。VoxHakka根據CC-BY 4.0授權免費提供,希望鼓勵大家用於研究、教育和創意應用。這種開放取用方法,也有助促進客家社群的協作和創新。