編按:《客新聞》將不定期推出【專業客】專欄,我們邀請各行業的專家、學者或是經驗豐富的職人,對當下新聞熱門議題,發表最專業的看法,試圖在各種網路帶風向、假訊息當道的時代,提供理性思考的方向。
【專業客】張陳基(國立聯合大學文化創意與數位行銷學系教授)
面對AI時代的來臨,臺灣應該全面推動客語「CC字幕」(註:Closed Caption 隱藏字幕,影片中可根據閱聽者需求,在影片播放時可以選擇性顯示的字幕),讓客語語料資料庫更加豐富。在全球化與網路社會的浪潮中,語言不再只是溝通的工具,它還代表了文化身份與資訊的載體。客家話,作為臺灣文化多樣性中不可或缺的一部分,它的保存和推廣顯得尤為重要。
透過將客家語言資料數位化,不僅可以保存這一獨特的文化遺產,還能夠促進客家語言的研究和應用。尤其是在AI時代下,在各大媒體平台推動客語CC字幕,如在YouTube上架客語影片,若具有客語CC字幕,不僅可以為客語的傳播和保存提供一個新的管道,還能讓更多非客語使用者接觸和了解這種語言及其文化。
從教育和學習的視角來看,客語CC字幕為學習者提供了一種學習客語的工具,語言的學習不僅僅是聽和說,閱讀和寫作同樣重要,因此,CC字幕給予學習者一個即時的視覺反饋,幫助他們更好地理解和記憶所學的語言。
從技術發展的角度來看,AI時代對於大數據的需求日益增長。語言數據的蒐集對於語音辨識、機器翻譯和語言合成等技術的發展至關重要,環環相扣。客語CC字幕的製作和應用,也為客語語料蒐集提供了一個有效的途徑。這些數據不僅可以用於學術研究,還能夠提升語音辨識和機器翻譯的準確度,進而讓逐漸流失的客家話,透過科技重返主流社會。
除此之外,也可以為客語影片配上華語CC字幕或是英語CC字幕,進一步拓展了客語內容的受眾範圍。這不僅有助於非客語使用者的理解和欣賞,也為客語與其他語言的交流搭建橋樑。
(可以打開CC字幕,為客語字幕。)
在人工智慧和大數據迅速發展的今天,客家委員會建置《臺灣客語語料庫》,保存收錄書面語料、口語語料之語料庫,書面語料達 600 萬字、口語語料達 40 萬字,涵括四縣、海陸、大埔、饒平、詔安、南四縣六種腔調。目前也正建立《臺灣客語語音資料庫》,提供客語語音合成及語音辨識的基礎語料。這些資料庫收錄了豐富的書面和口語語料,不僅涵蓋了多種腔調,也為客語的學術研究和技術開發提供了基礎資料。
這對於語言的保存、教學、以及AI科技應用來說,都是不可或缺的資源。臺灣客語翻譯系統的語音辨識功能,也大量使用《臺灣客語語料庫》以及《臺灣客語語音資料庫》的文本及語音資料,作為深度學習訓練的資料集。
臺灣客語翻譯系統的語音辨識功能,開啟了將客語影片自動辨識並生成字幕的新時代,使用者只要貼上客語影片的YouTube網址,就能夠自動識別影片中的客語語音,省去手動轉寫的繁複過程。生成的字幕檔(srt檔)可以即時編輯和人工校正,方便創作者快速準確地提供客語字幕。
未來,應致力於推廣客家語言和文化,並確保在數位時代中不會被邊緣化,透過「臺灣客語翻譯系統」這樣的網路平台,可以將客語帶入社群媒體的每個角落,並傳承客語及客家文化。
隨著透過產官學合作,大量建置客語語料資料庫,搭配AI客語的發展,我們期待客語不僅在臺灣,而且在世界各地都能得到更好的使用。通過AI創新技術的運用,我們將共同見證客語的復興,以及在全球數位化媒體的傳播。
【專業客】張陳基教授
經歷:國立聯合大學教授,新竹關西客家人,任教於客家研究學院文化創意與數位行銷學系,開發過客語翻譯系統、客語聊天機器人阿知牯(Talka)。
延伸閱讀: