文 樊德惠/宜蘭
隨著AI技術逐漸廣泛運用,許多人都擔心AI會被詐騙集團使用的可能性,但來電不出聲就掛掉,若掛掉前回覆的聲音就會被複製拿來作為詐騙使用嗎?
前蘭陽技術學院數位行銷系系主任,曾在國立東華大學兼任助理教授的樊德惠表示,利用AI來複製模擬人的聲音是有可能的,但依照目前的技術要達到100%相似的複製純模仿,以目前坊間的技術是沒辦法的。在中國大陸習慣把AI複製聲音稱為聲音克隆,但不管是使用中國大陸的剪映,亦或是使用時下AI技術人員比較廣泛拿來使用的聲音GPT-SoVITS開源碼,這些都還是很容易聽出來和本人聲音的差異化,就算是進行AI訓練,也只能是前幾句話的聲音會模仿的較為相似,不過相似度也僅只能達到60%或70%就已經算是很不錯了,加上說話者的發音、講話的語氣、抑揚頓挫及斷句等問題,以及台灣口音與中國口音的不相同,因此要靠AI來模擬人聲,以目前的技術是很易失真的,民眾也實在不需要太過擔心。
不過隨著AI技術的進步,是否真的很有可能會模擬到80%以上的相似度,樊德惠也表示,這在未來也有可能,因為以AI的技術來調整聲音的情緒反應,講話的快慢和語氣,這部分在國際AI技術上已經慢慢的改進中,也許在未來模擬聲音到80%甚至是90%以上也是有可能的。