微軟「VALL-E」人工智慧語音模型發表
3 秒長度語音資料即可模擬真實人聲
包括不同情緒說話方式、不同房間環境發聲效果