Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

语音合成

Подписчиков: 0, рейтинг: 0

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上，則稱為語音合成器，而語音合成器可以用軟/硬體所實現。文字轉語音（Text-To-Speech，TTS）系統則是將一般語言的文字轉換為語音，其他的系統可以描繪語言符號的表示方式，就像音標轉換至語音一樣。

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異，若是要儲存phone以及diphone的話，系統必須提供大量的儲存空間，但是在語意上或許會不清楚。而用在特定的使用領域上，儲存整字或整句的方式可以達到高品質的語音輸出。另外，包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出。

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時，能夠聽到並且在個人電腦上完成工作。從80年代早期開始，許多的電腦作業系統已經包含了語音合成器了。

文字處理的概觀

歷史

早在17世紀就有法國人研發機械式的說話裝置。直到19世紀，貝爾實驗室對於電子語音合成技術的研究，才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER，是一種利用共振峰原理所製作的合成器。 1960年，瑞典語言學家G. Fant則提出利用線性預測編碼技術（LPC）來作為語音合成分析技術，並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA，此技術可以合成比較自然的語音。

合成器技術

串接合成

單位選擇合成

這通常是使用字詞預錄的方式，將各字詞的發音預先錄製好，經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞，再把發音的資料自資料庫中取出，交由DSP去處理發音的合成。

Diphone合成

Domain-specific合成

共振峰合成

發音合成

HMM基礎合成

正弦波合成

深度學習合成

深度學習語音合成使用深度神經網絡（DNN）從文本（文本到語音）或頻譜（聲碼器）產生人工語音。深度神經網絡使用大量錄製的語音進行訓練，如果是文本到語音系統，則使用和語音相對的文本。

基於DNN的語音合成器正在接近人聲的自然度。該方法的缺點的例子是當數據不充分時強健性較低，缺乏可控性，自動回歸模型的性能低。一些局限性（如缺乏可控性）可以通過未來的研究得到解決。

目前以 Tacotron2 (https://pytorch.org/hub/nvidia_deeplearningexamples_tacotron2/ （页面存档备份，存于互联网档案馆）) + Waveglow (https://arxiv.org/abs/1811.00002 （页面存档备份，存于互联网档案馆）) 只需要數十個小時的錄音語料加以訓練即可合成出品質非常高的語音。但是對於聲調語言 (如中文)，因為有不同程度的變調需求，有時合成的語音會出現變調錯誤的情況。

含有語音合成器的軟體

NVDA（开源多国语言螢幕報讀軟體）
台灣工研院資通所語音團隊開發出的mTTS
JAWS（商業付費螢幕報讀軟體）
內建於蘋果電腦相關產品的VoiceOver Utility
Android 1.6版加入支援語音合成的功能。
微軟在1995年開始，開發了一套Microsoft Speech API，微軟的一些作業系統或軟體有提供支援語音功能。
VOCALOID 及 VOICEROID，前者偏重歌唱而后者偏重 TTS。
盛大遊戲在2012年初，發佈了Android語音合成平臺聼聼中心，支援本地中英文合成及變聲等服務。
台語語音筆記本為台灣話的語音輸出 (Taiwanese Text-to-speech) 軟體。系統使用台語聲調群剖析器 (Taiwanese tone group parser)、語音引擎 (Speech engine) 及語音合成器 (Speech synthesizer)直接安裝於個人電腦獨立運作，不需連結 MS Speech SDK或 IBM TTS Engine 。使用者圖行形介面包含可用台語羅馬字或中文輸入、有聲辭典同步顯示、有聲讀本製作、外部應用程式/網路瀏覽器語音輸出、台語調符轉換及使用中英文語詞搜尋等功能。

語音合成標記語言

参考資料

外部連結

维基共享资源中相关的多媒体资源：语音合成

TTS - ProgWiki（页面存档备份，存于互联网档案馆）

查论编语音合成

专有软件	BrowseAloud Cantor CereProc CeVIO DECtalk Amazon Echo Microsoft Agent Microsoft Speech API Microsoft text-to-speech voices Muta Readspeaker Talk It! Utau Vocalina Vocaloid Voice browser Voiceroid 袅袅 Synthesizer V X Studio ACE Studio

自由软件	eSpeak Gnopernicus Gnuspeech Orca Festival Speech Synthesis System FreeTTS Sinsy Neutrino

機器	Echo 2Echo 2 Pattern playback Phasor 遠程紅外可聽標誌 Texas Instruments LPC Speech Chips TuVox

應用	AOLbyPhone DialogOS Dr. Sbaitso MBROLA Microsoft朗讀程式 Microsoft Speech Server PlainTalk Voice font

傳送協議	語音合成標記語言

開發商或研究人員	凱薩琳·鮑曼富蘭克林·庫珀甘納爾·范特哈斯金氏研究室沃爾夫岡·馮·肯佩倫伊格內修斯·馬丁利菲力普·魯賓 VoiceWeb VoiceXML 山葉

過程	發音合成銜接合成 Currah 逆濾波器基週同步疊加法相位聲碼器 SABLE 自行發聲

相關條目	语音合成語音增強語音編碼音頻信號處理语音识别自然语言处理

可微分计算

概论

可微分编程
神经图灵机
可微分神经计算机
自動微分
神经形态工程
模式识别

概念

梯度下降
电缆理论
聚类分析
迴歸分析
- 過適
对抗机器学习
运算学习理论
注意力机制
卷积
損失函數
反向传播算法
激活函数
正则化
資料集

编程语言

Python
Julia

应用

机器学习
人工神经网络
- 深度学习
科学计算
人工智能
深伪技术
语言模型
- 大语言模型

硬件

TPU
VPU
憶阻器
SpiNNaker

软件库

TensorFlow
PyTorch
Keras
Theano
JAX

实现

视觉	AlexNet 人體圖像合成 HWR OCR 人脸识别系统 DALL-E Stable_Diffusion

音频	WaveNet 语音合成语音识别

自然语言	Word2vec Transformer BERT LaMDA NMT 辩论者项目沃森 GPT-2 GPT-3 GPT-J ChatGPT GPT-4

决策	AlphaGo Q学习 SARSA OpenAI Five 自動駕駛汽車 MuZero

科学计算	AlphaFold AlphaTensor