語音技術(shù)的發(fā)明最早可以追溯到半個(gè)世紀(jì)之前,1952年,貝爾實(shí)驗(yàn)室制作了一臺(tái)高6英尺的自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,能夠識(shí)別數(shù)字0-9的發(fā)音,準(zhǔn)確率達(dá)到90%以上。 不過這一系統(tǒng)主要基于簡(jiǎn)單的模板匹配方法識(shí)別個(gè)體說出的孤立數(shù)字,也導(dǎo)致作為模板的熟人說出的語音識(shí)別會(huì)更精準(zhǔn),而陌生人識(shí)別率會(huì)低一些。在此之后,連續(xù)語音識(shí)別系統(tǒng)開始出現(xiàn),語音合成的參數(shù)合成法能夠生成比較自然的語音。 到二十世紀(jì)八十年代中期,IBM創(chuàng)造了一臺(tái)可以用語音控制的打字機(jī)“Tangora”,基于隱形馬爾科夫鏈模型(HMM),在信號(hào)處理技術(shù)中加入了統(tǒng)計(jì)信息,可以讓機(jī)器在聽到第一個(gè)音節(jié)時(shí),便能夠預(yù)測(cè)單詞。到了1984年,這一系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。 時(shí)間來到2011年,微軟研究院將DNN技術(shù)應(yīng)用在大詞匯量連續(xù)語音識(shí)別任務(wù)上,極大地降低了語音識(shí)別錯(cuò)誤率。 2016年,微軟團(tuán)隊(duì)已經(jīng)將語音識(shí)別的詞錯(cuò)率(WER)降低至了5.9%,這一數(shù)據(jù)已經(jīng)相當(dāng)于專業(yè)速錄員速記同樣一段話的水平。這標(biāo)志著機(jī)器的語音識(shí)別準(zhǔn)確率第一次達(dá)到人類水平,智能語音語言技術(shù)開始逐步落地。 到了這一階段,端到端的語音識(shí)別開始被廣泛應(yīng)用,智能語音助手、智能音箱等多款應(yīng)用智能語音識(shí)別的產(chǎn)品相繼落地。發(fā)展到近期,語音識(shí)別的準(zhǔn)確率進(jìn)一步提升,且針對(duì)遠(yuǎn)場(chǎng)的語音識(shí)別和喚醒得到進(jìn)一步發(fā)展,全雙工語音交互開始出現(xiàn)。語音識(shí)別準(zhǔn)確率已經(jīng)達(dá)到98%以上,并且能根據(jù)實(shí)際應(yīng)用痛點(diǎn)針對(duì)性強(qiáng)化。 從2011年第一款手機(jī)語音助手Siri伴隨著iPhone 4S的亮相,讓全球各大廠商紛紛入局,也標(biāo)志著正式開啟智能語音應(yīng)用元年,到2017年下半年開始通過開放語音生態(tài)系統(tǒng)進(jìn)行產(chǎn)業(yè)內(nèi)合作,語音識(shí)別系統(tǒng)也開始向可穿戴、智能家居、車載等領(lǐng)域延伸。 據(jù)ReportLinker的預(yù)測(cè):到2024年全球智能語音市場(chǎng)規(guī)模將達(dá)到215億美元,其中智慧醫(yī)療健康、智慧金融以及各類智能終端智能語音技術(shù)需求將成為主要的驅(qū)動(dòng)因素。目前國(guó)內(nèi)主要智能語音服務(wù)商如百度、科大訊飛、思必馳、樂言科技、聲揚(yáng)科技、竹間智能等。 |