從整個(gè)智能家居語(yǔ)音系統(tǒng)來(lái)看,主要構(gòu)成為語(yǔ)音采集模塊、語(yǔ)音前級(jí)處理模塊、語(yǔ)音訓(xùn)練模塊、語(yǔ)音識(shí)別模塊、語(yǔ)音提示模塊和輸出控制模塊等。 語(yǔ)音采集模塊主要起到完成信號(hào)調(diào)理和信號(hào)采集的功能,通過(guò)將語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音脈沖序列,模塊中主要包括聲音與電信號(hào)的轉(zhuǎn)換、信號(hào)調(diào)理和采樣等信號(hào)處理過(guò)程。 其中采樣位數(shù)與采樣率對(duì)音頻接口而言是最重要的兩個(gè)指標(biāo),也是選擇聲音模塊的重要標(biāo)準(zhǔn)。每增加一個(gè)采樣位數(shù)相當(dāng)于力度范圍增加了6dB,采樣位數(shù)越多則捕捉到的信號(hào)越精準(zhǔn)。 而采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本,是描述聲音文件的音質(zhì)、音調(diào),衡量聲卡、聲音文件的質(zhì)量標(biāo)準(zhǔn)。采樣率越高,計(jì)算機(jī)攝取的圖片越多,對(duì)于原始音頻的還原也越加精確。 語(yǔ)音前級(jí)處理模塊主要用于濾除干擾信號(hào)、提取語(yǔ)音特征矢量,并將提取的語(yǔ)音特征矢量量化為標(biāo)準(zhǔn)語(yǔ)音特征矢量。 而語(yǔ)音訓(xùn)練模塊主要功能是將多次采集、提取到的語(yǔ)音特征標(biāo)準(zhǔn)矢量進(jìn)行概率統(tǒng)計(jì),避免語(yǔ)音受到人自身情緒、環(huán)境等因素引起的干擾。簡(jiǎn)而言之,這一模塊是幫助進(jìn)行語(yǔ)音校準(zhǔn),減少誤差。 語(yǔ)音識(shí)別模塊,顧名思義,主要通過(guò)將新采集到的語(yǔ)音特征矢量與語(yǔ)音模板庫(kù)中的語(yǔ)音模型進(jìn)行比較,然后再判斷當(dāng)前語(yǔ)音命令功能。而語(yǔ)音模板庫(kù)中,主要存儲(chǔ)訓(xùn)練后的最佳標(biāo)準(zhǔn)語(yǔ)音特征矢量。 其他如語(yǔ)音提示模塊的主要功能為提示用戶進(jìn)行相關(guān)操作的進(jìn)度,以及前往完成的情況;而輸出控制模塊便是針對(duì)智能語(yǔ)音識(shí)別的結(jié)果來(lái)輸出相應(yīng)的控制信號(hào),比如開(kāi)關(guān)、音量調(diào)節(jié)、溫度大小等。 通過(guò)這些模塊的加入,便能夠讓語(yǔ)音識(shí)別人機(jī)交互成為現(xiàn)實(shí)。并依照這個(gè)框架,語(yǔ)音識(shí)別技術(shù)已經(jīng)開(kāi)始有了長(zhǎng)遠(yuǎn)的發(fā)展。 到今年,語(yǔ)音識(shí)別技術(shù)已經(jīng)發(fā)展了71年,從最初只能識(shí)別特定單詞,到慢慢實(shí)現(xiàn)理解人的語(yǔ)音、語(yǔ)義,并參與到智能家居等落地應(yīng)用中來(lái),為人們實(shí)現(xiàn)更好的生活體驗(yàn)。相比智能視覺(jué)只是針對(duì)人臉這一個(gè)變量而言,智能語(yǔ)音技術(shù)需要解決的是更復(fù)雜的語(yǔ)義、繁雜的環(huán)境、精準(zhǔn)關(guān)鍵詞的檢測(cè)等來(lái)提升輸入效率,而這些都需要時(shí)間來(lái)完成。 AMEYA360報(bào)道:一文看懂智能家居語(yǔ)音系統(tǒng) |