語音識(shí)別系統(tǒng)匯總十篇

時(shí)間:2023-03-07 14:56:53

序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇語音識(shí)別系統(tǒng)范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

語音識(shí)別系統(tǒng)

篇(1)

一、引言

根據(jù)語音識(shí)別系統(tǒng)所使用的環(huán)境和平臺(tái)不同,語音識(shí)別技術(shù)朝著兩個(gè)方向發(fā)展:一個(gè)方向是大詞匯量的連續(xù)語音識(shí)別,該方向所處理的語音較為復(fù)雜;另一個(gè)方向就是向著中小詞匯量的孤立詞匯語音識(shí)別,該方向所處理的語音相對(duì)較為簡(jiǎn)單,應(yīng)用范圍也有一定的限制,如玩具、語音導(dǎo)航等。雖然簡(jiǎn)單語音識(shí)別系統(tǒng)對(duì)于能識(shí)別的詞匯量沒有太高的要求,但是目前的一些簡(jiǎn)單語音識(shí)別系統(tǒng)的識(shí)別速度慢、識(shí)別率較低,導(dǎo)致用戶體驗(yàn)較差。

二、語音識(shí)別系統(tǒng)原理

語音識(shí)別在本質(zhì)上屬于模式識(shí)別的范疇,其系統(tǒng)結(jié)構(gòu)與模式識(shí)別具有相似之處:根據(jù)相關(guān)的識(shí)別算法對(duì)語音信號(hào)進(jìn)行特征參數(shù)的提取,然后先進(jìn)行學(xué)習(xí)后再對(duì)語音信號(hào)進(jìn)行識(shí)別。在學(xué)習(xí)階段,通過給出的訓(xùn)練數(shù)據(jù)建立起參考模板庫;在識(shí)別階段,將待識(shí)別語音信號(hào)的特征參數(shù)與參考模板庫中的參數(shù)進(jìn)行對(duì)比,得到與待識(shí)別語音信號(hào)最接近的模板,輸出該模板作為語音識(shí)別的結(jié)果。

三、簡(jiǎn)單語音識(shí)別系統(tǒng)的改進(jìn)與實(shí)現(xiàn)

DTW在簡(jiǎn)單語音識(shí)別中已經(jīng)可以達(dá)到較高的識(shí)別率,因此本文選擇DTW作為語音識(shí)別的模式匹配算法,并對(duì)端點(diǎn)檢測(cè)進(jìn)行一定的改進(jìn)來實(shí)現(xiàn)語音識(shí)別系統(tǒng)的設(shè)計(jì)。

3.1端點(diǎn)檢測(cè)的改進(jìn)

在進(jìn)行端點(diǎn)檢測(cè)前,為短時(shí)平均能量和短時(shí)過零率設(shè)定兩個(gè)門限值。在靜音段,當(dāng)短時(shí)平均能量或短時(shí)過零率大于低門限值,則開始準(zhǔn)備標(biāo)記語音起點(diǎn),由此進(jìn)入過渡段。但是在過渡段中并不能確定是否真正進(jìn)入語音段,當(dāng)短時(shí)平均能量和短時(shí)過零率都小于低門限值時(shí)認(rèn)為是噪音,并不記錄語音起點(diǎn),恢復(fù)為靜音段;當(dāng)短時(shí)平均能量或短時(shí)過零率大于高門限值,則認(rèn)為是真正的語音片段,將狀態(tài)進(jìn)入語音段。進(jìn)入語音段后還要記錄語音段持續(xù)時(shí)間,若該段時(shí)間較短則認(rèn)為是噪聲,繼續(xù)檢測(cè)后面的語音,如果滿足一定的時(shí)間長(zhǎng)度則標(biāo)記語音起點(diǎn)并將其記錄為一段語音。

3.2DTW的改進(jìn)

DTW的核心思想是進(jìn)行動(dòng)態(tài)規(guī)劃,從而解決了語音識(shí)別中的發(fā)音長(zhǎng)度不一致的匹配問題。在進(jìn)行DTW時(shí),通過動(dòng)態(tài)匹配找到一個(gè)最佳路徑,把語音信號(hào)的特征參數(shù)通過這條最佳路徑映射到參考模板庫中,這條最佳路徑要求語音信號(hào)和參考模板之間的累積距離最小。

經(jīng)典的DTW算法規(guī)定待識(shí)別語音信號(hào)和模板中信號(hào)的首尾必須完全一致,但是端點(diǎn)檢測(cè)確定的首尾與實(shí)際存在一定的誤差,造成識(shí)別率有所下降。為此,可以對(duì)DTW的端點(diǎn)的限制適當(dāng)放寬。即允許起點(diǎn)在(0,0)、(0,m)或者(n,0)上,終點(diǎn)在(N,M)、(N,J)或者(I,M)上。端點(diǎn)要求放寬后對(duì)端點(diǎn)檢測(cè)精度的要求就降低了,提高了識(shí)別的速度和精度。

雖然語音的速度不同,但是語序是確定不變的,因此路徑中每一點(diǎn)的斜率必然大于0。而為了防止過度搜素浪費(fèi)資源,可以對(duì)搜索路徑的斜率加以限制,由于語音信號(hào)的擴(kuò)壓是有限的,因此可以舍去那些向X軸或者Y軸過度傾斜的路徑。具體做法是:將搜索路徑中每個(gè)點(diǎn)的最大斜率設(shè)為2,最小斜率設(shè)為0.5,這樣就可以大大降低搜索范圍,減少了計(jì)算量,提高了識(shí)別速度。

另外,還可以在進(jìn)行相似度匹配時(shí)設(shè)定一個(gè)合理的閾值,如果計(jì)算出的某一部分的相似度與該閾值相差太遠(yuǎn),則立即認(rèn)為待識(shí)別語音與當(dāng)前模板不匹配,轉(zhuǎn)而進(jìn)入與下一個(gè)模板的相似度計(jì)算,這樣就可以減少大量的計(jì)算量,從而提高簡(jiǎn)單語音識(shí)別的速度。

3.3實(shí)驗(yàn)及數(shù)據(jù)

在實(shí)驗(yàn)室較安靜的環(huán)境下對(duì)男女聲識(shí)別進(jìn)行了測(cè)試。發(fā)音內(nèi)容為0~9的數(shù)字,采樣率為24KHz,幀長(zhǎng)20ms,幀移10ms,識(shí)別正確率達(dá)到了95%以上,原DTW算法的孤立字識(shí)別時(shí)間是6~7s,而采用本文改進(jìn)算法的識(shí)別時(shí)間減少到2~5s。因此,本文方法可以實(shí)現(xiàn)快速準(zhǔn)確的簡(jiǎn)單語音識(shí)別。

四、結(jié)束語

采用本文方法可以有效提高端點(diǎn)檢測(cè)的精度、語音識(shí)別的正確率和識(shí)別速度,該方法完全滿足簡(jiǎn)單語音識(shí)別系統(tǒng)的應(yīng)用。

參考文獻(xiàn)

篇(2)

1 引言

語音識(shí)別按不同的角度有以下幾種分類方法:從所要識(shí)別的單位,有孤立詞識(shí)別、音素識(shí)別、音節(jié)識(shí)別、孤立句識(shí)別、連續(xù)語音識(shí)別和理解。目前已進(jìn)入識(shí)別的語音識(shí)別系統(tǒng)是單詞識(shí)別。以幾百個(gè)單詞為限定識(shí)別對(duì)象。從識(shí)別的詞匯量來分。有小詞匯(10-50個(gè))、中詞匯(50-200個(gè))、大詞匯(200以上)等。從講話人的范圍來分。有單個(gè)特定講話人、多講話人和與講話者者無關(guān)。特定講話人比較簡(jiǎn)單,能夠得到較高的識(shí)別率。后兩者難度較大,不容易得到高的識(shí)別率。 從識(shí)別的方法分。有模塊匹配法、隨機(jī)模型法和概率語法分析法。這三種都屬于統(tǒng)計(jì)模式識(shí)別方法。

2 系統(tǒng)硬件及組成

2.1 系統(tǒng)概述

語音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案如圖1所示。輸入的模擬語音信號(hào)首先要進(jìn)行預(yù)處理,語音信號(hào)經(jīng)過預(yù)處理后,接下來重要的一環(huán)就是特征參數(shù)提取,其目的是從語音波形中提取出隨時(shí)間變化的語音特征序列。然后建立聲學(xué)模型,在識(shí)別的時(shí)候?qū)⑤斎氲恼Z音特征同聲學(xué)模型進(jìn)行比較,得到最佳的識(shí)別結(jié)果。

2.2 硬件構(gòu)成

本文采用DSP芯片為核心(圖2所示),系統(tǒng)包括直接雙訪問快速SRAM、一路ADC/一路DAC及相應(yīng)的模擬信號(hào)放大器和抗混疊濾波器。外部只需擴(kuò)展FLASH存儲(chǔ)器、電源模塊等少量電路即可構(gòu)成完整系統(tǒng)應(yīng)用。

2.3 系統(tǒng)主要功能模塊構(gòu)成

語音處理模塊采用TI TMS320VC5402, TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM,一個(gè)HPI(HostPortInterface)接口,二個(gè)多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執(zhí)行時(shí)間10 ns,帶有符合IEEE1149.1標(biāo)準(zhǔn)的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與DSP接口簡(jiǎn)單,性能高、功耗低,已成為當(dāng)前語音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu),音頻采樣頻率為2~22.05 kHz,內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片,還有一個(gè)能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內(nèi)還包括一個(gè)定時(shí)器(調(diào)整采樣率和幀同步延時(shí))和控制器(調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。

3 結(jié)論

本文以TMS320VC5402芯片為核心的系統(tǒng)硬件設(shè)計(jì)迸行了研究,通過TLC320AD50C對(duì)語音信號(hào)進(jìn)行A/D轉(zhuǎn)換,通過TMS320VC5402對(duì)語音信號(hào)“0”、“1”、“2”進(jìn)行訓(xùn)練和識(shí)別,并由對(duì)于燈LED0、LED1、LED2亮來顯示結(jié)果是否正確;該系統(tǒng)核心識(shí)別算法采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法,主要流程包括預(yù)處理、端點(diǎn)檢測(cè)、提取特征值、模式匹配和模板訓(xùn)練,取得了很好的識(shí)別效果。

參考文獻(xiàn)

[1] 朱銘鋯, 趙勇, 甘泉. DSP應(yīng)用系統(tǒng)設(shè)計(jì) [M].北京:電子工業(yè)出版社,2002.

[2] 郭華. 自適應(yīng)濾波算法及應(yīng)用研究[D].蘭州:西北師范大學(xué),2007.

[3] 張雄偉..DSP芯片的原理與開發(fā)應(yīng)用[M].北京:電子工業(yè)出版社,2009.

[4] 張德豐. 數(shù)字圖象處理(MATLAB版)[M].北京:人民郵電出版社,2009.

作者簡(jiǎn)介

篇(3)

關(guān)鍵詞 語音識(shí)別;中文識(shí)別;人工分詞;控制系統(tǒng)

【中圖分類號(hào)】TP311 【文獻(xiàn)標(biāo)識(shí)碼】A

【論文編號(hào)】1671-7384(2014)02-0069-03

引 言

計(jì)算機(jī)如今如此普及,計(jì)算機(jī)發(fā)展速度完全超乎想象。但目前為止,真正具備與人交流功能的電腦還不存在。有這樣一個(gè)圖靈測(cè)試——讓測(cè)試員與被測(cè)試者和一臺(tái)機(jī)器在隔開的情況下,通過一些裝置向被測(cè)試者隨意提問。問過一些問題后,如果測(cè)試人不能確認(rèn)被測(cè)試者30%的答復(fù)哪個(gè)是人、哪個(gè)是機(jī)器的回答,那么這臺(tái)機(jī)器就通過了測(cè)試。可惜的是,如今情況下最好的成績(jī)是由俄羅斯專家設(shè)計(jì)的“葉甫根尼”電腦程序,也只是達(dá)到了29.2%。

語音,是人與人交流的一種手段,也是人類交流和交換信息中最便捷的工具。退而求其次,要做到通過圖靈測(cè)試,不如先讓電腦通過語音作為引信來幫人類做事情。為了充分闡述語音識(shí)別這套系統(tǒng)的原理,本文將小范圍重現(xiàn)語音識(shí)別原理。

對(duì)于語音識(shí)別之后,讓計(jì)算機(jī)去理解人的意思,不可缺少的就是將文字信息轉(zhuǎn)化為計(jì)算機(jī)能理解的內(nèi)容。把計(jì)算機(jī)比作一個(gè)人手中拿著一本象形文字對(duì)照手冊(cè),身處上文說的圖靈測(cè)試的房子中。而另一人則在房間外向此房間發(fā)送象形文字問題。房間內(nèi)的人只需按照對(duì)照手冊(cè),返回手冊(cè)上的象形文字答案即可。畢竟只需要讓計(jì)算機(jī)懂得我們的意思,并非讓計(jì)算機(jī)來幫我們?nèi)ニ伎肌R虼耍灰o予足夠多的“稿紙、筆”以及足夠大的“詞典”即可。

這次我們對(duì)系統(tǒng)的研究使用的是C語言,由于并沒有采用面向?qū)ο蠡恼Z言來編程,大部分程序使用的編程并沒有向“類”里面填充“方法”的概念。這套系統(tǒng)硬件開發(fā)、硬件編程采用的是51單片機(jī)來實(shí)現(xiàn),后期的處理則是在上位機(jī)通過鉤掛系統(tǒng)鉤子讀取內(nèi)存來實(shí)現(xiàn)。下面,我們將一步一步講述構(gòu)建這個(gè)系統(tǒng)的過程。

平臺(tái)構(gòu)建

如今,國(guó)外已經(jīng)有很多成品語音識(shí)別系統(tǒng),中文的語音識(shí)別控制系統(tǒng)也有很多的企業(yè)、教育科研機(jī)構(gòu)在做相關(guān)的項(xiàng)目。不過這些研究卻依然停留在初級(jí)階段。因?yàn)橹形氖鞘澜缟献铍y學(xué)的語言,人來學(xué)習(xí)尚且如此,更何況人來教給機(jī)器去識(shí)別。

雖然如此,做語音識(shí)別首先要有一個(gè)平臺(tái)來去搭建中文語音識(shí)別系統(tǒng)。第一步要做的便是將聲音訊號(hào)轉(zhuǎn)化為電訊號(hào)。這里采用一個(gè)高阻抗麥克風(fēng),作為音源進(jìn)行聲電轉(zhuǎn)化。通常的麥克風(fēng)是三個(gè)端子輸出,分別是兩個(gè)信號(hào)源和一個(gè)接地端。大部分的麥克風(fēng)兩個(gè)端讀入的是相同信號(hào),少部分高品質(zhì)的則讀入的是差分信號(hào)。

麥克風(fēng)的輸入是毫伏級(jí)別,類似空氣聲、干擾波都會(huì)使得輸入的信號(hào)有噪波。因此,輸入的兩個(gè)端分別進(jìn)行旁路電容濾波等操作,去除雜波。無源麥克風(fēng)的輸入電壓過低,之后要將信號(hào)接入放大器,放大后的信號(hào)才能使得后續(xù)的操作中,模擬—數(shù)字信號(hào)轉(zhuǎn)換器獲得足夠被感應(yīng)的信號(hào)強(qiáng)度。

理論上講,音頻信號(hào)可以看作周期信號(hào),按照傅立葉級(jí)數(shù)定理可知,任何周期函數(shù)都可以用正弦函數(shù)和余弦函數(shù)構(gòu)成的無窮級(jí)數(shù)來表示。因此,通過將音頻信號(hào)進(jìn)行傅立葉級(jí)數(shù)展開,去除雜波頻段的波形即可得到優(yōu)質(zhì)波形。

而實(shí)踐中,通過硬件操作步驟較為煩瑣,軟件分析需要時(shí)間較長(zhǎng),出于經(jīng)濟(jì)等方面因素考慮,本系統(tǒng)不采用傅立葉變換來實(shí)現(xiàn)識(shí)別音頻特性,而采用比較法取波形相似度等方式進(jìn)行識(shí)別。

語音識(shí)別

上文中的信號(hào)經(jīng)過模擬—數(shù)字轉(zhuǎn)換器轉(zhuǎn)換成為了數(shù)字信號(hào),接入處理器的IO接口線程中,此時(shí),讀入的信號(hào)會(huì)通過地址總線和IO端口讀入。因此在硬件上,我們使用中斷程序來進(jìn)行信號(hào)預(yù)處理。

軟件方面中斷程序部分,僅需要將讀入的IO數(shù)據(jù)以數(shù)組形式存放入內(nèi)存即可。

聲音有三要素:音高、響度、音色。讀入的信號(hào)即每個(gè)時(shí)間點(diǎn)的聲音感受器震動(dòng)位置,我們可以通過電流接入到壓片陶瓷上來還原聲音,而如果我們要去分析音頻則需要對(duì)照三要素下手。

響度即聲波數(shù)組中的數(shù)值高低,為了讓聲波數(shù)組中的響度和預(yù)存的響度相同,我們通過統(tǒng)計(jì)整段中有效波形能量數(shù)值和與預(yù)存數(shù)組的能量數(shù)值做比例處理,使得響度和預(yù)存數(shù)組相近。

音高即聲音的頻率,頻率的定義是:?jiǎn)挝粫r(shí)間內(nèi)完成振動(dòng)的次數(shù),是描述振動(dòng)物體往復(fù)運(yùn)動(dòng)頻繁程度的量。通過聲波數(shù)組尋找相鄰兩點(diǎn)是否為相反數(shù),即可尋找到過0點(diǎn)次數(shù)得到頻率。這時(shí),時(shí)間段的頻率即可求出,間接可得到整段聲音的頻率。

我們發(fā)現(xiàn),對(duì)音高進(jìn)行頻率化處理,同樣也需要對(duì)預(yù)存數(shù)組進(jìn)行頻率化處理。因此,盡管我們可以去頻率化處理提高識(shí)別精度,但相比對(duì)音頻直接做響度匹配,所謂黑盒操作更易于分析和匹配。

漢語是由聲母和韻母組成的,通過五聲韻母和聲母匹配,即可收集有限個(gè)聲源。用這些聲源和預(yù)處理的聲音進(jìn)行匹配,即可得出每個(gè)字的讀音。

上述的程序段只是匹配所需要的函數(shù),在外部需要循環(huán)來賦給數(shù)組對(duì)應(yīng)指針位置才能實(shí)現(xiàn),在對(duì)比中,如何確定開頭是一個(gè)難點(diǎn)。因此需要對(duì)音頻數(shù)據(jù)的開頭做識(shí)別。在本系統(tǒng)中,采用讀取5個(gè)相鄰數(shù)據(jù),如果連續(xù)的峰值高于30且持續(xù)了超過25毫秒以上,則判定這個(gè)時(shí)間點(diǎn)為數(shù)據(jù)的開始。

在系統(tǒng)中,雖然我們采用了去除抖動(dòng)的算法,但聲音音響處理過后,也會(huì)丟失一些精度,此處的算法若提高精度,則需要在前期處理做根據(jù)香農(nóng)采樣定理計(jì)算低通信道的最高大碼元傳輸速率,進(jìn)而做精確的采樣以及還原,同時(shí)濾波采用更先進(jìn)的算法來實(shí)現(xiàn),這里只實(shí)現(xiàn)采樣而不做精細(xì)討論。

人工分詞

中文,全世界有近20億的人在使用。然而,中文的語法是世界上無章可循的語法之一。古人云:“句讀之不知,惑之不解”,想要用中文交流,就必須知道如何斷句。這樣,才能正常地和人交流,才能清晰地理解對(duì)方的意思。

欲斷句,先斷詞。讓計(jì)算機(jī)來執(zhí)行控制,而計(jì)算機(jī)處理的卻是整個(gè)詞組。前面步驟已經(jīng)講述了如何將語音識(shí)別成一個(gè)個(gè)的單字,識(shí)別成一個(gè)個(gè)句子。但是中文并不像英文,說“我是一個(gè)學(xué)生”這句話的時(shí)候不會(huì)像“Iam a student”這樣中間有空格從而判斷詞組。這就需要我們對(duì)句子做一個(gè)特殊的處理——人工分詞。

以“我是一個(gè)學(xué)生”為例,人類來理解這句話,他的意思就是“‘我’的職業(yè)屬性是學(xué)生”。從這個(gè)例子可以看出,提取“是”這個(gè)動(dòng)詞為關(guān)鍵字,便可以將前后轉(zhuǎn)變?yōu)橘x值表達(dá)式的形式“我->職業(yè)=學(xué)生”。

優(yōu)先提取出一句話的動(dòng)詞,是分詞處理的關(guān)鍵。但并非每個(gè)動(dòng)詞都可以這樣來操作,例如,“他鞠躬下臺(tái)”,很明顯“鞠躬”是個(gè)動(dòng)詞,“下臺(tái)”也是一個(gè)動(dòng)詞;如果按照上文中所述,“他->鞠躬=下臺(tái)”就會(huì)出問題。為了處理這個(gè)問題,我們引入現(xiàn)代漢語中及物動(dòng)詞和不及物動(dòng)詞的概念。將“鞠躬”、“下臺(tái)”這種不及物動(dòng)詞和“打”、“吃”這樣的及物動(dòng)詞分開。

當(dāng)然,這需要字典來處理,借助現(xiàn)代科技的發(fā)展,一本電子版的現(xiàn)代漢語詞典就可以解決這個(gè)問題,通過詞庫來查詢每個(gè)詞語的意思,從而抽離出動(dòng)詞。我們只需要設(shè)計(jì)不及物動(dòng)詞代表動(dòng)作即可,這樣就可以將信息存儲(chǔ)成“他->動(dòng)作=鞠躬&下臺(tái)”。

若是英文,如此做便可以了。但上文說過,中文語法是世界上無章可循的語法之一。英文中設(shè)置了動(dòng)詞字典基本上就處理了大部分問題。可中文中會(huì)出現(xiàn)如下句子:“今天的比賽在大學(xué)生活動(dòng)中心召開。”

人工模擬電腦來理解,副詞可以修飾形容詞、修飾動(dòng)詞,用副詞來修飾試探:比賽可以“不比賽”不能“很比賽”,因此它不是形容詞,而是動(dòng)詞,“我比賽你”這句話不通,因此是不及物動(dòng)詞;“活動(dòng)”和“召開”也是同理,是不及物動(dòng)詞。因此這句話要理解成“今天->動(dòng)作=比賽&活動(dòng)&召開”。

但不能說“今天->動(dòng)作=比賽&活動(dòng)&召開”,很顯然這句話真正的意思是“比賽->地點(diǎn)=大學(xué)生活動(dòng)中心”。出現(xiàn)這個(gè)問題,核心原因就是計(jì)算機(jī)沒有把“大學(xué)生活動(dòng)中心”當(dāng)作一個(gè)詞,任何一本字典都不會(huì)去收錄“大學(xué)生活動(dòng)中心”這個(gè)詞。

在中文分詞中, 中科天璣出品了一套中文分詞系統(tǒng)架構(gòu),加載頭文件"ICTCLAS50.h"可以用頭文件定義的命令#pragma comment讀取它所提供的數(shù)據(jù)庫(lib,"ICTCLAS50.lib")

執(zhí)行過該程序段后,會(huì)將分詞結(jié)果以test.txt的形式保存在硬盤中。

結(jié) 語

做完人工分詞,基本上也就實(shí)現(xiàn)了讀取用戶所要達(dá)到的目的。這套系統(tǒng)貫穿底層到軟件層,如果有可能甚至需要設(shè)計(jì)到云端。雖然局部的測(cè)試沒有出現(xiàn)嚴(yán)重的錯(cuò)誤,但由于時(shí)間原因,并沒有做綜合測(cè)試。

其中的一些理論和實(shí)踐銜接的地方還存在著不足,一些算法也存在著改進(jìn)的空間,但這些問題終將在以后得到解決。也希望這套系統(tǒng)能在最后的實(shí)踐和發(fā)展中真正用于生活,從而提供更好的生活體驗(yàn),為人們體驗(yàn)生活、享受人生做出貢獻(xiàn)。

基金項(xiàng)目: 本文系北京市自然科學(xué)基金項(xiàng)目(4132009);北京市屬高等學(xué)校高層次人才引進(jìn)與培養(yǎng)計(jì)劃項(xiàng)目(CIT&TCD201304120);北京市教委科技計(jì)劃項(xiàng)目(KM201211232008)的研究成果。

參考文獻(xiàn)

何嘉. 基于遺傳算法優(yōu)化的中文分詞研究[D].電子科技大學(xué),2012.

趙培. 中文語音識(shí)別結(jié)果文本分類的研究與實(shí)現(xiàn)[D].大連理工大學(xué),2008.

曹衛(wèi)峰. 中文分詞關(guān)鍵技術(shù)研究[D].南京理工大學(xué),2009.

龍樹全,趙正文,唐華. 中文分詞算法概述[J]. 電腦知識(shí)與技術(shù),2009,10:2605-2607.

剛. 圖靈測(cè)試:哲學(xué)爭(zhēng)論及歷史地位[J]. 科學(xué)文化評(píng)論,2011,06:42-57.

譚超. 學(xué)習(xí)型中文語音識(shí)別系統(tǒng)研究及實(shí)現(xiàn)[J]. 電腦開發(fā)與應(yīng)用,2012,04:35-37.

胡寶潔,趙忠文,曾巒,張永繼. 圖靈機(jī)和圖靈測(cè)試[J]. 電腦知識(shí)與技術(shù),2006,23:132-133.

陳淑芳. 基于51單片機(jī)的教學(xué)實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與開發(fā)[D].中國(guó)海洋大學(xué),2011.

張文國(guó). 中文語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與展望[J].上海微型計(jì)算機(jī),1998,35:46.

篇(4)

1.引言

隨著汽車工業(yè)的發(fā)展以及電子市場(chǎng)的成熟,車載智能終端逐漸成為汽車重要的配套設(shè)備,另外,近年來,經(jīng)濟(jì)的繁榮也促使國(guó)內(nèi)各地汽車數(shù)量急劇增加,人們的出行習(xí)慣也隨之發(fā)生變化,人車共處的時(shí)間越來越長(zhǎng),因此,車載智能終端的功能從簡(jiǎn)單的行車導(dǎo)航多功能轉(zhuǎn)變,但駕駛?cè)藛T在行車過程中,面對(duì)繁復(fù)的界面進(jìn)行功能選擇操作,易造成安全隱患,因此本文提出基于ARM的車載語音識(shí)別系統(tǒng)設(shè)計(jì)方案,旨在讓駕駛?cè)送ㄟ^語音指令,操作智能終端,實(shí)現(xiàn)基本的導(dǎo)航、語音通信等功能,為安全駕駛提供保障。

2.語音識(shí)別過程

語音識(shí)別過程是首先將采集到的語音數(shù)據(jù)進(jìn)行預(yù)處理,以提高自然語言的識(shí)別率,并降低處理器對(duì)數(shù)據(jù)進(jìn)行密集運(yùn)算的處理量,然后再進(jìn)行端點(diǎn)檢測(cè)、語音特征提取,完成從采集到的語音數(shù)據(jù)波型中,分析并提取以時(shí)間為參照的語音特征序列,隨后轉(zhuǎn)換為可對(duì)比的信號(hào)參數(shù),與系統(tǒng)語音模型庫進(jìn)行語言匹配,即可得出識(shí)別結(jié)果。

3.系統(tǒng)整體設(shè)計(jì)

本系統(tǒng)由硬件、軟件兩部分構(gòu)成,操作系統(tǒng)采用嵌入式Linux,為語音識(shí)別指令操作實(shí)現(xiàn)、車載智能終端功能實(shí)現(xiàn)提供基本的軟件平臺(tái),硬件系統(tǒng)由語音識(shí)別部分、核心處理部分、電子設(shè)備部分構(gòu)成,語音識(shí)別階段由LD3320專用芯片在51級(jí)單片機(jī)的控制下完成,獲取語音特征后,指令識(shí)別程序進(jìn)行指令的對(duì)比識(shí)別,并通過指令操作系統(tǒng)程序調(diào)用諸如定位、導(dǎo)航、媒體播放、視頻監(jiān)控等應(yīng)用程序,系統(tǒng)結(jié)構(gòu)如下圖1所示。

4.硬件系統(tǒng)設(shè)計(jì)

硬件系統(tǒng)主要包括系統(tǒng)主板、核心處理器、語音采拾器、語音識(shí)別芯片、語音控制單片機(jī)、存儲(chǔ)器、電源等部分構(gòu)成,詳細(xì)介紹如下:

4.1 核心處理模塊

系統(tǒng)中,核心處理器既做語音指令識(shí)別、指令下達(dá)的核心部件,還是車載智能終端的核心,考慮車載智能終端的多功能性,例如定位導(dǎo)航、媒體播放、遠(yuǎn)程視頻監(jiān)控等,系統(tǒng)核心處理器采用飛思卡爾推出的iMX27芯片,利用其H.264硬件編解碼模塊可在車載智能終端上實(shí)現(xiàn)MPEG4、H.263及H.264視頻流的高效處理,在能夠支持語音識(shí)別功能的同時(shí),還使智能終端產(chǎn)品達(dá)到D1(DVD畫面質(zhì)量,720×480的屏幕分辨率)分辨率。

iMX27在處理H.264的同時(shí)占用極少的CPU的資源并提高了視頻處理的性能,使核心有更多資源進(jìn)行其它的應(yīng)用,例如本系統(tǒng)的語音識(shí)別功能,另外,iMX27還具備非常靈活和豐富的標(biāo)準(zhǔn)接口、串行端口和擴(kuò)展端口,實(shí)現(xiàn)與多種外部設(shè)備的連接,包括攝像頭、顯示器,還可以使用Wi-Fi、藍(lán)牙實(shí)現(xiàn)即插即用及無線互連的功能,通過增加適當(dāng)?shù)哪K,即可實(shí)現(xiàn)GPS定位、GPRS通信等應(yīng)用。

4.2 語音識(shí)別模塊

目前語音識(shí)別方案,有針對(duì)特定人的語音識(shí)別技術(shù),但用戶無法自行修定識(shí)別內(nèi)容,還有基于ARM的軟件識(shí)別技術(shù),即將采集到的語音數(shù)據(jù),直接交由ARM平臺(tái)上運(yùn)行的軟件進(jìn)行處理、比對(duì)、識(shí)別,這種方案優(yōu)點(diǎn)是可以附帶龐大的語音模型庫,適應(yīng)范圍較廣,但對(duì)ARM硬件平臺(tái)要求較高,軟件設(shè)計(jì)也相對(duì)復(fù)雜,本系統(tǒng)根據(jù)設(shè)計(jì)目的,提出的解決方案是,采用專用的語音識(shí)別芯片LD3320完成語音識(shí)別功能,將識(shí)別后的少量數(shù)據(jù)通過串行通信接口傳送給ARM處理器,再由軟件執(zhí)行判斷并執(zhí)行相應(yīng)的功能,一方面僅需求少量的電子器件,即可完成非特定人、非特定人、孤立詞、小詞匯量的語音識(shí)別功能,另一方面也可減少對(duì)ARM硬件的需求,空余更多的資源用于處理其它功能項(xiàng)目,而且軟件設(shè)計(jì)也可以相對(duì)簡(jiǎn)化。

LD3320是由ICRoute公司生產(chǎn)的一種基于非特定人語音識(shí)別技術(shù)的專用芯片,內(nèi)置語音搜索引擎以及語音識(shí)別模型特征庫,另外還包含一些外部電路,例如AD、DA轉(zhuǎn)換器、音頻輸入輸出接口等,不再需要存儲(chǔ)器等器件,也不需要預(yù)置語音訓(xùn)練,將MIC接入LD3320的AD引腳上,再通過51級(jí)的MCU進(jìn)行控制,就可以進(jìn)行語音識(shí)別,經(jīng)過實(shí)踐,LD3320的語音識(shí)別穩(wěn)定性較好,準(zhǔn)確性基本保持在96%左右。

51MCU主控制器采用Atmel公司生產(chǎn)的ATMEGA128芯片,其具備先進(jìn)的RISC指令系統(tǒng),包含133條指令,并且大多指令可以一個(gè)時(shí)鐘周期內(nèi)完成,執(zhí)行效率高,內(nèi)置128K字節(jié)的可編程Flash,4K字節(jié)的EEPROM,以及多達(dá)64K字節(jié)的優(yōu)化的外部存儲(chǔ)器空間,足以滿足語音識(shí)別的控制需求。

主控制器主要完成需識(shí)別關(guān)鍵詞語的拼音串通過設(shè)置寄存器的方式傳入芯片內(nèi)部,從而實(shí)現(xiàn)識(shí)別列表的動(dòng)態(tài)編輯,每次可以設(shè)置50項(xiàng)候選識(shí)別句,每個(gè)識(shí)別句可以是單字,詞組或短句。

4.3 存儲(chǔ)器模塊

為存儲(chǔ)更多的語音數(shù)據(jù),可通過存儲(chǔ)芯片來擴(kuò)展系統(tǒng)的存儲(chǔ)空間,本系統(tǒng)采用意法半導(dǎo)體推出的M25P16-VMF6P芯片,該芯片是16-Mbit(2M x 8)串行閃存,具有先進(jìn)的寫保護(hù)機(jī)制,支持速度高達(dá)50MHz的SPI兼容總線的存取操作。存儲(chǔ)器主要用于保存聲音素材。

5.軟件系統(tǒng)設(shè)計(jì)

軟件系統(tǒng)由兩大部分構(gòu)成,一個(gè)是基于ARM平臺(tái)的嵌入式Linux操作系統(tǒng),主要為系統(tǒng)的實(shí)現(xiàn)提供基本的軟件平臺(tái),另一部分是語音識(shí)別程序以及應(yīng)用程序,主要完成語音的識(shí)別以及系統(tǒng)應(yīng)用。

5.1 操作系統(tǒng)

本文采用可以支持ARM CPU,具有MMU功能的Linux操作系統(tǒng),通過內(nèi)核精簡(jiǎn)和裁減,并在實(shí)時(shí)性方面進(jìn)行加強(qiáng),以適應(yīng)車載環(huán)境的應(yīng)用需求。

5.2 語音識(shí)別程序

語音識(shí)別程序的設(shè)計(jì),主要基于LD3320系列產(chǎn)品開發(fā)手冊(cè),主要工作流程分為以下幾個(gè)步驟:系統(tǒng)初始化、識(shí)別列表輸入、語音識(shí)別、中斷響應(yīng)等。

(1)系統(tǒng)初始化分為兩個(gè)子步驟,分別通用初始化以及設(shè)備初始化,時(shí)鐘頻率、模式等參數(shù)在這一環(huán)節(jié)中進(jìn)行設(shè)定。

(2)識(shí)別列表輸入,首先對(duì)需要識(shí)別的語音指令進(jìn)行編碼,按不同編號(hào)區(qū)分不同的條目,編號(hào)范圍可以1-256之間選擇,每個(gè)條目采用標(biāo)準(zhǔn)普通化拼音作為語音參考模型,2個(gè)標(biāo)準(zhǔn)字漢語之間以空格進(jìn)行填充。

(3)語音識(shí)別,通過設(shè)置特定寄存器的值,系統(tǒng)即可開始進(jìn)行語音識(shí)別,語音識(shí)別的準(zhǔn)確率與MIC的靈敏度設(shè)置有直接關(guān)系,根據(jù)實(shí)際環(huán)境條件,設(shè)置在40H~6FH可達(dá)到較好的效果。

(4)中斷響應(yīng),設(shè)置系統(tǒng)捕捉到MIC有信號(hào)產(chǎn)生,即產(chǎn)生中斷,中斷處理程序則根據(jù)LD3320寄存器的值對(duì)識(shí)別結(jié)果進(jìn)行判斷,以C5寄存器的值作為參考的正確結(jié)果。

5.3 指令執(zhí)行程序

指令執(zhí)行程序運(yùn)行的ARM平臺(tái)上,負(fù)責(zé)監(jiān)聽ATMEGA128的串口數(shù)據(jù),當(dāng)接收到識(shí)別結(jié)果時(shí),把該結(jié)果以二進(jìn)制形式讀出,通過預(yù)先設(shè)定的識(shí)別結(jié)果-執(zhí)行指令對(duì)照表,查詢應(yīng)當(dāng)執(zhí)行的指令,并根據(jù)指令完成相應(yīng)的操作。

6.結(jié)論

本文從整體、硬件、軟件等幾方面,深入討論了基于ARM的嵌入式語音識(shí)別系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),并對(duì)各個(gè)組成模塊的硬件電路及軟件實(shí)現(xiàn)進(jìn)行了詳細(xì)的介紹。經(jīng)實(shí)踐,本文設(shè)計(jì)的語音識(shí)別系統(tǒng)在穩(wěn)定性、識(shí)別率方面有較好表現(xiàn),配合車載智能移動(dòng)終端,有較強(qiáng)的實(shí)用性。

參考文獻(xiàn)

[1]張戟,楊騰飛.車載自動(dòng)語音識(shí)別系統(tǒng)設(shè)計(jì)[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,29(2):201-205.

[2]劉建臣,趙建光,龐煒等.基于ARM9+linux的智能小區(qū)語音識(shí)別系統(tǒng)研究[J].河北建筑工程學(xué)院學(xué)報(bào),2009,27(1):119-121.

篇(5)

中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2012)09-0014-02

Design of voice recognition system based on TMS320C6713

XU Fei-yan1, CHEN Tao2, SUN Xu3, FANG Zong-liang1, LI Li-rong1

(1. Department 2, Anti-Chemical Institute, Beijing 102205, China;

2. Beijing Research & Development Center of Xiamen Jiuhua Communications Equipment Factory, Beijing 100083, China;

3. Chengdu University of Technology, Chengdu 610059,China)

Abstract: Taking the TMS320C6713DSP with floating-point functions produced by Texas Instruments chip as the system core processor and the MSP430 microcontroller as a peripheral controller, a real-time speech recognition system is designed in the paper. The kernel algorithm for the system uses Mel-frequency cepstral coefficients as feature parameters for feature extraction and dynamic time warping (DTW) algorithm for pattern matching. Programming and debugging of the system indicate that the system has good flexibility and real-time capability and improves the performance in noise immunity, robustness and recognition rates. In many areas, it has a practical reference value.

Keywords: speech recognition; digital signal processing; Mel-frequency cepstral coefficients; dynamic time warping

0 引 言

語音識(shí)別[1]是一種最為理想的人機(jī)通信方式。隨著計(jì)算機(jī)技術(shù)的進(jìn)步,語音識(shí)別技術(shù)已經(jīng)逐漸應(yīng)用于控制、通信、消費(fèi)等行業(yè)[2]。但是,語音識(shí)別系統(tǒng)在商品化的進(jìn)程中還存在著諸如識(shí)別速度、系統(tǒng)魯棒性以及更高的識(shí)別率等具體問題。如何提高語音識(shí)別系統(tǒng)的這些性能,使系統(tǒng)更快、更穩(wěn)定地工作是目前研究的重點(diǎn)。本文正是基于這種思想,通過選用德州儀器公司帶浮點(diǎn)功能的DSP芯片TMS320C6713(主頻為200 MHz)作為語音信號(hào)處理的核心處理器,同時(shí)結(jié)合MSP430單片機(jī)作為控制器共同構(gòu)建硬件系統(tǒng), 以美爾頻率倒譜系數(shù)作為語音信號(hào)特征參數(shù),結(jié)合動(dòng)態(tài)時(shí)間規(guī)整孤立詞識(shí)別算法進(jìn)行模式匹配,設(shè)計(jì)了一種具有良好實(shí)時(shí)性和高識(shí)別率及魯棒性的語音識(shí)別系統(tǒng)。

1 系統(tǒng)硬件設(shè)計(jì)

本設(shè)計(jì)的整個(gè)硬件系統(tǒng)是以DSP為核心電路對(duì)語音信號(hào)進(jìn)行采集和處理,再經(jīng)過A/D轉(zhuǎn)換電路把模擬語音信號(hào)轉(zhuǎn)換成數(shù)字語音信號(hào),然后送入DSP芯片進(jìn)行匹配識(shí)別,最后將識(shí)別后的結(jié)果通過單片機(jī)控制模塊外接的兩個(gè)紅綠顏色的二極管進(jìn)行處理表示,其中紅色表示拒絕命令,綠色表示接受命令。系統(tǒng)的硬件平臺(tái)主要由DSP系統(tǒng)核心處理模塊、語音信號(hào)采集模塊、單片機(jī)控制模塊、外擴(kuò)存儲(chǔ)器模塊和電路等幾個(gè)模塊構(gòu)成。系統(tǒng)的硬件設(shè)計(jì)總體方案框圖如圖1所示。

1.1 DSP系統(tǒng)核心處理模塊

作為系統(tǒng)的核心模塊DSP芯片采用TMS320C6713,該芯片的主頻可達(dá)200 MHz。這是TI公司推出的一種新型的浮點(diǎn)DSP芯片,是繼定點(diǎn)DSP芯片TMS320C62X系列后開發(fā)的。該芯片的內(nèi)部結(jié)構(gòu)在TMS320C62X的基礎(chǔ)上進(jìn)行了改進(jìn),內(nèi)部同樣集成了多個(gè)功能單元,可同時(shí)執(zhí)行8條指令,其運(yùn)算能力可達(dá)1G FLOPS。片內(nèi)具有豐富的外設(shè),如EDMA、EMIF、McBSP、HPI、GPIO等[4]。

篇(6)

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 11-0000-02

隨著人們對(duì)人機(jī)交流技術(shù)的要求越來越高,語音識(shí)別技術(shù)應(yīng)運(yùn)而生。語音識(shí)別是將語音信號(hào)轉(zhuǎn)換成相應(yīng)文本的高技術(shù),是一種重要的人機(jī)交互技術(shù)[1]。在近二十年,越來越多高水平的研究機(jī)構(gòu)和企業(yè)加入到語音識(shí)別的研究領(lǐng)域,并開始向市場(chǎng)上提品。其中具有代表性的產(chǎn)品有微軟的Whisper系統(tǒng),Google的Word Search系統(tǒng),蘋果的Siri系統(tǒng)等。

語音識(shí)別最重要的性能指標(biāo)就是識(shí)別率,而識(shí)別率十分依賴特征參數(shù)的訓(xùn)練和識(shí)別模型。常用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸整算法和隱馬爾可夫算法。文中就這兩種算法特點(diǎn)進(jìn)行了分析和改進(jìn),對(duì)基于改進(jìn)后的算法建立的語音識(shí)別系統(tǒng)進(jìn)行了性能評(píng)估和對(duì)比。

一、語音識(shí)別算法

(一)動(dòng)態(tài)時(shí)間歸整算法

發(fā)音具有隨機(jī)性,同一個(gè)人在不同時(shí)間,不同場(chǎng)合對(duì)同一個(gè)字的發(fā)音長(zhǎng)度都不是完全一樣的。在語音識(shí)別的模版匹配中,這些長(zhǎng)度不一的發(fā)音將降低系統(tǒng)的識(shí)別率。為了解決這一問題,我們引入動(dòng)態(tài)時(shí)間歸整算法(Dynamic Time Warping,DTW)。在語音識(shí)別中,DTW算法是較早出現(xiàn),較為經(jīng)典的算法,它是基于動(dòng)態(tài)規(guī)劃(DP)的[2]。

提取參考語音信號(hào)的特征參數(shù)存入特征模板庫建立參考模板,提取待識(shí)別語音號(hào)的特征參數(shù)建立測(cè)試模板。DTW算法就是計(jì)算參考模板和測(cè)試模板各幀矢量之間的距離之和,總距離越小說明相似度越高,最后選取最小的總距離作為匹配結(jié)果。

這種識(shí)別算法雖然較為簡(jiǎn)單、有效,但是計(jì)算量大,存儲(chǔ)空間占用多,響應(yīng)時(shí)間長(zhǎng)。因此,文中對(duì)該算法進(jìn)行改進(jìn),以避免以上缺點(diǎn)。

改進(jìn)后的DTW算法將歸整函數(shù)限制在一個(gè)平行四邊形中(其中兩條邊的斜率為1/2,另外兩條邊的斜率為2)。在計(jì)算總距離時(shí)只需計(jì)算平行四邊形之內(nèi)各交點(diǎn)的匹配距離和累積距離,這樣減少了計(jì)算量,提高了系統(tǒng)的反應(yīng)速度,節(jié)省了存儲(chǔ)空間。

(二)隱馬爾可夫算法

隱馬爾可夫模型是在馬爾可夫鏈基礎(chǔ)上發(fā)展起來的一種語音信號(hào)統(tǒng)計(jì)模型,自從用來描述語音信號(hào)后,該模型迅速發(fā)展,使得HMM理論逐漸成為語音研究中的熱點(diǎn),語音識(shí)別的主流技術(shù)。

隱馬爾可夫模型HMM是一個(gè)雙重隨機(jī)過程,一重是可直接觀測(cè)的馬爾可夫鏈,用于描述狀態(tài)的轉(zhuǎn)移;另一重是隱含在觀察序列中的隨機(jī)過程,用于描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。

將HMM用于語音識(shí)別系統(tǒng)前,必須解決三個(gè)基本問題[3]:

1.模型評(píng)估

已知一個(gè)觀察序列和一個(gè)HMM模型,如何計(jì)算由此模型產(chǎn)生此觀察符號(hào)序列的輸出概率。

2.最優(yōu)狀態(tài)序列搜索

已知一個(gè)觀察序列和一個(gè)HMM模型,如何確定一個(gè)最佳狀態(tài)序列,使之產(chǎn)生的觀察序列的概率最大。

3.模型訓(xùn)練

已知一個(gè)觀察序列和一個(gè)HMM模型,如何根據(jù)觀察序列來確定模型的參數(shù)。

針對(duì)以上三個(gè)問題,可分別用前向-后向算法,Viterbi算法和Baum-Welch算法改進(jìn),改進(jìn)后的HMM算法較傳統(tǒng)算法在識(shí)別率方面有了明顯的提高。

(三)算法比較

基于模版匹配技術(shù)的DTW算法和基于隨機(jī)過程理論的HMM算法是比較有代表性的孤立詞識(shí)別算法。DTW算法應(yīng)用動(dòng)態(tài)規(guī)劃的方法解決了語音信號(hào)特征參數(shù)序列時(shí)間對(duì)準(zhǔn)問題,克服了語速的差異。DTW算法適用于訓(xùn)練樣本較少的情況下,訓(xùn)練過程簡(jiǎn)單,識(shí)別過程較復(fù)雜,多用于特定人孤立詞語音識(shí)別系統(tǒng)。

HMM算法HMM運(yùn)用狀態(tài)序列描述觀測(cè)向量的時(shí)間邏輯,通過多變量混合高斯分布表現(xiàn)觀測(cè)向量序列的空間分布[4]。為了獲得高識(shí)別率,HMM算法需要大量的訓(xùn)練樣本和存儲(chǔ)量,訓(xùn)練過程要耗費(fèi)較多時(shí)間,識(shí)別過程較簡(jiǎn)單,多用于連續(xù)大詞匯量語音識(shí)別系統(tǒng)。

二、系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

語音識(shí)別系統(tǒng)由預(yù)處理、特征提取、模型庫和模式匹配等四個(gè)基本單元構(gòu)成。系統(tǒng)的基本結(jié)構(gòu)如圖1所示:

(一)預(yù)處理

通過話筒將語音信號(hào)變成電信號(hào)輸入到語音識(shí)別系統(tǒng)中。首先對(duì)信號(hào)進(jìn)行一系列的預(yù)處理,包括采樣、量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。

采樣和量化就是將離散信號(hào)分別在時(shí)間上和幅度上轉(zhuǎn)化成離散形式。為了濾除低頻干擾,提升信號(hào)高頻部分,對(duì)信號(hào)進(jìn)行預(yù)加重處理。由于系統(tǒng)對(duì)信號(hào)的處理都是以短時(shí)為前提的,這就要將信號(hào)分割成許多語音段,即對(duì)語音信號(hào)分幀、加窗處理。原始語音信號(hào)往往包含無音段和有音段,端點(diǎn)檢測(cè)就是運(yùn)用數(shù)字處理技術(shù)來判斷各語音段的起點(diǎn)和終點(diǎn),從而找到有用的語音成分。文中使用基于短時(shí)能量和短時(shí)平均過零率的檢測(cè)方法判定語音信號(hào)的起始點(diǎn)和終止點(diǎn),即雙門限比較法。

(二)提取特征參數(shù)

經(jīng)過預(yù)處理的語音信號(hào)中并不是所有信息都是有用的,這就需要將語音信號(hào)經(jīng)過一次變換,去掉冗余部分,提取代表語音本質(zhì)的特征參數(shù)。文中采用近年來運(yùn)用比較廣泛的Mel頻率倒譜參數(shù),先將頻譜轉(zhuǎn)變?yōu)槊罓栴l標(biāo)的非線性頻譜,接著再轉(zhuǎn)換到倒譜域上[6]。MFCC參數(shù)充分考慮了人耳的聽覺特性,有很高的穩(wěn)健性和抗噪性能。

篇(7)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)07-0154-02

目前主流的語音識(shí)別算法田有隱馬爾科夫模型12’和深度神經(jīng)網(wǎng)絡(luò) 。對(duì)于建模單元統(tǒng)計(jì)概率模型描述,主要采用混合高斯模型(GMM),HMM-GMM模型在很長(zhǎng)一段時(shí)間是語音識(shí)別聲學(xué)建模的主流模型。2011年微軟在深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域取得突破并成功應(yīng)用于語音識(shí)別,深度神經(jīng)網(wǎng)絡(luò)因具有更加優(yōu)異的特征學(xué)習(xí)和特征表達(dá)能力成為研究的前沿。深度學(xué)習(xí)在語音識(shí)別中取得了較好的效果,但其需要的海量數(shù)據(jù)訓(xùn)練以及大規(guī)模并行運(yùn)算無法在嵌入式平臺(tái)上實(shí)現(xiàn)。

本文在嵌入式平臺(tái)上搭建一個(gè)機(jī)器人的控制命令小詞匯量漢語語音識(shí)別系統(tǒng),通過收集錄制控制命令的訓(xùn)練和測(cè)試語音數(shù)據(jù),設(shè)計(jì)訓(xùn)練過程需要用到的腳本,本文完成了控制命令的聲學(xué)模型和語言模型訓(xùn)練,最終使用訓(xùn)練好的模型文件構(gòu)建了一個(gè)以Sphinx為識(shí)別引擎的機(jī)器人語音識(shí)別系統(tǒng)。

1基于HMM的語音識(shí)別算法

一個(gè)典型的語音識(shí)別系統(tǒng)結(jié)構(gòu)如圖1所示,包括預(yù)處理單元、特征提取單元、模式匹配單元、模型庫建立單元四個(gè)部分。

HMM模型可表示為λ=(A,B,π),A為狀態(tài)轉(zhuǎn)移矩陣,B為觀察值概率矩陣,π為初始狀態(tài)概率分布,N表示馬爾可夫鏈狀態(tài)數(shù)目,M表示觀察值個(gè)數(shù)。在本文應(yīng)用中,主要運(yùn)用HMM模型解決控制命令的識(shí)別問題和聲學(xué)模型訓(xùn)練問題。

1.1語音識(shí)別算法識(shí)別問題

識(shí)別問題:給定觀測(cè)序列o={o1,o2,…,oT)和模型λ=(A,B,π),確定產(chǎn)生最優(yōu)O的狀態(tài)序列。識(shí)別問題主要用于識(shí)別過程中解碼,識(shí)別問題的基本算法為Viterbi算法,具體過程由以下公式迭代計(jì)算:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

1.2語音識(shí)別算法訓(xùn)練問題

訓(xùn)練問題;給定觀測(cè)序列O={o1,o2,…,oT)和模型λ=(A,B,π),如何得到一個(gè)最優(yōu)的HMM模型,即通過訓(xùn)練模型中各個(gè)參數(shù)使得P{O|λ)取最大值。語音識(shí)別中用于聲學(xué)模型的訓(xùn)練基本算法有Baum-Welch算法,實(shí)現(xiàn)過程如下:

(9)

(10)

將ξ(i,j)對(duì)#從1到T求和可求得狀態(tài)Si到Sj的轉(zhuǎn)移期望值,將γt(i)對(duì)t求和可求得從其他狀態(tài)訪問狀態(tài)Si的期望值,這兩個(gè)過程就是Baum-Welch算法基本思想。

2基于sphinx的機(jī)器人語音識(shí)別系統(tǒng)構(gòu)建

2.1實(shí)驗(yàn)系統(tǒng)與設(shè)置

機(jī)器人語音識(shí)別系統(tǒng)設(shè)計(jì)如圖2所示:

嵌入式主控平臺(tái)主要負(fù)責(zé)語音識(shí)別,識(shí)別麥克風(fēng)傳人的語音控制命令,再通過無線模塊與機(jī)器人通信,最終實(shí)現(xiàn)了語音命令控制機(jī)器人的效果。選擇的命令包括“前進(jìn)”、“后退”、“左轉(zhuǎn)”、“右轉(zhuǎn)”、“停止”、“啟動(dòng)”、“開燈”、“關(guān)燈”、“開電源”、“關(guān)電源”。

2.2數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備主要分為語言模型數(shù)據(jù)和聲學(xué)模型數(shù)據(jù)兩大部分,下面分別介紹。

2.2.1語言模型數(shù)據(jù)準(zhǔn)備

本文使用CMUClmtk工具進(jìn)行語言模型訓(xùn)練,CMUClmtk將統(tǒng)計(jì)控制命令文本數(shù)據(jù)產(chǎn)生以單個(gè)詞建立的N_Gram模型。N-Gram模型的基本思想是,當(dāng)前詞的出現(xiàn)只與該詞前面出現(xiàn)的所有詞有關(guān),各個(gè)詞出現(xiàn)概率的乘積就是整個(gè)句子出現(xiàn)的概率。從語料中統(tǒng)計(jì)每個(gè)詞同時(shí)出現(xiàn)的次數(shù)可得到各個(gè)詞的概率,準(zhǔn)備好用于語言模型訓(xùn)練的語言數(shù)據(jù)之后,CMUClmtk將統(tǒng)計(jì)文本文件中每個(gè)詞出現(xiàn)的次數(shù)和詞的總數(shù),然后列舉文本中出現(xiàn)的每一個(gè)詞的n元語法,最終轉(zhuǎn)換為Sphinx需要的二進(jìn)制格式(DMP)語言模型。

2.2.2聲學(xué)模型數(shù)據(jù)準(zhǔn)備

聲學(xué)模型數(shù)據(jù)準(zhǔn)備首先需要錄制用于訓(xùn)練和測(cè)試的原始語音文件,然后準(zhǔn)備字典文件,字典文件包括主字典文件和補(bǔ)充字典文件,主字典文件中包含了需要進(jìn)行訓(xùn)練的控制命令以及與控制命令相對(duì)應(yīng)的音素集,補(bǔ)充字典主要列舉了非語音單詞,它包括靜音,背景噪聲等。下一步將字典文件通過命令腳本生成音素文件,音素文件包含所有訓(xùn)練的音素集。

2.3模型訓(xùn)練

首先對(duì)訓(xùn)練的語音信號(hào)提取特征向量,Sphinxtrain采用提取梅爾頻率倒譜系數(shù)(MFCC)作為特征向量。下面分別為字典中每個(gè)音素建立上下文無關(guān)模型(CI-modds),并為音素關(guān)聯(lián)狀態(tài)建立上下文有關(guān)模型(CD-unfied models)以及建立決策樹,可以通過決策樹聚類的方法來減少參數(shù)數(shù)量。下一步將為音素訓(xùn)練最終聚類后的CD模型(CD-tied models),刪除插值是一個(gè)為了減少過度擬合的一個(gè)迭代過程,最終得到由均值文件、方差文件、混合權(quán)重文件和轉(zhuǎn)移矩陣文件組成的控制命令聲學(xué)模型。

2.4語音識(shí)別

在完成以上聲學(xué)模型訓(xùn)練過程之后,系統(tǒng)會(huì)使用測(cè)試語音對(duì)訓(xùn)練好的聲學(xué)模型進(jìn)行解碼。使用Viterbi算法計(jì)算概率最大路徑的輸出概率得到識(shí)別結(jié)果,系統(tǒng)會(huì)統(tǒng)計(jì)解碼器對(duì)測(cè)試語音的錯(cuò)詞率作為識(shí)別結(jié)果。

3結(jié)果及分析

本實(shí)驗(yàn)系統(tǒng)環(huán)境為Ubuntul2.04系統(tǒng),在實(shí)驗(yàn)室環(huán)境錄制了20名同學(xué)的語音,其中男10名,女10名,在無噪聲環(huán)境下采用近距離麥克風(fēng)錄制,數(shù)據(jù)采樣率為16kHz,16位量化編碼,每位同學(xué)將以正常說話語速將10個(gè)命令錄制10次,將10位男生和10位女生前5次錄音作為訓(xùn)練數(shù)據(jù),后5次錄音作為測(cè)試數(shù)據(jù),對(duì)訓(xùn)練好的聲學(xué)模型進(jìn)行測(cè)試,采用錯(cuò)詞率(WER)作為標(biāo)準(zhǔn)來統(tǒng)計(jì)結(jié)果,假設(shè)有一個(gè)N個(gè)單詞長(zhǎng)度的原始文本和識(shí)別出來的文本。I代表入的單詞個(gè)數(shù),D代表被刪除的單詞個(gè)數(shù),S代表被替換的單詞個(gè)數(shù),那么錯(cuò)詞率就定義為:

WER=(I+D+S)/N (11)

系統(tǒng)的識(shí)別結(jié)果如表1所示:

篇(8)

1.引言

在小詞匯量的語音識(shí)別系統(tǒng)中,主要分為孤立詞識(shí)別和基于詞網(wǎng)模型的連續(xù)語音識(shí)別。前者通過詞發(fā)音端點(diǎn)分割算法,把每個(gè)詞的發(fā)音從整段語音中分割出來,然后再到模型集中去尋找最佳的匹配作為識(shí)別結(jié)果。XML同HTML一樣,都來自SGML(標(biāo)準(zhǔn)通用標(biāo)記語言)。SGML是一種在Web發(fā)明之前就早已存在的用標(biāo)記來描述文檔資料的通用語言。但SGML十分龐大且難于學(xué)習(xí)和使用。鑒于此,人們提出了XML 語言,它具有可擴(kuò)展性、靈活性、自描述性、簡(jiǎn)明性的優(yōu)點(diǎn)。

在MYASR系統(tǒng)中有多個(gè)功能模塊,每個(gè)功能模塊都有各自的參數(shù),采用XML語言對(duì)這些參數(shù)進(jìn)行描述更加直觀,可讀性更強(qiáng)。例如,MYASR中MFCC編碼的XML描述如下:

<mfcc_params>

 <type_mask>  MFCC_0_D_A  </type_mask>

 <sample_rate> 16000 </sample_rate>

 <win_size>  400 </win_size>

 <win_shift> 160 </win_shift>

 <fft_size>  512 </fft_size>

 <low_freq>  200  </low_freq>

 <high_freq> 7000  </high_freq>

 <pre_enphasis> 0.97 </pre_enphasis>

 <mel_num>  26  </mel_num>

 <cep_num>  12  </cep_num>

 <cep_lifter>  10  </cep_lifter>

</mfcc_params>

MYASR通過XML解析器將XML元素中的參數(shù)提取出來,然后再傳遞給各個(gè)功能模塊。當(dāng)需要增加參數(shù)時(shí),只要在XML文件中適當(dāng)位置增加一個(gè)元素(Element)即可,具有良好的可擴(kuò)展性。

3.系統(tǒng)開發(fā)

MYASR系統(tǒng)的模塊結(jié)構(gòu)如下所示:

3.1前端處理

MYASR的前端處理包括以下功能模塊:自動(dòng)增益控制(AGC)、噪音消除、預(yù)加重處理。其相應(yīng)的XML描述如下:

<preprocess_bat workdir="d:worktmp">

 <params>

  <frame_ts> 20 </frame_ts>       //幀長(zhǎng)

  <agc>

   <level> 0.5 </level>  

   <max_gain> 2.0 </max_gain>  //最大增幅

   <min_gain> 1.0 </min_gain>   //最小增幅

  <agc>

  <pre_enphasis> 0.97 </pre_enphasis>//預(yù)加重系數(shù)

  <denoise>1</denoise>    //噪音消除

 </params>

 <transcrip> pretrans.scp </transcrip>

</preprocess_bat>

其中屬性"workdir"表示當(dāng)前的工作目錄,元素<agc>表示自動(dòng)增益控制參數(shù),元素<pre_enphasis>表示預(yù)加重參數(shù),元素<denoise>表示是否對(duì)語音進(jìn)行噪音消除。元素<transcrip>表示批處理文件,此文件中描述了目標(biāo)文件名及處理后的文件名,內(nèi)容如下:

"speech1.wav"  "speech1_dn.wav"

"speech2.wav"  "speech2_dn.wav"

"speech3.wav"  "speech3_dn.wav"

.........

3.2端點(diǎn)分割

在MYASR系統(tǒng)中,實(shí)現(xiàn)兩種類型的端點(diǎn)分割:句子端點(diǎn)檢測(cè),詞端點(diǎn)檢測(cè)。采用的靜音檢測(cè)方法有【2】:基于短時(shí)能量、基于短時(shí)平均過零率、和基于GMM模型。其XML描述如下:

 <endpoint>

  <endpoint_method> SENT_CUT </endpoint_method>

  <vad_method> GMM_VAD </vad_method>

  <sil_interval> 500 </sil_interval>            //單位為毫秒

</endpoint>

元素<endpoint_method>表示端點(diǎn)分割方法:設(shè)置SENT_CUT表示句子端點(diǎn)分割,設(shè)置WORD_CUT表示詞端點(diǎn)分割。元素<vad_method>表示靜音檢測(cè)的方法:設(shè)置GMM_VAD 表示采用基于GMM模型,PW_VAD表示基于短時(shí)能量,COS_VAD表示基于短時(shí)平均過零率。<sil_interval>元素表示檢測(cè)對(duì)象之間允許的停頓時(shí)間,超過停頓時(shí)間意味著出現(xiàn)新的句子或詞。

3.3特征提取

MYASR系統(tǒng)中目前采用MFCC結(jié)合動(dòng)態(tài)差分參數(shù)作為特征矢量。將語音文件轉(zhuǎn)換為MFCC編碼的XML描述文件如下所示:

 <wav2mfcc workdir = "d:myworkdir">

  <params_xml>mfccparams.xml</params_xml>

  <transcrip> trans.scp </transcrip>

</wav2mfcc>

其中mfccparams.xml是MFC C特征參數(shù)的描述文件,內(nèi)容如下:

<mfcc_params>

 <type_mask>  MFCC_0_D_A  </type_mask>//類型

 <sample_rate> 16000 </sample_rate>  //采樣率

       <win_size>  400  </win_size> //幀長(zhǎng)

 <win_shift> 160   </win_shift>    //幀移

 <fft_size>  512   </fft_size>   //FFT的窗長(zhǎng)

 <low_freq>  200  </low_freq>   //截止的最低頻率

 <high_freq>  7000 </high_freq>   //截止的最高頻率

 <mel_num>  26  </mel_num>   //MEL濾波器數(shù)

 <cep_num>  12  </cep_num>   //MFCC維數(shù)

 <cep_lifter>  10  </cep_lifter>   //參數(shù)提升系數(shù)

</mfcc_params>

其中<type_mask>元素表示特征矢量標(biāo)志,有6種類型:

表3-1  MYASR中MFCC編碼類型

標(biāo)志

含義

MFCC

MFCC參數(shù)

MFCC_0

MFCC參數(shù)加對(duì)數(shù)能量

MFCC_D

MFCC參數(shù)及其一階差分

MFCC_0_D

MFCC參數(shù)加對(duì)數(shù)能量,及一階差分

MFCC_D_A

MFCC參數(shù)及其一階、二階差分

MFCC_0_D_A

MFCC參數(shù)加對(duì)數(shù)能量,及一階、二階差分

<transcrip>元素中的trans.tsp文件描述了語音源文件及轉(zhuǎn)換成MFCC的目標(biāo)文件,內(nèi)容如下:

"speech1.wav"  "speech1.mfc"

"speech2.wav"  "speech2.mfc"

"speech3.wav"  "speech3.mfc"

.........

3.4模型訓(xùn)練

MYASR采用了連續(xù)概率密度的HMM模型,模型參數(shù)初始化采用了"K-均值分割"算法,參數(shù)重估采用"Baum-Welch"算法。其XML描述文件如下:

<hmm_train workdir="d:worktmpmytimit">

 <label_scrip> phones.lst </label_scrip>    

 <featlep_scrip> trainmfcclabep.scp </featlep_scrip>  

 <hmm_params>

  <state_num>3</ state_num >      //HMM狀態(tài)數(shù)

  <mixture>4</mixture>       //高斯分量個(gè)數(shù)

  <veclen>39</veclen>       //特征矢量維數(shù)

  <cluster>GMM_EM</cluster>     //聚類算法

  <feat_flag>MFCC_0_D_A</feat_flag>   //特征矢量標(biāo)志

 </hmm_params>

 <model_file>modelhmmmodelEM4.xml</model_file> //輸出文件

</ hmm _train>

其中,<label_scrip>元素中的文件phones.lst表示要訓(xùn)練的那些詞或音子。

<featlep_scrip>元素中的文件trainmfcclabep.scp描述了特征矢量文件及其標(biāo)注文件,內(nèi)容如下:

"mfcspeech1.mfc"  "labspeech1.lab"

"mfcspeech2.mfc"  "labspeech2.lab"

"mfcspeech3.mfc"  "labspeech3.lab"

.........

標(biāo)注文件".lab"中注明了每個(gè)單元的發(fā)音起點(diǎn)和終點(diǎn),MYASR將根據(jù)標(biāo)注文件從特征文件中讀取特征矢量進(jìn)行HMM模型的訓(xùn)練。標(biāo)注文件內(nèi)容如下:

0    191   sil

191  285   sh

285  358   ix

358  415   hh

415  548   eh

548  646   jh

646  720   ih

720  790   d

790  920   ah

....

其中時(shí)間單位為毫秒。

<cluster>元素表示"K-均值分割"算法中對(duì)B參數(shù)進(jìn)行重估所采用的算法,有兩種選項(xiàng):GMM_EM表示EM算法,K_MEANS表示"K-means"算法。實(shí)驗(yàn)結(jié)果顯示,EM算法比"K-means"算法具有更好的性能。

<model_file>表示訓(xùn)練輸出的HMM模型文件,內(nèi)容如下:

<hmm_set>

 <params>

  <feat_mask>MFCC_0_D_A</feat_ mask >

  <state_num>3</state_num>

  <mixture>4</mixture>

  <vec_len>39</vec_len>

 </params>

 <hmm >

  <state>

 <mixture> 1.906841e+001 1.900540e-001 ......</mixture> //均值

<var>     2.945649e+001 1.096035e+002......</var>    //方差

<weight>  2.212352e-001 </weight>  

 //權(quán)重

           </state>

           ......

</hmm>

......

</hmm_ set >

3.5詞網(wǎng)構(gòu)建

3.5.1 詞網(wǎng)模型的雙層結(jié)構(gòu)

MYASR中的詞網(wǎng)模型分為兩層:一層是描述層,主要用于描述詞網(wǎng)的結(jié)構(gòu),包括上下文無關(guān)文法和有限狀態(tài)圖;另一層是模型層,這一層由HMM模型構(gòu)成的搜索網(wǎng)絡(luò),是搜索算法的輸入。首先由用戶定義語法規(guī)則,然后轉(zhuǎn)換成有限狀態(tài)圖,最后結(jié)合HMM模型集和發(fā)音字典將其轉(zhuǎn)化成搜索算法可以處理的模型層搜索網(wǎng)絡(luò)。

3.5.2 描述層到模型層的轉(zhuǎn)換

在模型層搜索網(wǎng)絡(luò)中,按節(jié)點(diǎn)是否有詞輸出分為兩類:空節(jié)點(diǎn)和詞節(jié)點(diǎn)。空節(jié)點(diǎn)中不含有HMM模型,而只是作為詞網(wǎng)中的一個(gè)過度節(jié)點(diǎn),如起始節(jié)點(diǎn)(#START),終止節(jié)點(diǎn)(#END),中轉(zhuǎn)節(jié)點(diǎn)(#L)都是沒有詞輸出的節(jié)點(diǎn)。而詞節(jié)點(diǎn)則包含了構(gòu)成這個(gè)詞的HMM模型。

詞網(wǎng)模型的有限狀態(tài)圖轉(zhuǎn)換成模型層搜索網(wǎng)絡(luò)的過程為:當(dāng)遇到空節(jié)點(diǎn)時(shí),不作處理;當(dāng)遇到詞結(jié)點(diǎn)時(shí),在字典哈希表找到這個(gè)詞,并保存word_id,word_id是這個(gè)詞在字典哈希表的索引,當(dāng)搜索結(jié)束后,回溯時(shí)就是根據(jù)這個(gè)word_id找到哈希表中對(duì)應(yīng)的詞;同時(shí)根據(jù)這個(gè)詞的發(fā)音,到HMM哈希表中查找子詞的HMM模型,然后在這個(gè)詞結(jié)點(diǎn)中創(chuàng)建指向子詞HMM模型的指針。轉(zhuǎn)換后的模型層搜索網(wǎng)絡(luò)如圖3-4所示。

    模型層搜索網(wǎng)絡(luò)構(gòu)建后,就可以用Token-Passing算法進(jìn)行搜索。

4 總結(jié)

篇(9)

1 前言

新一代特種車輛的車載顯控系統(tǒng)對(duì)復(fù)雜噪聲環(huán)境下的語音控制(語音識(shí)別與語音合成)組件提出了新的需求,當(dāng)前的車載顯控系統(tǒng)需要具備語音采集、識(shí)別和合成輸出的功能,而特種車輛在任務(wù)中的復(fù)雜噪聲的污染會(huì)使許多語音處理系統(tǒng)性能急劇惡化。由于特種車輛的車載強(qiáng)噪聲環(huán)境的特殊性,現(xiàn)有的商用語音識(shí)別模塊產(chǎn)品均難以滿足其環(huán)境的使用要求。

本文基于特種車輛對(duì)語音控制設(shè)計(jì)需求,針對(duì)特種車輛座艙(以下簡(jiǎn)稱車載座艙)殊的噪聲環(huán)境,進(jìn)行車載座艙噪聲環(huán)境下語音降噪組件設(shè)計(jì),實(shí)現(xiàn)了語音信號(hào)的降噪處理,并采用商用的語音識(shí)別模塊進(jìn)行測(cè)試驗(yàn)證。測(cè)試結(jié)果表明,此方案在車載座艙環(huán)境下具有很好的降噪效果。

2 系統(tǒng)構(gòu)成及工作原理

2.1 系統(tǒng)構(gòu)成

車載座艙語音降噪系統(tǒng)由硬件平臺(tái)和語音降噪軟件兩部分組成,具體如下:

2.1.1 硬件組成

基于Freescalei.MX6 Dual SOC平臺(tái)的語音降噪模塊、XFV5310語音識(shí)別與合成模塊;

2.1.2 軟件組成

OS為L(zhǎng)inux,內(nèi)核為3.14.52,嵌入式語音降噪軟件。

2.2 工作原理

車載座艙語音降噪識(shí)別系統(tǒng)的工作原理為:當(dāng)駕駛員啟動(dòng)語音控制功能時(shí),i.MX6D語音降噪模塊向XFV5310語音識(shí)別模塊發(fā)送語音識(shí)別啟動(dòng)命令,音頻采集模塊開始采集駕駛員說出的帶噪語音指令,經(jīng)由語音降噪模塊實(shí)時(shí)處理后,將降噪后的語音指令傳送給語音識(shí)別模塊,根據(jù)識(shí)別結(jié)果進(jìn)行相應(yīng)指令的操作響應(yīng),從而執(zhí)行駕駛員下達(dá)的語音指令。圖1所示為車載座艙語音降噪系統(tǒng)的工作原理框圖。

如圖1所示,車載座艙語音降噪識(shí)別系統(tǒng)的工作原理如下:

(1)帶噪語音源獲取有兩種方式:

1.由音箱播放特種車輛真實(shí)任務(wù)過程中的車內(nèi)環(huán)境噪聲文件來模擬車載噪聲環(huán)境,噪聲強(qiáng)度通過分貝測(cè)試儀的讀數(shù)控制;通過MIC說出語音指令;

2.讀取事先錄制的并按照特定信噪比疊加的.wav格式帶噪語音指令文件。

(2)通過音頻編解碼芯片STGL5000將輸入的模擬帶噪音頻進(jìn)行PCM編碼,并將數(shù)字帶噪音頻輸出給語音降噪軟件;

(3)語音降噪軟件對(duì)數(shù)字帶噪音頻進(jìn)行降噪處理,生成數(shù)字降噪音頻。

(4)降噪音頻存儲(chǔ)文件和播放輸出:

1.數(shù)字降噪音頻輸出給STGL5000進(jìn)行PCM解碼和DA轉(zhuǎn)換,生成模擬降噪音頻,通過2.0音箱播放并輸入給XFV5310模塊進(jìn)行語音識(shí)別;

2.數(shù)字降噪音頻數(shù)據(jù)存儲(chǔ)為wav格式音頻文件。

(5)語音降噪軟件的串口通訊:

1.通過RS232調(diào)試串口控制車載座艙語音降噪組件的工作狀態(tài):開始工作、錄音模式(開始錄音、停止錄音)、讀取wav文件模式、停止工作,并實(shí)時(shí)顯示組件的工作狀態(tài)和語音識(shí)別結(jié)果;

2.通過RS232通訊串口,根據(jù)XFV5310串口通訊協(xié)議,控制XFV5310模塊的工作狀態(tài)(初始化、開始識(shí)別、停止)并接收回傳的狀態(tài)信息和語音識(shí)別結(jié)果。

3 系統(tǒng)軟件算法設(shè)計(jì)

車載座艙語音降噪識(shí)別軟件(以下簡(jiǎn)稱CSE軟件)運(yùn)行在嵌入式Linux操作系統(tǒng)下,用于采集模擬帶噪語音信號(hào),對(duì)采集的數(shù)字帶噪音頻信號(hào)進(jìn)行降噪處理,并將降噪語音信號(hào)發(fā)送給語音識(shí)別與合成模塊進(jìn)行語音識(shí)別,最后處理識(shí)別模塊返回的識(shí)別結(jié)果。CSE軟件主要完成初始化功能、語音錄音功能、WAV文件讀取功能、WAV文件存儲(chǔ)功能、語音播放功能、語音降噪功能以及RS232串口通訊功能。CSE軟件執(zhí)行流程圖如圖2所示。

初始化模塊主要完成RS232串口初始化、錄音配置、語音播放配置及信號(hào)量初始化。

錄音模塊主要完成音頻采集。由于規(guī)定語音指令長(zhǎng)度最大為5S,在錄音時(shí)判斷錄音時(shí)間是否達(dá)到5S或是否收到結(jié)束信號(hào),如兩者均未發(fā)生,則采集一個(gè)周期音頻樣本,并保存至帶噪音頻數(shù)組中,如此循環(huán),直至收到錄音結(jié)束控制信號(hào)或錄音時(shí)間達(dá)到5S。

WAV文件存儲(chǔ)模塊實(shí)現(xiàn)將音頻文件以.WAV格式存儲(chǔ)。首先存儲(chǔ)WAV文件頭,主要完成WAV文件文件頭數(shù)據(jù)初始化,并檢查文件頭每個(gè)字節(jié)的合法性,最后將檢測(cè)合格的WAV文件文件頭存儲(chǔ)在.wav文件中,WAV文件頭存儲(chǔ)后將音頻數(shù)據(jù)寫在WAV文件頭數(shù)據(jù)后。

WAV文件讀取模塊實(shí)現(xiàn)讀取WAV文件文件頭,對(duì)文件頭進(jìn)行解析,并讀取WAV文件的音頻數(shù)據(jù)。

音頻播放模塊主要實(shí)現(xiàn)將降噪處理后的音頻數(shù)據(jù)實(shí)時(shí)地通過聲卡播放出來,以做識(shí)別處理。由于在ALSA音頻驅(qū)動(dòng)中,對(duì)音頻設(shè)備的數(shù)據(jù)訪問以及音頻數(shù)據(jù)的存儲(chǔ)都是以周期為單位進(jìn)行操作,所以在播放時(shí)要判斷已經(jīng)降噪處理但未播放的音頻數(shù)據(jù)是否達(dá)到周期樣本數(shù),如達(dá)到則播放音頻數(shù)據(jù),其次還要判斷錄音是否已經(jīng)結(jié)束,如果結(jié)束,判斷是否還有音頻數(shù)據(jù)未播放,如有則播放剩余的音頻數(shù)據(jù)。

語音降噪模塊對(duì)采集或從文件中讀取的帶噪語音進(jìn)行降噪處理。首先采用可移動(dòng)的有限長(zhǎng)度窗口實(shí)現(xiàn)對(duì)帶噪語音分幀加窗,分幀加窗結(jié)束后,將每一幀帶噪語音分別進(jìn)行短時(shí)快速傅里葉變換,然后實(shí)現(xiàn)帶噪音頻的降噪。實(shí)現(xiàn)SMSS降噪算法的基本思想是基于統(tǒng)計(jì)模型更新信噪比和當(dāng)前幀噪聲功率譜,根據(jù)帶噪語音頻譜中不同頻帶的信噪比,確定噪聲的譜減因子,然后用帶噪語音減去噪聲和譜減因子的乘積,得到降噪后的語音。在信噪比更新方面,主要采取由先驗(yàn)信噪比和后驗(yàn)信噪比決定SNR的方法,在噪聲譜估計(jì)方面基于統(tǒng)計(jì)模型的VAD方法。降噪處理后再進(jìn)行短時(shí)快速傅里葉反變換(ISFFT),得到時(shí)域的降噪語音信號(hào)數(shù)據(jù),按幀續(xù)進(jìn)行逆分幀重排后得到降噪后的語音信號(hào),最后進(jìn)行存儲(chǔ)為.WAV格式文件或者直接播放輸出。

串口通訊模塊主要實(shí)現(xiàn)發(fā)送識(shí)別請(qǐng)求,獲取識(shí)別請(qǐng)求響應(yīng)結(jié)果以及對(duì)識(shí)別結(jié)果解析。在語音播放之前,需要啟動(dòng)XFV5310開發(fā)板的識(shí)別功能,由識(shí)別啟動(dòng)模塊發(fā)送語音識(shí)別啟動(dòng)命令,開發(fā)板收到命令幀后會(huì)判斷此命令幀正確與否,并回傳結(jié)果,識(shí)別啟動(dòng)模塊接收回傳數(shù)據(jù)。發(fā)送識(shí)別啟動(dòng)命令后,如果識(shí)別啟動(dòng)模塊在5.5S內(nèi)未收到XFV5310開發(fā)板回傳,則默認(rèn)識(shí)別開發(fā)板無反應(yīng),識(shí)別啟動(dòng)模塊將退出等待。當(dāng)語音識(shí)別啟動(dòng)后,XFV5310開發(fā)板將會(huì)在識(shí)別處理結(jié)束后將相應(yīng)的識(shí)別結(jié)果回傳給CSE軟件。回傳的數(shù)據(jù)以“幀”的方式封裝后傳輸。識(shí)別結(jié)果解析功能是當(dāng)語音降噪軟件接收到XFV5310開發(fā)板的回傳的識(shí)別結(jié)果,根據(jù)通訊協(xié)議對(duì)XFV5310開發(fā)板發(fā)來的識(shí)別結(jié)果解碼。

4 系統(tǒng)測(cè)試驗(yàn)證

4.1 測(cè)試環(huán)境

車載座艙語音降噪組件的測(cè)試驗(yàn)證試驗(yàn)中,各模塊間的交聯(lián)關(guān)系如圖3所示。

4.2 測(cè)試方法及結(jié)果

在車載復(fù)雜噪聲環(huán)境下,特定信噪比(-5dB、0dB、5dB)的語音指令,未經(jīng)降噪前語音質(zhì)量差,指令模糊,商用XFV5310語音識(shí)別與合成模塊對(duì)指令識(shí)別率低于65%。經(jīng)過本文設(shè)計(jì)的車載座艙語音降噪軟件處理后,系統(tǒng)的測(cè)試結(jié)果如表1所示。

4.3 測(cè)試結(jié)果分析

車載座艙語音降噪識(shí)別系統(tǒng)功能完整,語音錄音、播放、WAV文件讀取、存儲(chǔ)、語音降噪處理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的語音指令識(shí)別率能夠滿足需方規(guī)定的指標(biāo)要求;語音降噪算法、降噪與識(shí)別的總耗時(shí)穩(wěn)定,不會(huì)隨著語音指令的增長(zhǎng)而增加耗時(shí),能夠滿足需方規(guī)定的指標(biāo)要求。

5 結(jié)束語

特種車輛工作環(huán)境下的帶噪語音經(jīng)車載座艙語音降噪識(shí)別系統(tǒng)處理后的語音聽感清晰,無明顯失真,無明顯噪聲殘留,且運(yùn)行總耗時(shí)較少,能夠滿足車載環(huán)境下語音降噪需求,配合商用的語音識(shí)別與合成模塊XFV5310組成的系統(tǒng)能夠滿足特種車輛在惡劣工作環(huán)境下的語音控制功能,將該系統(tǒng)與車載顯控模塊集成,滿足需方的功能與性能指標(biāo)要求,經(jīng)過實(shí)際裝車使用測(cè)試,證明本文設(shè)計(jì)的車載座艙語音降噪識(shí)別系統(tǒng)功能性、穩(wěn)定性和可靠性均能滿足特種車輛的使用要求。

參考文獻(xiàn)

[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.

[2]宋知用.MATLAB在語音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.

[3]易克初,田斌,付強(qiáng).語音信號(hào)處理[M]. 北京:國(guó)防工業(yè)出版社,2003.

[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.

[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.

[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.

[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.

[8]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.

[9]程塔,郭雷,趙天云,賀勝.非平穩(wěn)噪聲環(huán)境下的語音增強(qiáng)算法[J].西北工業(yè)大學(xué)學(xué)報(bào),2010,28(5):664-668.

[10]蔣海霞,成立新,陳顯治.一種改進(jìn)的譜相減語音增強(qiáng)方法[J].理工大學(xué)學(xué)報(bào),2001,2(l):41-44.

[11]孫楊,原猛,馮海泓.一種基于統(tǒng)計(jì)模型的改進(jìn)譜減降噪算法[J].聲學(xué)技術(shù),2013,32(2):115-118.

作者簡(jiǎn)介

篇(10)

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2016)11-00-03

0 引 言

智能家居(smart home)的概念很早就被提出來,但是一直沒有在現(xiàn)實(shí)中被具體實(shí)踐,直到1984年出現(xiàn)的首棟智能型建筑拉開了全人類爭(zhēng)相構(gòu)建智能家居的帷幕。智能家居不是某一項(xiàng)家庭電器的智能化,而是以住宅為平臺(tái),為實(shí)現(xiàn)家居安全舒適、科學(xué)環(huán)保、健康節(jié)能的家居生活環(huán)境,依賴綜合布線和網(wǎng)絡(luò)通信技術(shù),將家電設(shè)備聯(lián)系起來,構(gòu)建高效、流暢的家居設(shè)備管理系統(tǒng),方便人們對(duì)家用設(shè)備進(jìn)行操作與管理,為人類提供智能、舒適的生活方式。

1 語音識(shí)別的發(fā)展歷史及應(yīng)用領(lǐng)域

從工業(yè)革命開始,人類逐漸受益于高速的機(jī)器生產(chǎn),但隨著科技的發(fā)展,人類開始?jí)粝胫c機(jī)器進(jìn)行交流溝通,讓機(jī)器明白人類的命令,然后給予回應(yīng),真正實(shí)現(xiàn)用機(jī)器代替人類進(jìn)行繁重勞動(dòng)的目標(biāo)。語音識(shí)別技術(shù)為該目標(biāo)的實(shí)現(xiàn)提供了可能,該技術(shù)將其接收到的音頻信號(hào)轉(zhuǎn)換為機(jī)器可識(shí)別的文本或命令后進(jìn)行進(jìn)一步處理。現(xiàn)如今,經(jīng)歷半個(gè)多世紀(jì)的探索與創(chuàng)新,語音識(shí)別技術(shù)在各領(lǐng)域都實(shí)現(xiàn)了應(yīng)用,小到兒童玩具、個(gè)人家庭電器、電子產(chǎn)品,大到醫(yī)療、工業(yè)生產(chǎn)等,語音識(shí)別系統(tǒng)都發(fā)揮著不可替代的作用。從世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的語音識(shí)別系統(tǒng)到如今廣泛應(yīng)用在各行各業(yè)的語音識(shí)別系統(tǒng),我們希望語音識(shí)別技術(shù)在未來取得更大的發(fā)展。

語音識(shí)別技術(shù)的發(fā)展離不開研究者們的卓越貢獻(xiàn),由一開始特定人、小詞匯的識(shí)別到如今非特定人、連續(xù)發(fā)音、大量詞匯的識(shí)別,這其中各種技術(shù)的更新發(fā)展必不可少。廣泛使用的計(jì)算機(jī)網(wǎng)絡(luò)和普遍使用的手機(jī)、ipad等提供了大量文本和語音方面的材料資源,多渠道的資源為語音識(shí)別中的語言模型和聲學(xué)模型的訓(xùn)練提供了有力支持。語音識(shí)別的未來發(fā)展令人期待。

2 智能家居聲控系統(tǒng)的方案設(shè)計(jì)

2.1 系統(tǒng)總體結(jié)構(gòu)圖

圖1所示為系統(tǒng)總體設(shè)計(jì)結(jié)構(gòu)框圖。該系統(tǒng)的硬件部分包括電源、LD3320芯片、單片機(jī)、繼電器等。語音識(shí)別由LD3320芯片實(shí)現(xiàn),系統(tǒng)整體控制由MCS-51單片機(jī)實(shí)現(xiàn),包括對(duì)LD3320芯片的初始化等。用戶語音指令經(jīng)麥克風(fēng)送給LD3320語音識(shí)別模塊,LD3320識(shí)別處理后,把識(shí)別結(jié)果傳送給單片機(jī),單片機(jī)將根據(jù)識(shí)別結(jié)果對(duì)外設(shè)進(jìn)行相應(yīng)控制。若語音指令無法識(shí)別,則由單片機(jī)控制LD3320語音模塊重新進(jìn)入新的識(shí)別處理過程。

2.2 LD3320語音識(shí)別模塊

LD3320芯片是一個(gè)專用于語音識(shí)別的芯片,該芯片在設(shè)計(jì)時(shí)注重高效與節(jié)能,無需外接任何輔助芯片,直接集成了語音識(shí)別處理模塊和外部電路,如麥克風(fēng)接口、語音輸出接口、AD/DA轉(zhuǎn)換器等,使其可以實(shí)現(xiàn)語音識(shí)別、聲音控制及人機(jī)對(duì)話等功能。

2.2.1 主要特征

完成非特定人的語音識(shí)別命令。在語音識(shí)別技術(shù)發(fā)展之初,只能由特定的人進(jìn)行語音命令來完成任務(wù),且需要錄音和練習(xí)等,而現(xiàn)在只需用戶使用相同的語言就可以進(jìn)行識(shí)別,且識(shí)別效率大大提高,識(shí)別率高達(dá)95%,無需外接輔助,實(shí)現(xiàn)了單芯片語音識(shí)別。

由于用戶的語音命令有多種可能,如意思相同但語音命令不同或受到口音語氣的影響等,LD3320芯片中的識(shí)別語句是動(dòng)態(tài)可編輯,可修改的,在設(shè)計(jì)時(shí)可根據(jù)具體情況考慮多種可能,如設(shè)置50條識(shí)別語句留作用戶語音命令的候選語音,以提高系統(tǒng)的整體水平。不過設(shè)置時(shí)需注意識(shí)別語句的長(zhǎng)度,如果設(shè)置漢字則不能超過10個(gè),設(shè)置拼音串則不能超過79個(gè)。支持串行接口和并行接口,也可設(shè)置為休眠狀態(tài),方便激活。

2.2.2 LD3320語音口令識(shí)別處理過程

LD3320芯片的語音口令識(shí)別處理過程如圖2所示。

2.2.3 LD3320語音識(shí)別模塊使用技巧

在一些特別的應(yīng)用場(chǎng)合,人們希望語音識(shí)別系統(tǒng)具有較高的識(shí)別精度。本系統(tǒng)設(shè)計(jì)采用“用戶口令觸發(fā)模式”以提高抗干擾能力,避免單片機(jī)對(duì)外設(shè)控制時(shí)產(chǎn)生錯(cuò)誤動(dòng)作。

程序設(shè)計(jì)中設(shè)置一個(gè)短句作為用戶命令的觸發(fā)口令。如定義“小明”作為用戶的觸發(fā)口令。在等待用戶觸發(fā)時(shí),特別是有雜音、噪音的情況下,系統(tǒng)將啟動(dòng) “循環(huán)識(shí)別處理”模式,把觸發(fā)口令“小明”和其他幾十個(gè)用來吸收錯(cuò)誤的詞匯設(shè)置進(jìn)LD3320語音識(shí)別芯片。如果LD3320芯片中程序檢測(cè)到用戶的觸發(fā)口令時(shí),則開啟“觸發(fā)模式”,用戶給出一級(jí)口令,若檢測(cè)為正確口令,則芯片將給出指示,即提示燈開始閃爍(大約2 s)后,開啟二級(jí)口令的接收檢測(cè)即“識(shí)別模式”,LD3320識(shí)別到預(yù)設(shè)的二級(jí)口令后,如臥室開燈、臥室關(guān)燈等,將識(shí)別結(jié)果送給單片機(jī),由單片機(jī)對(duì)外設(shè)進(jìn)行控制。在等待口令時(shí),可能會(huì)進(jìn)行誤識(shí)別,即在其他聲音干擾下接收到相似的語音片段,程序可以專門對(duì)垃圾詞語進(jìn)行處理或不處理,然后進(jìn)入循環(huán)識(shí)別狀態(tài),用戶只需發(fā)出新的口令即可觸發(fā)。通過二級(jí)口令觸發(fā)模式,用戶可以更加方便的進(jìn)行語音操作,且準(zhǔn)確率較高。

2.2.3.1 巧妙運(yùn)用關(guān)鍵詞語的ID,提高識(shí)別效率

由于用戶的發(fā)音習(xí)慣不同,可能同一個(gè)意思的不同語音命令無法被準(zhǔn)確執(zhí)行。我們將語音命令的關(guān)鍵詞語的拼音串設(shè)計(jì)在LD3320芯片內(nèi),例如一級(jí)口令“小明”,然后傳入一個(gè)ID代表這個(gè)詞語,一旦識(shí)別成功后,將這個(gè)ID作為識(shí)別的結(jié)果對(duì)外輸出。在 LD3320語音芯片中,同一個(gè)ID可以對(duì)應(yīng)不同的關(guān)鍵詞匯,而且ID不需要連續(xù),編程方式非常簡(jiǎn)單。例如“中國(guó)”“華夏”,可以設(shè)置為同一個(gè)ID,之后再進(jìn)行其他處理步驟。

2.2.3.2 對(duì)于關(guān)鍵詞ID設(shè)置多個(gè)可能發(fā)音,充分利用50項(xiàng)候選可識(shí)別語句

有時(shí)用戶可能不會(huì)用同一個(gè)詞來發(fā)出命令,例如“開燈”,用戶可能會(huì)說“開大燈”“打開燈”“打開電燈”“把電燈打開”等,其說話的口音、語氣、情緒、習(xí)慣是不同的。因此需把用戶的這些發(fā)音習(xí)慣都考慮到程序設(shè)計(jì)中,完全利用LD3320芯片的特性,充分利用50條可動(dòng)態(tài)編輯的關(guān)鍵識(shí)別條目,編輯不同的候選語句并設(shè)置到芯片中。這樣用戶在發(fā)出命令后,被準(zhǔn)確執(zhí)行的效率增加,完善了系統(tǒng)的功能。

2.2.3.3 用戶通過語音命令后得到語音識(shí)別結(jié)果的等待時(shí)間調(diào)節(jié)

在本系統(tǒng)中,用戶發(fā)出口令后芯片大約有12 s的反應(yīng)時(shí)間,然后才會(huì)給出識(shí)別反應(yīng)。通過語音識(shí)別芯片的檢測(cè)機(jī)制來判斷用戶的口令是否全部發(fā)出,如監(jiān)測(cè)出一段連續(xù)的噪音,就認(rèn)為用戶口令已發(fā)完,之后給出識(shí)別結(jié)果。

2.2.4 使用過程中應(yīng)注意的問題

在測(cè)試過程中發(fā)現(xiàn),LD3320模塊應(yīng)用時(shí)要注意以下問題:

(1)用戶使用時(shí)背景聲音(噪音、雜音等)會(huì)造成一定的干擾;

(2)設(shè)置語音模塊內(nèi)識(shí)別列表的內(nèi)容和50個(gè)可編輯的候選語句有關(guān);

(3)設(shè)置識(shí)別列表中各詞匯之間的相似程度;

(4)用戶的發(fā)音快慢、大小、口音以及發(fā)音是否清晰等;

(5)距離麥克風(fēng)的位置遠(yuǎn)近以及接收語音的外設(shè)(麥克風(fēng)等)質(zhì)量等。

3 智能家居聲控系統(tǒng)的軟件程序設(shè)計(jì)

智能家居聲控系統(tǒng)的程序處理過程主要包括單片機(jī)初始化;LD3320芯片的初始化;LD3320語音識(shí)別結(jié)果寄存器的讀取以及單片機(jī)對(duì)外設(shè)的控制等。

3.1 具體軟件功能模塊介紹

(1)單片機(jī)初始化函數(shù):void MCU_init()

名稱:void MCU_init()。

功能:?jiǎn)纹瑱C(jī)初始化。

(2)中斷處理函數(shù):void ExtInt0Handler(void) interrupt 0

名稱:中斷處理函數(shù)。

功能:對(duì)LD3320的中斷請(qǐng)求進(jìn)行處理。

其他說明:語音識(shí)別模塊接收到音頻信號(hào)后進(jìn)入函數(shù),判斷識(shí)別結(jié)果,若無結(jié)果則設(shè)置寄存器開始下次識(shí)別。

(3)用戶執(zhí)行函數(shù):void User_handle(uint8 dat)

名稱:用戶執(zhí)行函數(shù)。

功能:識(shí)別結(jié)果成功后,MUC進(jìn)行之后的處理。

(4)LD3320復(fù)位函數(shù):void LD_Reset()

功能描述:復(fù)位LD模塊。

(5)LD3320初始化函數(shù):void LD_Init_Common()

功能描述:LD模塊命令初始化。

其他說明:該函數(shù)一般不需要修改。

(6)LD3320ASR功能初始化函數(shù):void LD_Init_ASR()

功能描述:LD模塊ASR功能初始化。

其他說明:該函數(shù)一般不需要修改。

(7)運(yùn)行ASR識(shí)別處理函數(shù)uint8 RunASR(void)

功能描述:運(yùn)行ASR識(shí)別流程。

返回值:asrflag:1->啟動(dòng)成功;0->啟動(dòng)失敗。

其他說明:識(shí)別順序如下:

① RunASR()函數(shù)實(shí)現(xiàn)一次完整的ASR語音識(shí)別流程;

② LD_AsrStart()函數(shù)實(shí)現(xiàn)了ASR初始化;

③ LD_AsrAddFixed()函數(shù)添加關(guān)鍵詞語到LD3320中;

④ LD_AsrRun()函數(shù)啟動(dòng)一次ASR語音識(shí)別流程。

任何一次ASR識(shí)別流程均從初始化開始,皆按照此順序進(jìn)行。

(8)語音命令添加函數(shù):uint8 LD_AsrAddFixed()

功能描述:向LD模塊添加關(guān)鍵詞。

返回值:flag:1->添加成功。

(9)識(shí)別結(jié)果獲取函數(shù):uint8 LD_GetResult()

功能描述:獲取識(shí)別結(jié)果。

返回值:LD_ReadReg(0xc5 ),讀取內(nèi)部寄存器返回的識(shí)別碼。

3.2 系統(tǒng)程序流程圖

聲控系統(tǒng)單片機(jī)程序流程圖如圖3所示。

4 系統(tǒng)測(cè)試

本系統(tǒng)以“小明”為一級(jí)指令口令,每次識(shí)別時(shí)必須先觸發(fā)一級(jí)口令,才能進(jìn)行二級(jí)口令,如臥室關(guān)燈、臥室開燈、客廳開燈、客廳關(guān)燈等。

系統(tǒng)加入電源后對(duì)麥克風(fēng)說“小明”一級(jí)口令,指示燈閃爍亮燈后,再對(duì)著麥克風(fēng)說:“臥室開燈”二級(jí)口令則繼電器控制臥室燈亮。目前該系統(tǒng)能識(shí)別的二級(jí)口令有5個(gè),分別是“客廳開燈”“客廳關(guān)燈”“臥室開燈”“臥室關(guān)燈”和“close all”,實(shí)際可以根據(jù)具體布置需要增加控制節(jié)點(diǎn)及相應(yīng)識(shí)別口令。

5 結(jié) 語

智能家居聲控系統(tǒng)不僅能為大家?guī)硎孢m的居住環(huán)境,還具有系統(tǒng)可靠性高,誤識(shí)率低,方便適用的特點(diǎn),具有廣大的應(yīng)用前景。

參考文獻(xiàn)

[1]王炳錫.實(shí)用語音識(shí)別基礎(chǔ)――21世紀(jì)高等院校技術(shù)優(yōu)秀教材[M].北京:國(guó)防工業(yè)出版社,2015.

[2]譚浩強(qiáng).C程序設(shè)計(jì)教程[M].北京:清華大學(xué)出版社,2007.

[3]金鑫,田,闕大順.基于LD3320的語音控制系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)[J].電腦與信息技術(shù),2011,19(6):22-25.

上一篇: 辦公室日常工作計(jì)劃 下一篇: 示范園匯報(bào)材料
相關(guān)精選
相關(guān)期刊
久久久噜噜噜久久中文,精品五月精品婷婷,久久精品国产自清天天线,久久国产一区视频
中文字幕aⅴ专区 | 亚洲区精品中文字幕 | 综合色桃花久久亚洲 | 天天爽天天爽夜夜爽国产自己精品 | 亚洲欧美人女户中文字幕 | 久久做品人人做人人综合 |