? 今天給大家介紹一下關(guān)于語音識(shí)別相關(guān)的知識(shí),希望對(duì)大家有所幫助!
? 1、什么是語音
? 語音指的是人類通過發(fā)聲器官發(fā)出來具有一定意義、用來溝通交流的聲音。
? 計(jì)算機(jī)中語音存儲(chǔ):以波形文件的方式存儲(chǔ),通過波形反映語音的變化,從而可以獲取音強(qiáng)、音長等參數(shù)信息。
? 音域參數(shù):傅利葉譜、梅爾頻率到譜系數(shù),主要用來提取語音內(nèi)容以及音色的差別,用來更進(jìn)一步辨別語音信息。
? 2、什么是語音識(shí)別
? 語音識(shí)別簡單來說就是把語音內(nèi)容自動(dòng)轉(zhuǎn)換為文字的過程,是人與機(jī)器交互的一種技術(shù)。
? 涉及領(lǐng)域:聲學(xué)、人工智能、數(shù)字信號(hào)處理、心理學(xué)等方面。
? 語音識(shí)別的輸入:對(duì)一段聲音文件進(jìn)行播放的序列。
? 語音識(shí)別的輸出:輸出的結(jié)果是一段文本序列。
? 3、語音識(shí)別的原理
? 語音識(shí)別需要經(jīng)過特征提取、聲學(xué)模型、語音模型、語音解碼和搜索算法四個(gè)部分。
? 特征提取:把要分析的信號(hào)從最原始信號(hào)提取出來,這個(gè)階段主要是對(duì)語音的幅度標(biāo)準(zhǔn)化、頻響校正、分幀、加窗、始末端點(diǎn)檢測等預(yù)處理操作,為聲學(xué)模型提供需要特征向量。
? 聲學(xué)模型:依靠聲學(xué)模型進(jìn)行語音參數(shù)分析(語音共振峰頻率、幅度等)和對(duì)語音的線性預(yù)測參數(shù)進(jìn)行分析。
? 語言模型:根據(jù)相關(guān)語言學(xué)理論,計(jì)算出聲音片段可能詞組序列的概率。
? 語音解碼和搜索算法:根據(jù)聲學(xué)模型+發(fā)音詞典+語音模型構(gòu)建的搜索空間,找到最合適的路徑。解碼完成后最終輸出文本。
? 4、語音識(shí)別系統(tǒng)的組成
? 一個(gè)完整的語音識(shí)別系統(tǒng)包括:預(yù)處理、特征提取、聲學(xué)模型訓(xùn)練、語言模型訓(xùn)練、語音解碼器。
? 4.1 預(yù)處理
? 對(duì)輸入的原始聲音信號(hào)進(jìn)行處理,過濾掉其中的背景噪音、非重要信息,還要對(duì)找到語音信號(hào)的開始和結(jié)束、語音分幀、提升高頻部分的信號(hào)等操作。
? 4.2 特征提取
? 最常用的特征提取方法為梅爾頓到譜系數(shù)(MFCC),因?yàn)樗鼡碛辛己玫目乖胄院徒研浴?/p>
? 4.3 聲學(xué)模型訓(xùn)練
? 根據(jù)懸戀語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型參數(shù),從而可以在識(shí)別時(shí)與聲學(xué)模型進(jìn)行匹配得到相應(yīng)結(jié)果。目前主流語音識(shí)別系統(tǒng)一般都會(huì)采用HMM進(jìn)行聲學(xué)模型建模。
? 4.4 語言模型訓(xùn)練
? 用來預(yù)測哪個(gè)詞序列正確的可能性更大。
? 4.5 語音解碼器
? 解碼器也就是語音識(shí)別技術(shù)中的識(shí)別過程,根據(jù)輸入的語音信號(hào),然后和訓(xùn)練好的HMM聲學(xué)模型、語言模型、發(fā)音字典建立一個(gè)搜索空間,根據(jù)搜索算法找到最合適的路徑。從而找到最合適的詞串。
? 5、語音識(shí)別的使用場景
? 語音識(shí)別在日常生活中使用非常廣泛主要分為封閉式和開放式應(yīng)用。
? 封閉式應(yīng)用:主要指針對(duì)特定控制指令的應(yīng)用。
? 比如常見的有智能家居比如通過語音指令控制燈開關(guān)、熱水器開關(guān)溫度調(diào)節(jié)、打開空調(diào)等,大大豐富了我們?nèi)粘5纳睿?/p>
? 開放式應(yīng)用:開放式主要是廠商提供語音識(shí)別服務(wù),一般會(huì)公有云或者私有云的方式部署提供對(duì)應(yīng)的SDK,讓使用服務(wù)的客戶進(jìn)行語音識(shí)別服務(wù)的調(diào)用。
? 常見的場景有輸入法、會(huì)議字幕實(shí)時(shí)輸出、視頻剪輯字幕配置等場景。