當前位置：首頁 > 最新資訊 > 行業資訊

人工智能：語音識別技術

沃卡惠
行業資訊
2022-12-01 09:52:18
282

?　　今天給大家介紹一下關于語音識別相關的知識，希望對大家有所幫助！

?　　1、什么是語音

?　　語音指的是人類通過發聲器官發出來具有一定意義、用來溝通交流的聲音。

?　　計算機中語音存儲：以波形文件的方式存儲，通過波形反映語音的變化，從而可以獲取音強、音長等參數信息。

?　　音域參數：傅利葉譜、梅爾頻率到譜系數，主要用來提取語音內容以及音色的差別，用來更進一步辨別語音信息。

?　　2、什么是語音識別

?　　語音識別簡單來說就是把語音內容自動轉換為文字的過程，是人與機器交互的一種技術。

?　　涉及領域：聲學、人工智能、數字信號處理、心理學等方面。

?　　語音識別的輸入：對一段聲音文件進行播放的序列。

?　　語音識別的輸出：輸出的結果是一段文本序列。

?　　3、語音識別的原理

?　　語音識別需要經過特征提取、聲學模型、語音模型、語音解碼和搜索算法四個部分。

?　　特征提取：把要分析的信號從最原始信號提取出來，這個階段主要是對語音的幅度標準化、頻響校正、分幀、加窗、始末端點檢測等預處理操作，為聲學模型提供需要特征向量。

?　　聲學模型：依靠聲學模型進行語音參數分析（語音共振峰頻率、幅度等）和對語音的線性預測參數進行分析。

?　　語言模型：根據相關語言學理論，計算出聲音片段可能詞組序列的概率。

?　　語音解碼和搜索算法：根據聲學模型+發音詞典+語音模型構建的搜索空間，找到最合適的路徑。解碼完成后最終輸出文本。

?　　4、語音識別系統的組成

?　　一個完整的語音識別系統包括：預處理、特征提取、聲學模型訓練、語言模型訓練、語音解碼器。

?　　4.1 預處理

?　　對輸入的原始聲音信號進行處理，過濾掉其中的背景噪音、非重要信息，還要對找到語音信號的開始和結束、語音分幀、提升高頻部分的信號等操作。

?　　4.2 特征提取

?　　最常用的特征提取方法為梅爾頓到譜系數(MFCC),因為它擁有良好的抗噪性和健壯性。

?　　4.3 聲學模型訓練

?　　根據懸戀語音庫的特征參數訓練出聲學模型參數，從而可以在識別時與聲學模型進行匹配得到相應結果。目前主流語音識別系統一般都會采用HMM進行聲學模型建模。

?　　4.4 語言模型訓練

?　　用來預測哪個詞序列正確的可能性更大。

?　　4.5 語音解碼器

?　　解碼器也就是語音識別技術中的識別過程，根據輸入的語音信號，然后和訓練好的HMM聲學模型、語言模型、發音字典建立一個搜索空間，根據搜索算法找到最合適的路徑。從而找到最合適的詞串。

?　　5、語音識別的使用場景

?　　語音識別在日常生活中使用非常廣泛主要分為封閉式和開放式應用。

?　　封閉式應用：主要指針對特定控制指令的應用。

?　　比如常見的有智能家居比如通過語音指令控制燈開關、熱水器開關溫度調節、打開空調等，大大豐富了我們日常的生活；

?　　開放式應用：開放式主要是廠商提供語音識別服務，一般會公有云或者私有云的方式部署提供對應的SDK，讓使用服務的客戶進行語音識別服務的調用。

?　　常見的場景有輸入法、會議字幕實時輸出、視頻剪輯字幕配置等場景。

上一篇：生成式人工智能如何影響未來的工作？

下一篇：科學家造出首個蟲洞

精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

人工智能：語音識別技術

猜你喜歡

熱門文章

物聯網卡和手機卡有什么區別？

物聯卡是正規卡嗎

定向流量和通用流量的區別

沃卡惠怎么補卡？

沃卡惠流量卡怎么樣?

產品推薦

新聞動態

《與沃同行》-“綠肥紅瘦”刊

端午安康！愛吃咸粽的看過來！

清明節｜緬懷先人，也要關愛家人

女神節| 灼灼其華，你是最美的花

團圓時刻，燈謎增趣！你準備好了嗎？

關注我們

人工智能：語音識別技術

猜你喜歡

熱門文章

產品推薦

新聞動態

關注我們

微信公眾號