對話式人工智慧:自動語音識別
收集超過 8 小時音頻,為多語言語音技術轉錄 800 小時
簡介
印度需要一個專注於創建多語言資料集和基於人工智慧的語言技術解決方案的平台,以便以印度語言提供數位服務。 為了啟動這項計劃,客戶與 Shaip 合作收集和轉錄印度語言以建立多語言語音模型。
體積
面臨的挑戰
為了協助客戶制定印度語言的語音技術語音路線圖,團隊需要取得、分段和轉錄大量訓練資料以建立 AI 模型。 客戶的關鍵要求是:
數據採集
- 從印度偏遠地區取得 8000 小時的訓練數據
- 收集20-70歲年齡層自發性言語的供應商
- 確保演講者的年齡、性別、教育程度和方言多樣化
- 每個錄音應至少為 16kHz,16 位元/樣本。
數據轉錄
遵循有關字符和特殊符號、拼寫和語法、大寫、縮寫、縮寫、單個口語字母、數字、標點符號、首字母縮略詞和首字母縮略詞、流利語音、難以理解的語音、非目標語言、非語音的詳細轉錄指南
質量檢查和反饋
所有錄音都經過品質評估和驗證,僅交付經過驗證的語音錄音
解決方案
憑藉我們對對話式人工智慧的深刻理解,我們幫助客戶與專家收集者、語言學家和註釋者團隊一起收集、轉錄音訊數據,以建立來自印度偏遠地區的大型音訊數據語料庫。
Shaip 的工作範圍包括但不限於獲取大量音訊訓練資料、轉錄資料並為演講者和轉錄者提供包含元資料的相應 JSON 檔案。 對於每個發言者,元數據包括匿名的發言者 ID、設備詳細信息、性別、年齡和教育等人口統計信息,以及他們的密碼、社會經濟地位、使用的語言以及他們的生活停留時間記錄。 對於每個轉錄員,數據都包含匿名轉錄員 ID、與說話者類似的人口統計詳細資訊、他們的轉錄體驗持續時間以及他們可以讀、寫和說的語言的徹底細分。
夏普收集 8000 大規模轉錄 800 小時的音訊資料/自發性語音,同時保持為複雜專案訓練語音技術所需的品質水準。 每個參與者都獲得了明確的同意書。 收集的/自發性演講是基於大學提供的圖像。 的 3500 圖像, 1000 是通用的並且 2500 與特定地區的文化、節日等相關。圖像描繪了火車站、市場、天氣等各個領域。
數據採集
州 | 區 | 音訊時間 | 轉錄 (小時) |
比哈爾邦 | 薩蘭、東查帕蘭、戈帕爾甘傑、西塔馬爾希、薩馬斯蒂普爾、達爾班加、馬德普拉、巴加爾普爾、加雅、基尚甘傑、瓦伊夏利、拉基薩萊、薩哈爾薩、蘇保爾、阿拉里亞、貝古薩萊、賈哈納巴德、普尼亞、穆紮法爾布爾、賈穆伊 | 2000 | 200 |
北方邦 | 迪奧裡亞、瓦拉納西、戈勒克布爾、加齊布爾、穆紮法爾納加爾、埃塔、哈米爾布爾、喬蒂巴普勒納加爾、佈道恩、賈勞恩 | 1000 | 100 |
拉賈斯坦邦 | 納高爾·丘魯 | 200 | 20 |
北阿坎德邦 | 特里‧加瓦爾 (Tehri Garhwal),烏塔卡什 | 200 | 20 |
恰蒂斯加爾邦 | 比拉斯普爾、萊加爾、卡伯德漢姆、薩爾古賈、科爾巴、賈什普爾、拉傑南德岡、巴爾拉姆普爾、巴斯塔、蘇克馬 | 1000 | 100 |
西孟加拉邦 | Paschim Medinipur、馬爾達、Jalpaiguri、Purulia、加爾各答、Jhargram、North 24 Parganas、Dakshin Dinajpur | 800 | 80 |
恰爾肯德邦 | 賈姆塔拉薩赫布甘吉 | 200 | 20 |
AP | 貢土、奇托爾、維沙卡帕特南、克里希納、阿納恩塔普爾、斯里卡庫拉姆 | 600 | 60 |
特蘭伽納 | 卡里姆訥格爾, 納爾貢達 | 200 | 20 |
果阿 | 北果阿+南果阿 | 100 | 10 |
卡納塔克邦 | 達克辛卡納達語、古爾伯加、達爾瓦德、貝拉里、邁索爾、希莫加、比賈普爾、貝爾高姆、賴丘爾、查姆拉吉納加爾 | 1000 | 100 |
馬哈拉施特拉邦 | Sindhudurg、Dhule、那格浦爾、浦那、奧蘭加巴德、錢德爾普爾、索拉普爾 | 700 | 70 |
Total | 8000 | 800 |
一般準則
格式
- 音頻頻率為 16 kHz,16 位元/樣本。
- 單通道。
- 未經轉碼的原始音訊。
次數
- 自發演講。
- 基於大學提供的圖像的句子。 在 3500 張圖像中,1000 張是通用圖像,2500 張與特定地區的文化、節日等相關。圖像描繪了火車站、市場、天氣等各個領域。
錄音背景
- 在安靜、無迴聲的環境中錄製。
- 錄音期間不會受到智慧型手機幹擾(震動或通知)。
- 沒有諸如削波或遠場效應之類的失真。
- 電話振動是不可接受的; 如果音訊清晰,外部振動是可以忍受的。
揚聲器規格
- 年齡範圍為 20 至 70 歲,每個地區的性別分佈均衡。
- 每個區域至少有 400 位母語人士。
- 說話者應使用他們的母語/方言。
- 所有參與者都必須簽署同意書。
品質檢查和關鍵品質保證
QA 流程優先考慮錄音和轉錄的品質保證。 音訊標準著重於精確的靜音、片段持續時間、單一說話者的清晰度以及包括年齡和社會經濟地位在內的詳細元資料。 轉錄標準強調標籤準確性、單字準確性和正確的片段細節。 驗收基準規定,如果超過 20% 的音訊批次不符合這些標準,則會被拒絕。 對於小於 20% 的差異,需要使用具有相似設定檔的替換錄音。
數據轉錄
只有當文字清晰易懂時,轉錄指南才強調準確性和逐字轉錄; 根據問題,不清楚的單字被標記為[無法理解]或[聽不清楚]。 長音頻中的句子邊界標記為,並且不允許釋義或糾正語法錯誤。 逐字轉錄涵蓋了錯誤、俚語和重複,但省略了錯誤的開頭、填充聲音和口吃。 背景和前景噪音以描述性標籤轉錄,而專有名稱、標題和數字遵循特定的轉錄規則。 每個句子都使用說話者標籤,不完整的句子用 表示。
專案工作流程
此工作流程描述了音訊轉錄過程。 它從入職和培訓參與者開始。 他們使用應用程式錄製音頻,並將其上傳到 QA 平台。 此音訊經過品質檢查和自動分段。 然後,技術團隊準備轉錄片段。 手動轉錄後,還有一個品質保證步驟。 轉錄內容將交付給客戶,如果接受,則視為交付完成。 如果沒有,將根據客戶回饋進行修改。
結果
來自語言學家的高品質音訊資料將使我們的客戶能夠在規定的時間內準確地訓練和構建各種印度語言和不同方言的多語言語音識別模型。 語音辨識模型可用於:
- 通過將公民與自己母語的舉措聯繫起來,克服數字包容性的語言障礙。
- 推動數字化治理
- 形成印度語言服務和產品生態系統的催化劑
- 公共利益領域,特別是治理和政策領域的更多本地化數字內容
我們對 Shaip 在對話式人工智慧領域的專業知識感到敬畏。 至少可以說,處理 8000 小時的音訊資料以及跨 800 個不同地區的 80 小時的轉錄的任務是艱鉅的。 正是 Shaip 對這一領域錯綜複雜的細節和細微差別的深刻理解,使得這個具有挑戰性的專案得以成功執行。 他們無縫管理和瀏覽如此大量數據的複雜性,同時確保一流品質的能力確實值得稱讚。