案例研究:對話式人工智能

花費超過 3 小時收集、分段和轉錄數據,以 8 種印度語言構建 ASR

話語採集
政府的目標是通過 Bhashini 項目,讓公民能夠以自己的母語輕鬆訪問互聯網和數字服務。

BHASHINI 是印度人工智能驅動的語言翻譯平台,是數字印度計劃的重要組成部分。

Bhashini 平台旨在為中小微企業、初創公司和獨立創新者提供人工智能 (AI) 和自然語言處理 (NLP) 工具,作為公共資源。 其目標是通過使印度公民能夠以其母語與該國的數字計劃互動來促進數字包容性。

此外,它的目標是顯著擴大印度語言互聯網內容的可用性。 這尤其針對治理和政策、科學技術等公共利益領域。因此,這將激勵公民以自己的語言使用互聯網,促進他們的積極參與。

利用 NLP 打造由貢獻者、合作實體和公民組成的多元化生態系統,以超越語言障礙,從而確保數字包容性和賦權

真實世界的解決方案

用數據釋放本地化的力量

印度需要一個專注於創建多語言數據集和基於人工智能的語言技術解決方案的平台,以便以印度語言提供數字服務。 為了啟動這一計劃,印度理工學院馬德拉斯分校 (IIT Madras) 與 Shaip 合作,收集、分割和轉錄印度語言數據集,以構建多語言語音模型。

面臨的挑戰

為了協助客戶制定印度語言的語音技術語音路線圖,團隊需要獲取、分段和轉錄大量訓練數據以構建 AI 模型。 客戶的關鍵要求是:

數據採集

  • 獲取 3000 種印度語言(每種語言 8 種方言)的 4 小時訓練數據。
  • 對於每種語言,供應商將收集即興演講和
    18-60歲年齡段的會話演講
  • 確保講話者的年齡、性別、教育程度和方言多樣化
  • 確保按照規格提供多樣化的錄音環境組合。
  • 每段錄音應至少為 16kHz,但最好為 44kHz

數據分割

  • 創建 15 秒的語音片段,並為每個給定說話者、聲音類型(語音、胡言亂語、音樂、噪音)、對話中的回合、話語和短語對音頻添加時間戳(精確到毫秒)
  • 為其目標聲音信號創建每個片段,並在開始和結束處填充 200-400 毫秒。
  • 對於所有分段,必須填寫以下對象,即開始時間、結束時間、分段 ID、響度級別、聲音類型、語言代碼、說話者 ID 等。

數據轉錄

  • 遵循有關字符和特殊符號、拼寫和語法、大寫、縮寫、縮寫、單個口語字母、數字、標點符號、首字母縮略詞、不流利、語音、難以理解的語音、非目標語言、非語音等的詳細轉錄指南。

質量檢查和反饋

  • 所有錄音都經過質量評估和驗證,僅發表經過驗證的演講

解決方案

憑藉對對話式人工智能的深刻理解,我們與專家收集者、語言學家和註釋者團隊一起幫助客戶收集、分割和轉錄數據,以建立 8 種印度語言的大型音頻數據集語料庫

Shaip 的工作範圍包括但不限於獲取大量音頻訓練數據、將錄音分割為多個、轉錄數據並提供包含元數據 [SpeakerID、年齡、性別、語言、方言、
母語、資格、職業、領域、文件格式、頻率、頻道、音頻類型、發言者數量、外語數量、使用的設置、窄帶或寬帶音頻等]。 

Shaip 大規模收集了 3000 小時的音頻數據,同時保持了為複雜項目訓練語音技術所需的所需質量水平。 每個參與者都獲得了明確的同意書。

1。 數據採集

2. 數據分割

  • 收集到的音頻數據進一步分為每個 15 秒的語音片段,並針對每個給定的說話者、聲音類型、對話中的回合、話語和短語添加時間戳至毫秒
  • 為其目標聲音信號創建每個片段,並在聲音信號的開頭和結尾處填充 200-400 毫秒。
  • 對於所有片段,存在並填充以下對象,即開始時間、結束時間、片段 ID、響度級別(響亮、正常、安靜)、主要聲音類型(語音、胡言亂語、音樂、噪音、重疊)、語言代碼揚聲器ID、轉錄等

3. 質量檢查和反饋

  • 所有錄音均經過質量評估,並且僅交付 WER 為 90%、TER 為 90% 且經過驗證的語音錄音
  • 質量檢查表如下:
       » 片段長度最長 15 秒
       » 來自特定領域的轉錄,即:天氣、不同類型的新聞、健康、農業、教育、就業或金融
       » 低背景噪聲
       » 沒有音頻剪輯關閉 – 無失真
       » 正確的轉錄音頻分段

4. 數據轉錄
所有口語單詞,包括猶豫、填充詞、錯誤的開頭和其他言語抽動,都在轉錄中被準確捕捉。 我們還遵循有關大寫和小寫字母、拼寫、大寫、縮寫、縮寫、數字的詳細轉錄指南,
標點符號、首字母縮略詞、不流利的語音、非語音噪音等。此外,收集和轉錄遵循的工作流程如下:

結果

來自語言學家的高質量音頻數據將使印度理工學院馬德拉斯分校能夠在規定的時間內準確訓練和構建8種不同方言的印度語言的多語言語音識別模型。 語音識別模型可用於:

  • 通過將公民與自己母語的舉措聯繫起來,克服數字包容性的語言障礙。
  • 推動數字化治理
  • 形成印度語言服務和產品生態系統的催化劑
  • 公共利益領域,特別是治理和政策領域的更多本地化數字內容
金色五星級

Shaip 在對話式人工智能領域的專業知識給我們留下了深刻的印象。 他們的整體項目執行能力,包括在嚴格的時間表和指導方針內以 8 種語言從專家語言學家處獲取、分割、轉錄和提供所需的培訓數據; 同時仍保持可接受的質量標準。”

加速您的對話式 AI
應用程序開發 100%

特色客戶

賦能團隊打造世界領先的人工智能產品。