案例研究:對話式人工智能

花費超過 3 小時收集、分段和轉錄數據,以 8 種印度語言構建 ASR

話語採集
政府的目標是通過 Bhashini 項目,讓公民能夠以自己的母語輕鬆訪問互聯網和數字服務。

BHASHINI 是印度人工智能驅動的語言翻譯平台,是數字印度計劃的重要組成部分。

Bhashini 平台旨在為中小微企業、初創公司和獨立創新者提供人工智能 (AI) 和自然語言處理 (NLP) 工具,作為公共資源。 其目標是通過使印度公民能夠以其母語與該國的數字計劃互動來促進數字包容性。

此外,它的目標是顯著擴大印度語言互聯網內容的可用性。 這尤其針對治理和政策、科學技術等公共利益領域。因此,這將激勵公民以自己的語言使用互聯網,促進他們的積極參與。

利用 NLP 打造由貢獻者、合作實體和公民組成的多元化生態系統,以超越語言障礙,從而確保數字包容性和賦權

真實世界的解決方案

用數據釋放本地化的力量

印度需要一個專注於創建多語言數據集和基於人工智能的語言技術解決方案的平台,以便以印度語言提供數字服務。 為了啟動這一計劃,印度理工學院馬德拉斯分校 (IIT Madras) 與 Shaip 合作,收集、分割和轉錄印度語言數據集,以構建多語言語音模型。

面臨的挑戰

為了協助客戶制定印度語言的語音技術語音路線圖,團隊需要獲取、分段和轉錄大量訓練數據以構建 AI 模型。 客戶的關鍵要求是:

數據採集

  • 獲取 3000 種印度語言(每種語言 8 種方言)的 4 小時訓練數據。
  • 對於每種語言,供應商將收集即興演講和
    18-60歲年齡段的會話演講
  • 確保講話者的年齡、性別、教育程度和方言多樣化
  • 確保按照規格提供多樣化的錄音環境組合。
  • 每段錄音應至少為 16kHz,但最好為 44kHz

數據分割

  • 創建 15 秒的語音片段,並為每個給定說話者、聲音類型(語音、胡言亂語、音樂、噪音)、對話中的回合、話語和短語對音頻添加時間戳(精確到毫秒)
  • 為其目標聲音信號創建每個片段,並在開始和結束處填充 200-400 毫秒。
  • 對於所有分段,必須填寫以下對象,即開始時間、結束時間、分段 ID、響度級別、聲音類型、語言代碼、說話者 ID 等。

數據轉錄

  • 遵循有關字符和特殊符號、拼寫和語法、大寫、縮寫、縮寫、單個口語字母、數字、標點符號、首字母縮略詞、不流利、語音、難以理解的語音、非目標語言、非語音等的詳細轉錄指南。

質量檢查和反饋

  • 所有錄音都經過質量評估和驗證,僅發表經過驗證的演講

解決方案

憑藉對對話式人工智能的深刻理解,我們與專家收集者、語言學家和註釋者團隊一起幫助客戶收集、分割和轉錄數據,以建立 8 種印度語言的大型音頻數據集語料庫

Shaip 的工作範圍包括但不限於獲取大量音頻訓練數據、將錄音分割為多個、轉錄數據並提供包含元數據 [SpeakerID、年齡、性別、語言、方言、
母語、資格、職業、領域、文件格式、頻率、頻道、音頻類型、發言者數量、外語數量、使用的設置、窄帶或寬帶音頻等]。 

Shaip 大規模收集了 3000 小時的音頻數據,同時保持了為複雜項目訓練語音技術所需的所需質量水平。 每個參與者都獲得了明確的同意書。

1。 數據採集