案例研究:話語收集
交付超過 7 萬條語音,以構建 13 種語言的多語言數字助理
真實世界的解決方案
推動全球對話的數據
之所以需要進行話語培訓,是因為並非所有客戶在以腳本格式與其語音助手交互或提問時都使用準確的單詞或短語。 這就是為什麼特定的語音應用程序必須在自發語音數據上進行訓練的原因。 例如,“最近的醫院在哪裡?” “找我附近的醫院”或“附近有醫院嗎?” 都表示相同的搜索意圖,但措辭不同。
問題
為了執行客戶數字助理的全球語言語音路線圖,團隊需要為語音識別 AI 模型獲取大量訓練數據。 客戶的關鍵要求是:
- 為全球 3 種語言的語音識別服務獲取大量訓練數據(單人語音提示時長不超過 30-13 秒)
- 對於每種語言,供應商都會生成文本提示供演講者錄製(除非
客戶提供)並轉錄生成的音頻。 - 使用相應的 JSON 文件提供音頻數據和錄製話語的轉錄
包含所有記錄的元數據。 - 確保不同年齡、性別、教育程度和方言的演講者組合
- 確保符合規格的多種錄製環境組合。
- 每段錄音應至少為 16kHz,但最好為 44kHz
“在評估了許多供應商之後,客戶選擇了 Shaip,因為他們在對話式 AI 項目方面擁有專長。 我們對 Shaip 的項目執行能力印象深刻,他們在嚴格的時間和要求的質量內以 13 種語言從專家語言學家那裡獲取、轉錄和交付所需話語的專業知識”
解決方案
憑藉我們對對話式 AI 的深刻理解,我們幫助客戶收集、轉錄和註釋數據,並與專家語言學家和註釋員團隊一起訓練他們的 AI 驅動的語音處理多語言語音套件。
Shaip 的工作範圍包括但不限於獲取大量用於語音識別的音頻訓練數據,為我們的第 1 層和第 2 層語言路線圖上的所有語言轉錄多種語言的錄音,並提供相應的 JSON 包含元數據的文件。 Shaip 收集了 3-30 秒的大規模話語,同時保持了為複雜項目訓練 ML 模型所需的質量水平。
- 音頻收集、轉錄和註釋: 22,250小時內處理。
- 支持的語言: 13(丹麥語、韓語、沙特阿拉伯阿拉伯語、荷蘭語、大陸和台灣中文、加拿大法語、墨西哥西班牙語、土耳其語、印地語、波蘭語、日語、俄語)
- 話語數: 7M +
- 時間表: 7-8個月
在收集 16 kHz 的音頻話語時,我們確保了不同錄音環境中不同年齡、性別、教育和方言的說話者的健康組合。
我們的專長
收集的演講時間
0
+
語音數據收集器團隊
0
符合 PII 標準
0
%
很酷的號碼
0
+
數據接受和準確性
>
0
財富 500 強客戶
0
+
創建臨床 NLP 是一項關鍵任務,需要大量的領域專業知識來解決。 我可以清楚地看到你在這方面領先谷歌幾年。 我想和你一起工作並擴大你的規模。
Google,Inc. 董事
在開發醫療保健語音 API 期間,我的工程團隊與 Shaip 的團隊合作了 2 年以上。 他們在特定於醫療保健的 NLP 方面所做的工作以及他們能夠使用複雜數據集實現的目標給我們留下了深刻的印象。
Google,Inc. 工程主管 告訴我們我們如何為您的下一個 AI 計劃提供幫助。