現成的數據目錄和許可
醫療數據集黃金標準,去識別化數據
醫生聽寫數據集
轉錄病歷
電子健康記錄 (EHR)
CT 掃描圖像數據集
X 射線圖像數據集
查看全部
計算機視覺數據集用於機器學習的圖像和視訊數據
銀行對賬單數據集
損壞的汽車圖像數據集
面部識別數據集
地標圖像數據集
工資單數據集
語音/音頻數據集以 65 多種語言轉錄和註釋資料。
紐約英語
中文繁體
西班牙語(墨西哥)
加拿大法語
阿拉伯語
TTS
醒來的話
呼叫中心
腳本獨白
一般對話
Podcast
自發性對話
自發IVR
歌唱音頻
解決方案
行業
醫療保健 將複雜的數據轉化為可行的洞見。
科技 利用精準數據推動科技發展
電子商務 提高轉換率、訂單價值和收入
使用案例
生物特徵數據 高品質生物特徵資料集
人臉辨識簽到 透過臉部標誌自動偵測臉部
DICOM醫學影像數據 跨模態和身體部位的影像數據
印度語數據 預先標記的印度語語音資料集
多模態訓練數據 多模態訓練資料提升AI模型效能
醫療數據標註 從非結構化資料中擷取實體
多種語言的現成語音/語音/音頻數據集,可快速啟動您的自動語音識別 (ASR) 模型
探索適合您的語音資料集的各種口音、語言和風格。
呼叫中心、播客
了解更多
喚醒詞/關鍵字
一般對話、播客
呼叫中心、一般對話、腳本獨白、歌唱音頻
呼叫中心、一般對話、播客
呼叫中心、一般對話、Podcast、腳本獨白
一般對話、TTS
呼叫中心、播客、腳本獨白、歌唱音頻
呼叫中心、自發 IVR
端對端服務:具有專業領域知識和快速交付的完整服務。
靈活的:選擇具有靈活所有權的自訂、半自訂或現成的語音資料集。
領域專家:聘請專業領域專家來取得快速、優質的 AI 資料集。
品質:接受行業專家的品質檢查。
牌照:取得適合您需求的許可證。
道德數據:我們確保貢獻者了解並同意資料使用。
我們維持最高的法律和道德標準,優先考慮透明度、貢獻者自主權和公平報酬。
語音資料集是音訊記錄和元資料的集合,用於訓練和測試用於語音識別、文字轉語音 (TTS) 和語音合成等任務的 AI/ML 模型。
它們對於訓練人工智慧處理、理解和產生人類語音,提高語音助理、聊天機器人和轉錄系統的表現至關重要。
資料集包括一般對話、呼叫中心錄音、喚醒詞/關鍵字、環境聲音、TTS、自發性對話、劇本獨白和歌唱音訊。
資料集涵蓋 65 多種語言和地區口音,包括美式英語、阿拉伯語、普通話、印地語、西班牙語以及紐約英語和非裔美國人白話等口音。
取樣率包括 8 kHz、16 kHz、44 kHz 和 48 kHz,確保與各種 AI/ML 應用程式相容。
語音資料集用於訓練語音助理、改進自動語音識別、建立聊天機器人、訓練 TTS 系統以及增強區域和多語言模型。
元資料包括說話者的人口統計資料、錄音環境、轉錄、時間戳記和音訊品質詳細資訊。
透過高解析度錄音、降噪、專家驗證和符合行業標準來維持品質。
是的,貢獻者提供知情同意,並確保多元化、包容性和公平的報酬。
是的,它們可以根據語言、口音、資料集類型或說話者人口統計資料進行客製化。
是的,它們包含數千小時的音頻,適合小型和大型專案。
資料集以具有元資料的標準格式交付,以便輕鬆整合到 AI 工作流程中。
提供靈活的授權選項,包括現成的資料集或完全客製化的解決方案。
費用取決於資料集大小、客製化程度和許可需求。請聯絡我們以取得最優報價。
時間表取決於專案規模和複雜性,但旨在有效地滿足最後期限。
它們使人工智慧系統能夠理解和產生自然語音、改進轉錄並增強語音助理和聊天機器人的性能。