我們最擅長的
人工智能數據服務
數據採集 創建全球音訊、圖像、文字和視訊。
數據註釋和標籤準確註解讓 AI/ML 思考更快
數據許可現成的精選資料。更聰明的模型
其他麵條
醫療保健AI 將複雜的數據轉化為可行的洞見。
對話式AI 使用多語言資料集本地化語音模型。
計算機視覺 一流的視覺訓練數據
生成式人工智能使用我們的優質訓練資料為您的 Gen AI 提供動力。
現成的數據目錄和許可
醫療數據集黃金標準,去識別化數據
醫生聽寫數據集
轉錄病歷
電子健康記錄 (EHR)
CT 掃描圖像數據集
X 射線圖像數據集
查看全部
計算機視覺數據集用於機器學習的圖像和視訊數據
銀行對賬單數據集
損壞的汽車圖像數據集
面部識別數據集
地標圖像數據集
工資單數據集
語音/音頻數據集以 65 多種語言轉錄和註釋資料。
紐約英語
中文繁體
西班牙語(墨西哥)
加拿大法語
阿拉伯語
TTS
醒來的話
呼叫中心
腳本獨白
一般對話
Podcast
自發性對話
自發IVR
歌唱音頻
解決方案
行業
醫療保健 將複雜的數據轉化為可行的洞見。
技術 利用精準數據推動科技發展
電子商務 提高轉換率、訂單價值和收入
使用案例
生物特徵數據 高品質生物特徵資料集
人臉辨識簽到 透過臉部標誌自動偵測臉部
圖像標註服務 透過影像註解增強人工智慧
印度語數據 預先標記的印度語語音資料集
多模態訓練數據 多模態訓練資料提升AI模型效能
醫療數據標註 從非結構化資料中擷取實體
多種語言的現成語音/語音/音頻數據集,可快速啟動您的自動語音識別 (ASR) 模型
探索適合您的語音資料集的各種口音、語言和風格。
呼叫中心、播客
編號時間: 365
查看更多
一般對話、播客
編號時間: 1,026
一般對話、TTS
編號時間: 2,239
編號時間: 100
編號時間: 20
呼叫中心、一般對話、播客
編號時間: 200
編號時間: 301
編號時間: 1,000
編號時間: 1,222
一般對話、自發性對話
編號時間: 1,250
編號時間: 418
編號時間: 2,762
編號時間: 1,028
編號時間: 900
呼叫中心、自發 IVR
編號時間: 500
普通對話、Podcast、TTS
編號時間: 3,615
編號時間: 700
編號時間: 250
編號時間: 1,205
編號時間: 473
編號時間: 264
編號時間: 826
編號時間: 3,126
編號時間: 424
編號時間: 367
編號時間: 1,139
編號時間: 192
編號時間: 2,335
有劇本的獨白、自發的 IVR
編號時間: 600
呼叫中心、播客、TTS
編號時間: 2,266
編號時間: 610
編號時間: 850
編號時間: 350
編號時間: 548
編號時間: 400
編號時間: 800
播客、TTS
編號時間: 1,751
編號時間: 2,398
編號時間: 292
編號時間: 465
編號時間: 512
編號時間: 1,492
編號時間: 495
編號時間: 528
編號時間: 1,201
編號時間: 356
編號時間: 2,027
編號時間: 552
喚醒詞/關鍵字
編號時間: 200音箱
編號時間: 2,000
編號時間: 10,000
編號時間:
編號時間: 40,000
編號時間: 278
端對端服務:具有專業領域知識和快速交付的完整服務。
靈活的:選擇具有靈活所有權的自訂、半自訂或現成的語音資料集。
領域專家:聘請專業領域專家來取得快速、優質的 AI 資料集。
品質:接受行業專家的品質檢查。
牌照:取得適合您需求的許可證。
道德數據:我們確保貢獻者了解並同意資料使用。
我們維持最高的法律和道德標準,優先考慮透明度、貢獻者自主權和公平報酬。
語音資料集是音訊記錄和元資料的集合,用於訓練和測試用於語音識別、文字轉語音 (TTS) 和語音合成等任務的 AI/ML 模型。
它們對於訓練人工智慧處理、理解和產生人類語音,提高語音助理、聊天機器人和轉錄系統的表現至關重要。
資料集包括一般對話、呼叫中心錄音、喚醒詞/關鍵字、環境聲音、TTS、自發性對話、劇本獨白和歌唱音訊。
資料集涵蓋 65 多種語言和地區口音,包括美式英語、阿拉伯語、普通話、印地語、西班牙語以及紐約英語和非裔美國人白話等口音。
取樣率包括 8 kHz、16 kHz、44 kHz 和 48 kHz,確保與各種 AI/ML 應用程式相容。
語音資料集用於訓練語音助理、改進自動語音識別、建立聊天機器人、訓練 TTS 系統以及增強區域和多語言模型。
元資料包括說話者的人口統計資料、錄音環境、轉錄、時間戳記和音訊品質詳細資訊。
透過高解析度錄音、降噪、專家驗證和符合行業標準來維持品質。
是的,貢獻者提供知情同意,並確保多元化、包容性和公平的報酬。
是的,它們可以根據語言、口音、資料集類型或說話者人口統計資料進行客製化。
是的,它們包含數千小時的音頻,適合小型和大型專案。
資料集以具有元資料的標準格式交付,以便輕鬆整合到 AI 工作流程中。
提供靈活的授權選項,包括現成的資料集或完全客製化的解決方案。
費用取決於資料集大小、客製化程度和許可需求。請聯絡我們以取得最優報價。
時間表取決於專案規模和複雜性,但旨在有效地滿足最後期限。
它們使人工智慧系統能夠理解和產生自然語音、改進轉錄並增強語音助理和聊天機器人的性能。