現成的數據目錄和許可
醫療數據集黃金標準,去識別化數據
醫生聽寫數據集
轉錄病歷
電子健康記錄 (EHR)
CT 掃描圖像數據集
X 射線圖像數據集
查看全部
計算機視覺數據集用於機器學習的圖像和視訊數據
銀行對賬單數據集
損壞的汽車圖像數據集
面部識別數據集
地標圖像數據集
工資單數據集
語音/音頻數據集以 65 多種語言轉錄和註釋資料。
紐約英語
中文繁體
西班牙語(墨西哥)
加拿大法語
阿拉伯語
TTS
醒來的話
呼叫中心
腳本獨白
一般對話
Podcast
自發性對話
自發IVR
歌唱音頻
解決方案
行業
醫療保健 將複雜的數據轉化為可行的洞見。
科技 利用精準數據推動科技發展
電子商務 提高轉換率、訂單價值和收入
使用案例
生物特徵數據 高品質生物特徵資料集
人臉辨識簽到 透過臉部標誌自動偵測臉部
DICOM醫學影像數據 跨模態和身體部位的影像數據
印度語數據 預先標記的印度語語音資料集
多模態訓練數據 多模態訓練資料提升AI模型效能
醫療數據標註 從非結構化資料中擷取實體
存取高品質的綜合銀行對帳單、支票和薪資資料集,以進行準確的 AI/ML 模型訓練
用例: 光學字元辨識
格式: 。JPG
計數: 2023
註解: 沒有
描述: 銀行支票資料集(Document AI):合成銀行支票由人工產生的支票影像組成,旨在複製真實支票的外觀和內容。它包括各種元素,例如收款人姓名、金額、日期、簽名和支票號碼。此資料集用於訓練和評估文件 AI 系統的光學字元辨識 (OCR)、支票處理和自動資料擷取等任務,為模型開發提供受控環境,而無需擔心真實支票的隱私問題。
錄音條件: - 單擊的圖像 - 掃描的 - 網絡抓取工具
格式: .jpg, PNG
計數: 5366
描述: 銀行對帳單資料集(Document AI):合成銀行對帳單包括人工產生的銀行對帳單,旨在模擬真實的財務文件。它具有各種交易記錄、日期、金額和帳戶詳細信息,其結構反映了現實世界的格式和內容。此資料集用於訓練和評估文件人工智慧系統的光學字元辨識(OCR)、資料擷取和文件分析等任務,提供一個不受實際財務資料隱私問題影響的受控環境。
錄音條件: - 已掃描 - Bank_Statement - Web 抓取工具
格式: 圖片
計數: 6k
註解: 可以
描述: 中國票據資料集包括各種類型票據的圖像或文字樣本,例如用中文書寫的發票、收據和報表。它具有多種格式和內容,包括項目描述、金額和日期。此資料集用於光學字元辨識 (OCR)、財務文件處理和自動資料擷取等任務。
用例: 文件/OCR
計數: 1,321
描述: 阿拉伯語和英語內容圖像集:用於 OCR 的圖像 + 註釋
格式: 視頻
計數: 2,767
描述: 條碼影片(Code128、UPC/EAN、PDF417、Aztec、多碼)
計數: 18,986
描述: 彎曲的印刷文字:收集帶有彎曲文字的圖像,或帶有非線性基線的文字
計數: 26,446
描述: 財務文件:銀行對帳單、支票、薪資、稅單、抵押貸款、保險索賠(美國)
計數: 9,192
描述: 財務文件(第一階段)抵押資料集-列印、掃描、拍照
計數: 7,636
描述: 財務文件(第 2 階段)保險資料集 – 列印、掃描、拍照
計數: 106,313
描述: 手寫文字:帶有手寫文字的 LivePhotos(日文、韓文、俄文)
計數: 87
描述: 帶有邊界框註釋的發票資料集包括掃描或數位發票,其中發票號碼、日期、供應商詳細資訊、行項目和總金額等關鍵欄位都以邊界框標記,使 AI 模型能夠準確地從非結構化文件中檢測和提取結構化資訊。
計數: 4,944
描述: 帶有印刷文字的 LivePhotos(日語、韓語、俄語)
計數: 8,961
描述: 多語言收據和發票資料集包含多種語言的多樣化財務文件,使 AI 模型能夠訓練跨語言文字識別、關鍵字段提取和文件理解。
計數: 1,290
描述: 銀行對帳單 - 唯一範本 - 40:綜合銀行對帳單
計數: 2,010
描述: 支票 - 獨特範本 - 60:合成薪資單
計數: 2,023
描述: 薪資 - 獨特範本 - 130:合成銀行支票
計數: 2010
描述: 薪資資料集(Document AI):合成薪資單由人工產生的薪資影像組成,沒有任何註釋。它具有各種工資單格式和詳細信息,例如員工姓名、工資和日期,用於在 OCR 和文件處理等任務中培訓和測試文件 AI 系統。
錄音條件: - 已掃描 - 網頁抓取