現成的數據目錄和許可
醫療數據集黃金標準,去識別化數據
醫生聽寫數據集
轉錄病歷
電子健康記錄 (EHR)
CT 掃描圖像數據集
X 射線圖像數據集
查看全部
計算機視覺數據集用於機器學習的圖像和視訊數據
銀行對賬單數據集
損壞的汽車圖像數據集
面部識別數據集
地標圖像數據集
工資單數據集
語音/音頻數據集以 65 多種語言轉錄和註釋資料。
紐約英語
繁體中文
西班牙語(墨西哥)
加拿大法語
阿拉伯語
TTS
醒來的話
呼叫中心
腳本獨白
一般對話
Podcast
自發性對話
自發IVR
歌唱音頻
解決方案
行業
醫療保健 將複雜的數據轉化為可行的洞見。
科技 利用精準數據推動科技發展
電子商務 提高轉換率、訂單價值和收入
使用案例
生物特徵數據 高品質生物特徵資料集
人臉辨識簽到 透過臉部標誌自動偵測臉部
DICOM醫學影像數據 跨模態和身體部位的影像數據
印度語數據 預先標記的印度語語音資料集
多模態訓練數據 多模態訓練資料提升AI模型效能
醫療數據標註 從非結構化資料中擷取實體
適用於進階 OCR 應用的多種文字辨識資料集:招牌、選單等
用例: 光學字元辨識
格式: 圖片
計數: 150k
註解: 可以
描述: 阿拉伯語、泰語、越南語、印地語、英語和漢語語言資料集
計數: 1k
描述: 阿拉伯語文本資料集包含用阿拉伯語編寫的文本範例的集合。它包括各種形式的內容,例如新聞文章、社交媒體貼文、文學和對話,涵蓋不同的主題和寫作風格。此資料集用於阿拉伯語應用程式中的自然語言處理 (NLP)、文字分類、情緒分析和機器翻譯等任務。
計數: 38k
描述: 漢英藏維吾爾語言資料集
計數: 60k
描述: 中英文菜單資料集包含中英文餐廳菜單的圖像或文字樣本。它包括各種字體、佈局和菜單結構,呈現雙語菜餚名稱、描述和價格。此資料集對於多語言環境中的光學字元辨識 (OCR)、機器翻譯和選單數位化等任務非常有用。
計數: 3k
描述: 中文手寫文資料集包含手寫中文文字樣本,包括作文、論文和其他長篇文本。它具有各種手寫風格和複雜程度,可用於手寫辨識、文字分析和機器學習模型訓練等任務。
描述: 中文 WIFI 提示資料集由 WIFI 提示和登入畫面中以中文編寫的文字樣本組成。它通常包括與連接或管理 WIFI 網路相關的各種提示、說明和錯誤訊息。此資料集用於文字辨識、自然語言處理和改進網路連接的使用者介面等任務。
計數: 12k
描述: 英文和中文手寫資料集包含英文和中文的手寫樣本,展示了各種書寫風格和字元複雜性。它通常用於訓練和評估手寫辨識模型,支援多語言文字分析和其他相關研究。該資料集包括兩種語言的各種字元、數字、單字和句子。
計數: 30k
描述: 英文和中文店牌資料集包括具有英文和中文文字的店牌圖像。它捕獲各種標誌元素,例如商店名稱、廣告、促銷和方向,以不同的字體、樣式和格式顯示。此資料集用於文字檢測和識別、多語言場景理解以及改進用於解釋雙語標誌的電腦視覺模型等任務。
計數: 50k
描述: 英文和中文特殊角度文字資料集包含英文和中文以各種角度和方向顯示的文字圖像。它包括來自標誌、廣告和文件等來源的文本,這些文本不以標準水平格式呈現。該資料集用於訓練和評估文本檢測和識別模型,特別是那些能夠以非傳統方向和視角處理文本的模型。
計數: 20k
描述: 英文菜單資料集包括用英文編寫的餐廳菜單的圖像或文字樣本。它具有多種字體、佈局和格式樣式,內容涵蓋從菜餚名稱到描述和價格。此資料集通常用於食品相關應用中的光學字元辨識 (OCR)、文字擷取和選單數位化等任務。
計數: 33k
描述: 英文場景文字資料集由包含自然場景和嵌入英文文字的圖像組成。文字以各種形式出現,例如標誌、廣告看板和海報,通常採用不同的字體、大小和方向。此資料集通常用於文字偵測、識別和場景理解任務中的模型訓練和測試。
用例: 文檔 AI
格式: HEIC(圖像)和 .mov(視頻)
計數: 94053
註解: 沒有
描述: 日語、韓語和俄語的帶有手寫文本的實時照片
錄音設備: iPhone 和 iPad 相機
錄音條件: - 強光/眩光 - 相機閃光燈開啟 - 彩色光 - 弱光,無相機閃光燈 - 正常
計數: 40k
描述: 日語和韓語語言資料集包括日語和韓語的文本範例。它具有一系列內容,例如句子、短語和單詞,涵蓋各種上下文和風格。此資料集用於多語言應用程式中的自然語言處理 (NLP)、機器翻譯和文字分析等任務。
計數: 23930
用例: 文字 + 視聽(多語言 / OCR / NLP)
格式: 影像素材
計數: 100K+ 講座視頻 + PPT 長視頻
描述: 中文圖書、英文圖書、期刊、公共政策、小說、兒童、粵語音頻+文字、講座影片+PPT、長影片 五億本圖書、問答對、文章