幫助您開始使用 AI/ML 模型的開源數據集
您的 AI 和 ML 模型的輸出與您用來訓練它的數據一樣好 - 因此您應用於數據聚合以及標記和識別該數據的精度非常重要!
因此,如果您想開始一項新的 AI/ML 計劃,現在您很快就會意識到,尋找高質量的訓練數據將是您項目中更具挑戰性的方面之一,因為高質量的數據集是保持 AI/機器學習引擎正在運行。 我們積累了一份開放數據集列表,可以免費使用和訓練您未來的 AI/ML 模型。
| 專業化 | 數據類型 | 數據集名稱 | 行業/部門 | 註釋/用例 | Link |
|---|---|---|---|---|---|
| +NLP | 文本 | 亞馬遜評論 | 電子商務 | 情緒分析 | Link |
| 簡介 | 過去 35 年的 18 萬條評論和評級,以純文本形式包含用戶和產品詳細信息。 | ||||
| +NLP | 文本 | 維基百科鏈接數據 | 一般說明 | Link | |
| 簡介 | 超過4萬篇文章,包含1.9億個來自維基百科的單字。每篇文章都包含指向相關實體的超連結。 | ||||
| +NLP | 文本 | 斯坦福情緒樹庫 | 零售與娛樂空間 | 情緒分析 | Link |
| 簡介 | 包含超過 10,000 條爛番茄電影評論句子的情緒標註資料集。資料以片語層級提供-每個句子都透過對賓州樹庫格式的句法樹進行二值化處理,被解析為子片語。 | ||||
| +NLP | 文本 | Twitter 美國航空公司情緒 | 航空公司 | 情緒分析 | Link |
| 簡介 | 2015 年關於美國航空公司的推文分為正面、中立和負面三種情緒。 | ||||
| +CV | 圖片 | 圖片網 | 一般說明 | Link | |
| 簡介 | 資料集包含超過 14 萬張圖像,圖像格式多樣,映射到約 21,000 個同義詞集。同義詞集是指包含相關實體的同義詞,這些實體以圖像形式呈現。其中 1 萬張影像帶有邊界框,超過 1 萬張影像具有 SIFT 特徵。 | ||||
| +CV | 圖片 | 谷歌的開放圖片 | 一般說明 | Link | |
| 簡介 | 一個類似 ImageNet 的資料集,包含 600 個類別。提供開發集、驗證集和訓練集。部分影像還包含邊界框和視覺關係資訊。 | ||||
| +NLP | 文本 | 康乃爾電影對白 | 零售與娛樂空間 | 對話框 | Link |
| 簡介 | 這是一系列虛構對話的集合,包含人物和電影的元數據。每一行都是兩人之間的問答對話。 | ||||
| 簡介 | 包含 2007 年 4 月至 2007 年 10 月期間雅虎問答入口網站上的問題和答案的問答資料集。 | ||||
| +NLP | 文本 | 馬可女士 | 一般說明 | 問題回答 | Link |
| 簡介 | 這是一個包含來自必應網路搜尋日誌的問答資料集,並附有標註。每個問題都包含使用者提供的答案,以及包含該答案的網頁段落。 | ||||
| +NLP | 文本 | 自然問題資料集 | 一般說明 | 問題回答 | Link |
| 簡介 | 該資料集由Google發布,包含來自維基百科文章的真實用戶查詢和答案。 | ||||
| +NLP | 文本 | 資料庫百科 | 一般說明 | 知識圖 | Link |
| 簡介 | 維基百科的結構化呈現,將實體和關係擷取為知識圖譜。 | ||||
| +NLP | 文本 | 雅戈 | 一般說明 | 知識圖 | Link |
| 簡介 | 包含來自維基百科、WordNet 和 GeoNames 的實體和關係的知識圖譜。 | ||||
| +NLP | 文本 | 遊離鹼 | 一般說明 | 知識圖 | Link |
| 簡介 | 一個由實體和關係組成的眾包知識庫,現已併入Google知識圖譜。 | ||||
| +NLP | 文本 | 本體筆記 | 一般說明 | 語意角色標籤 | Link |
| 簡介 | 在 CoNLL 共享任務中使用的具有句法、語義和篇章層級標註的語料庫。 | ||||
| 簡介 | 一個標註了人名、組織名稱和地點等命名實體的英文資料集。 | ||||
| +CV | 圖片 | COCO | 一般說明 | 物體檢測 | Link |
| 簡介 | 情境中的常見物件:一個標註豐富的物件偵測、分割和影像描述資料集。 | ||||
| +CV | 圖片 | 帕斯卡VOC | 一般說明 | 物體檢測 | Link |
| 簡介 | 用於目標偵測和分割挑戰的基準資料集。 | ||||
| +CV | 圖片 | 風情 | 自動駕駛 | 語義分割 | Link |
| 簡介 | 用於城市場景理解的資料集,包含 30 個類別的像素級標註。 | ||||
| +CV | 圖片 | MNIST | 一般說明 | 數字分類 | Link |
| 簡介 | 手寫數位資料集,包含 60,000 張訓練影像和 10,000 張測試影像,影像大小為 28x28 像素。 | ||||
| +CV | 圖片 | 時尚-MNIST | 零售空間 | 影像分類 | Link |
| 簡介 | Zalando 商品圖片的資料集,格式與 MNIST 相同,可作為基準測試的直接替代品。 | ||||
| +NLP | 音頻 | 圖書館演講 | 一般說明 | ASR | Link |
| 簡介 | 源自有聲書的英語語音語料庫,包含 1000 小時的語音和相關文字。 | ||||
| +NLP | 音頻 | TED-LIUM | 一般說明 | ASR | Link |
| 簡介 | TED演講的音訊轉錄文本,以及用於語音辨識研究的對齊轉錄文本。 | ||||
| +NLP | 音頻 | 時間 | 一般說明 | 音素識別 | Link |
| 簡介 | 美國英語使用者的語音轉錄,廣泛用於音素辨識任務。 | ||||
| +NLP | 音頻 | 共同的聲音 | 一般說明 | ASR | Link |
| 簡介 | 由世界各地志工貢獻的多語言語音語料庫。 | ||||
| +NLP | 音頻 | 名人之聲 | 一般說明 | 說話人識別 | Link |
| 簡介 | 從 YouTube 影片中收集的大規模說話者識別資料集。 | ||||
| +NLP | 文本 | 維基百科垃圾場 | 一般說明 | 語言建模 | Link |
| 簡介 | 維基百科文章的全文轉儲,定期更新,用於語言模型的預訓練。 | ||||
| +NLP | 文本 | 千兆字 | 新聞中心 | 語言建模 | Link |
| 簡介 | 匯集多家新聞機構新聞稿文字資料的綜合檔案。 | ||||
| +NLP | 文本 | IMDB評論 | 零售與娛樂空間 | 情緒分析 | Link |
| 簡介 | 用於二元情感分類的大型電影評論資料集。 | ||||
| +CV | 視頻資料 | 動力學-700 | 一般說明 | 動作辨識 | Link |
| 簡介 | 涵蓋 700 個人類動作類別的大規模、高品質 YouTube 影片片段資料集。 | ||||
| +CV | 視頻資料 | UCF101 | 一般說明 | 動作辨識 | Link |
| 簡介 | 一個包含 101 個動作類別的真實動作影片資料集。 | ||||
| +CV | 視頻資料 | HMDB51 | 一般說明 | 動作辨識 | Link |
| 簡介 | 一個包含 51 個動作類別的大型人體運動影片資料庫。 | ||||
| 簡介 | 一個用於研究無約束人臉辨識的人臉照片資料庫。 | ||||
| +CV | 圖片 | CASIA-WebFace | 一般說明 | 人臉識別 | Link |
| 簡介 | 一個包含數百萬張人臉圖像的資料集,用於訓練深度人臉辨識模型。 | ||||
| +NLP | 文本 | 隊 | 一般說明 | 閱讀理解 | Link |
| 簡介 | 史丹佛問答資料集:眾包工作者在一組維基百科文章中提出的問題。 | ||||
| 簡介 | 一個基於 CNN 新聞文章的問答機器理解資料集。 | ||||
| +NLP | 文本 | 多網路邏輯 | 一般說明 | 自然語言推理 | Link |
| 簡介 | 用於跨多種文體進行句子對自然語言推理的資料集。 | ||||
| +NLP | 文本 | SNLI | 一般說明 | 自然語言推理 | Link |
| 簡介 | 史丹佛自然語言推理語料庫,句子對標示為蘊含關係、矛盾關係或中性關係。 | ||||
| 簡介 | 從維基百科上經過驗證的優秀和特色文章中提取的超過 100 億個代幣的集合。 | ||||
| 簡介 | 包含 196 類汽車的 16,185 張影像的資料集。 | ||||
| +CV | 圖片 | 牛津花卉 102 | 植物學 | 細粒度分類 | Link |
| 簡介 | 英國常見的102種花卉。 | ||||
| +CV | 圖片 | CIFAR-10 | 一般說明 | 影像分類 | Link |
| 簡介 | 10 類圖片:飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。 | ||||
| +CV | 圖片 | CIFAR-100 | 一般說明 | 影像分類 | Link |
| 簡介 | 與 CIFAR-10 類似的資料集,但有 100 個細粒度類別。 | ||||
| +CV | 圖片 | VOC人員佈局 | 一般說明 | 姿勢估計 | Link |
| 簡介 | PASCAL VOC 的一部分,專注於人物佈局註釋,例如頭部、手部和腳部。 | ||||
| +CV | 圖片 | MPII 人體姿勢 | 一般說明 | 姿勢估計 | Link |
| 簡介 | 約 25,000 張圖像,包含超過 40,000 個人,並標註了身體關節。 | ||||
| 簡介 | 收集路透社新聞稿,用於文字分類研究。 | ||||
| +NLP | 文本 | 20 個新聞群組 | 一般說明 | 文字分類 | Link |
| 簡介 | 包含 20,000 個新聞群組文檔,分為 20 個不同的新聞群組。 | ||||