開放數據集
發現可幫助您訓練 ML 模型的開源數據集
幫助您開始使用 AI/ML 模型的開源數據集
您的 AI 和 ML 模型的輸出與您用來訓練它的數據一樣好 - 因此您應用於數據聚合以及標記和識別該數據的精度非常重要!
因此,如果您想開始一項新的 AI/ML 計劃,現在您很快就會意識到,尋找高質量的訓練數據將是您項目中更具挑戰性的方面之一,因為高質量的數據集是保持 AI/機器學習引擎正在運行。 我們積累了一份開放數據集列表,可以免費使用和訓練您未來的 AI/ML 模型。
專業化 | 數據類型 | 數據集名稱 | 行業/部門 | 註釋/用例 | 產品描述 | Link |
---|---|---|---|---|---|---|
NLP | 文本 | 亞馬遜評論 | 電子商務 | 情緒分析 | 過去 35 年的 18 萬條評論和評級,以純文本形式包含用戶和產品詳細信息。 | Link |
NLP | 文本 | 維基百科鏈接數據 | 總 | 超過 4 百萬。 文章包含 1.9 億。 由單詞和短語以及段落組成的單詞。 | Link | |
NLP | 文本 | 斯坦福情緒樹庫 | 娛樂 | 情緒分析 | 來自 Rotten Tomatoes 的超過 10,000 條評論的 HTML 文件格式的情感註釋數據集 | Link |
NLP | 文本 | Twitter 美國航空公司情緒 | 航空公司 | 情緒分析 | 2015 年美國航空公司的推文分為正面、負面和中性色調 | Link |
CV | 圖片 | 野外帶標籤的面孔 | 總 | 人臉辨識簽到 | 數據集包含超過 13,000 張裁剪過的人臉和兩張不同的用於人臉識別訓練的圖片。 | Link |
CV | 視頻、圖片 | UMDfaces 數據集 | 總 | 人臉辨識簽到 | 包含來自 367,000 多個主題的超過 8,000 張人臉的帶註釋的數據集,包括靜止圖像和視頻圖像。 | Link |
CV | 圖片 | 圖片網 | 總 | 超過 14 百萬的數據集。 根據 WordNet 層次結構組織的各種文件格式的圖像。 | Link | |
CV | 圖片 | 谷歌的開放圖片 | 總 | 9 百萬。 用於對來自 6,000 多個類別的公共圖像進行分類的 URL。 | Link | |
NLP | 文本 | MIMIC重症監護數據庫 | 醫療 | 具有來自 40,000 名重症監護患者的去識別化數據的計算生理學數據集。 數據集包含人口統計、生命體徵、藥物等信息。 | Link | |
CV | 圖片 | 美國國家旅遊局 | 旅遊 | 提供來自旅遊業的廣泛照片和值得信賴的數據庫,涵蓋出入境旅遊和國際旅遊信息等主題。 | Link | |
NLP | 文本 | 交通運輸部 | 旅遊 | 旅遊數據集,包括國家公園、司機登記、橋樑和鐵路信息等。 | Link | |
NLP | 音頻 | Flickr 音頻字幕語料庫 | 總 | 來自 40 張照片的超過 8,000 條語音字幕,專為無監督語音模式而設計 | Link | |
NLP | 音頻 | 語音命令數據集 | 總 | 語音識別、音頻註釋 | 千人千言萬語,構建基礎語音界面。 | Link |
NLP | 音頻 | 環境音頻數據集 | 總 | 包含事件聲音表和聲學場景表的環境音頻數據集。 | Link | |
NLP | 文本 | COVID-19開放研究數據集 | 醫療 | 醫療人工智能 | 一個研究數據集,包含 45,000 篇關於 COVID-19 和冠狀病毒家族的學術文章。 | Link |
CV | 圖片 | Waymo打開數據集 | 車用電子應用 | Waymo 發布的最多樣化的自動駕駛數據集 | Link | |
CV | 圖片 | 視覺基因組 | 總 | 圖片說明 | 具有超過 100K 圖像詳細說明的視覺知識庫 | Link |
CV | 圖片 | 標籤 | 公共政府 | 可通過 Labelme Matlab 訪問的大量帶註釋的圖像 | Link | |
CV | 圖片 | 線圈100 | 總 | 從多個角度(即 100 度)拍攝的 360 多個不同物體 | Link | |
CV | 圖片 | 斯坦福狗數據集 | 總 | 超過 20,500 幅圖像被分類為 120 種不同犬種的圖像集 | Link | |
CV | 圖片 | 室內場景識別 | 總 | 場景識別 | 一個特定的數據集,由 15620 個室內類別的 67 張圖像組成,用於構建場景識別模型 | Link |
CV | 圖片 | 視覺質量保證 | 總 | 一個數據集,其中包含與 265,016 張照片相關的開放式問題,這些問題需要理解視覺和語言理解才能做出回應。 | Link | |
NLP | 文本 | 多域情感分析數據集 | 電子商務 | 情緒分析 | 包含來自亞馬遜的產品評論的數據集 | Link |
NLP | 文本 | IMDB評論 | 娛樂 | 情緒分析 | 包含用於情感分析的 25000 條影評的數據集 | Link |
NLP | 文本 | 情感140 | 總 | 情緒分析 | 數據集包含 160,000 條推文,並預先刪除了表情符號以提高準確性 | Link |
NLP | 文本 | 博主語料庫 | 總 | 關鍵字分析 | 包含來自 blogger.com 的 681,288 篇博客文章的數據集,其中包含至少 200 次出現的廣泛使用的英語單詞。 | Link |
NLP | 文本 | 傑帕迪 | 總 | 聊天機器人培訓 | 包含超過 200,000 個問題的數據集,可用於訓練機器學習模型以智能自動響應 | Link |
NLP | 文本 | 英語垃圾短信收集 | 電信 | 垃圾郵件識別 | 包含 5,574 條英文短信的垃圾郵件數據集 | Link |
NLP | 文本 | Yelp評論 | 總 | 情緒分析 | Yelp 發布的評論超過 5 萬的數據集 | Link |
NLP | 文本 | UCI 的垃圾郵件庫 | 企業 | 垃圾郵件識別 | 大型垃圾郵件數據集,可用於垃圾郵件過濾。 | Link |
CV | 視頻、圖片 | 伯克利 DeepDrive BDD100k | 車用電子應用 | 自主車輛 | 最大的自動駕駛 AI 數據集之一,包含來自紐約和舊金山地區一天中不同時間的 1,100 多個視頻中的 100,000 小時駕駛體驗。 | Link |
CV | 視頻資料 | 逗號 | 車用電子應用 | 自主車輛 | 7 小時高速公路駕駛數據集,包含汽車速度、加速度、轉向角和 GPS 坐標信息 | Link |
CV | 視頻、圖片 | 城市景觀數據集 | 車用電子應用 | 自動駕駛汽車語義標籤 | 從 5,000 個不同城市記錄的立體視頻序列中包含 20,000 個像素級註釋的數據集以及更大的 50 個弱註釋幀 | Link |
CV | 圖片 | KUL 比利時交通標誌數據集 | 車用電子應用 | 自主車輛 | 來自法蘭德斯地區的 10000 多個交通標誌註釋基於來自比利時各地的物理上不同的交通標誌。 | Link |
CV | 圖片 | LISA:智能與安全汽車實驗室,加州大學聖地亞哥分校數據集 | 車用電子應用 | 自主車輛 | 包含交通標誌、車輛檢測、交通燈和軌跡模式的豐富數據集。 | Link |
CV | 圖片 | CIFAR-10 | 總 | 物體識別 | 用於對象識別的數據集由 50,000 張圖像和 10,000 張測試圖像(即 60,000 張 32×32 彩色圖像 10 類)組成。 | Link |
CV | 圖片 | 時尚MNIST | 時尚 | 一個圖像數據集,包含 60,000 個示例和 10,000×28 灰度圖像中的 28 個示例的測試集,與來自 10 個類別的標籤相關聯。 | Link | |
CV | 圖片 | IMDB-Wiki 數據集 | 娛樂 | 人臉辨識簽到 | 帶有性別和年齡等標籤的大型面部圖像數據集。 在總共 523,051 張人臉圖像中,460,723 張圖像來自 IMDB 的 20,284 位名人和維基百科的 62,328 位名人。 | Link |
CV | 視頻資料 | 動力學-700 | 總 | 對於每個動作類,高質量數據集由 650,000 個視頻剪輯組成,包含 700 個人類動作類,其中至少有 600 個視頻剪輯。 在這裡,每個剪輯持續 10 秒左右。 | Link | |
CV | 圖片 | 可可女士 | 總 | 對象檢測、分割 | 該數據集包含 328k 個圖像,總共有 2.5 萬個實例和 91 個對像圖像,用於訓練大規模對象檢測、分割和數據字幕相關的 ML 模型。 | Link |
CV | 圖片 | MPII 人體姿勢數據集 | 總 | 數據集中包含大約 25 張照片,其中包含超過 40 個帶有註釋身體關節的個體,用於闡明人體姿勢估計。 總的來說,數據集涵蓋了 410 項人類活動,每個圖像都提供了一個活動標籤。 | Link | |
CV | 圖片 | 打開圖像 | 總 | 對象位置註釋 | 包含大約 9 百萬張圖像的圖像數據集,用圖像級標籤、對象邊界框、對象分割等進行註釋。該數據集也包含 16 百萬張。 600 萬幅圖像上 1.9 個對像類的邊界框。 | Link |
CV | 視頻資料 | Apollo 開放平台,由中國百度公司提供 | 車用電子應用 | 邊界框,激光雷達 | 豐富的自動駕駛數據集,為開發者提供自動駕駛所需的數據,加速創新迭代的效率。 | Link |
CV | 視頻、圖片 | Argo,美國 Argo | 車用電子應用 | 邊界框、光流、行為標籤、語義標籤、車道標記 | 自動駕駛數據集,包含具有幾何和語義元數據的高清地圖,即車道中心線、車道方向和可行駛區域。 該數據集用於訓練 ML 模型,以製定更準確的感知算法,這將有助於自動駕駛車輛安全導航。 | Link |
CV | 視頻資料 | 博世小型交通燈,博世北美研究部 | 車用電子應用 | 邊界框 | 由 13427 張分辨率為 1280*720 的攝像頭圖像組成的數據集,用於構建基於視覺的交通燈檢測系統。 該數據集有超過 24000 個帶註釋的交通燈。 | Link |
CV | 視頻資料 | Brain4Cars,美國康奈爾大學 | 車用電子應用 | 行為標籤 | 包含一系列機艙傳感器(攝像頭、觸覺傳感器、智能設備等)的數據集,以提取有關駕駛員警覺性的有用統計數據。 我們的算法可能會檢測到昏昏欲睡或分心的司機,並增強必要的警報以改善保護。 | Link |
CV | 圖片 | CULane,由中國大學。 香港,北京,中國 | 車用電子應用 | 車道標記 | 關於交通車道檢測的計算機視覺數據集,由 55 小時的視頻組成,其中提取了 133,235 個(88880 個訓練集、9675 個驗證集和 34680 個測試集)幀。 它由安裝在北京不同司機駕駛的六輛不同車輛上的攝像頭收集。 | Link |
CV | 視頻資料 | 戴維斯,由大學。 蘇黎世聯邦理工學院 ¨ 蘇黎世,德國,瑞士 | 車用電子應用 | 使用 DAVIS 事件+幀相機的端到端車輛駕駛訓練數據集。 轉向、油門、GPS 等汽車數據用於評估汽車應用程序的幀和事件數據的融合。 | Link | |
CV | 視頻資料 | DBNet,上海交通大學,廈門大學,中國 | 車用電子應用 | 點雲、激光雷達 | 真實世界的 1000 公里駕駛數據,包括對齊的視頻、點雲、GPS 和駕駛員行為,用於深入研究駕駛行為。 | Link |
CV | 視頻資料 | Dr(eye)ve,由大學。 摩德納和雷焦艾米利亞,摩德納,意大利 | 車用電子應用 | 行為標籤 | 數據集包含 74 個視頻序列,每個序列 5 分鐘,註釋超過 500,000 幀。 該數據集包括地理參考位置、行駛速度、路線,還標記駕駛員注視點及其時間整合,提供特定於任務的地圖。 | Link |
CV | 視頻資料 | ETH Pedestrian (2009),蘇黎世聯邦理工學院,瑞士蘇黎世 | 總 | 邊界框 | 包含 74 個視頻序列的數據集,每個序列 5 分鐘,註釋超過 500,000 幀。 該數據集提供了地理參考位置、行駛速度、方向,還為駕駛員及其時間整合標記了注視點,包括特定任務的地圖。 | Link |
CV | 視頻資料 | 福特 (2009),由大學。 美國密歇根州密歇根州 | 車用電子應用 | 邊界框, , LiDAR | 由配備 Velodyne 3D 激光雷達掃描儀、兩個推掃式前視 Rieg 激光雷達、技術和消費者慣性測量單元 (IMU) 以及 Point Grey Ladybug3 全向攝像頭系統的自動陸地車輛編譯的數據集。 | Link |
CV | 視頻資料 | HCI 挑戰立體聲,博世公司研究部,德國希爾德斯海姆 | 總 | 來自捕獲的視頻場景的數百萬幀數據集,包括各種天氣條件、多層運動和深度; 城市和農村等情況。 | Link | |
CV | 視頻資料 | JAAD,約克大學,烏克蘭,加拿大 | 車用電子應用 | 邊界框,行為標籤 | “JAAD 是一個用於研究自動駕駛背景下聯合注意力的數據集。重點是行人和司機在交叉路口的行為以及影響他們的因素。為此,JAAD 數據集提供了一個包含豐富註釋的 346 個短視頻集合從北美和東歐多個地點的超過 5 小時駕駛鏡頭中提取的剪輯(10-240 秒長)。帶有遮擋標籤的邊界框用於所有行人,使該數據集適用於行人檢測。行為註釋指定行人的行為與駕駛員互動或需要駕駛員注意。對於每個視頻,都有幾個標籤(天氣、位置等)和帶時間戳的行為標籤(例如停止、行走、尋找等)。此外,人口統計屬性列表是為每個行人提供(例如年齡、性別、運動方向等)以及每幀中可見交通場景元素(例如停車標誌、交通信號等)的列表。” | Link |
CV | 視頻資料 | KAIST Urban,韓國 KAIST | 總 | 激光雷達 | 數據收集包括用於 LiDAR 數據和立體圖像的眾多位置傳感器,目標是非常複雜的城市地區(例如大都市地區、複雜的建築物和住宅區)。 | Link |
CV | 圖片 | LISA交通標誌,由大學。 美國加利福尼亞州聖地亞哥 | 車用電子應用 | 邊界框 | 包含視頻和帶註釋的幀的數據集集,其中包含美國交通標誌。 它分兩個階段發布,一個只有圖片,一個有圖片和視頻。 | Link |
CV | 圖片 | Mapillary Vistas,由 Mapillary AB 提供,全球 | 車用電子應用 | 語義標籤 | 一個街道級攝影數據集,用於通過像素精確和特定於實例的人類註釋來解釋世界各地的街景。 | Link |
CV | 視頻、圖片 | Semantic KITTI,德國卡爾斯魯厄波恩大學 | 車用電子應用 | 邊界框、語義標籤、車道標記 | 包含所有 Odometry Benchmark 序列的語義註釋的數據集。 該數據集註釋了各種類型的移動和非移動交通:包括汽車、自行車、自行車、行人和騎自行車的人,允許研究場景中的物體。 | Link |
CV | 視頻資料 | 斯坦福軌道,美國斯坦福大學 | 車用電子應用 | 目標檢測/分類 LiDAR、GPS、代碼 | 一個包含 14,000 個標記對象軌蹟的數據集,由 Velodyne HDL-64E S2 LIDAR 在自然街道場景中觀察到,可用於訓練機器學習模型以進行 3D 對象識別。 | Link |
CV | 視頻、圖片 | Boxy 數據集,由美國博世提供 | 車用電子應用 | 邊界框/車輛檢測 | 包含 2 萬輛帶註釋的車輛的車輛檢測數據集,用於訓練和分析高速公路上自動駕駛汽車的目標識別策略。 | Link |
CV | 視頻資料 | TME 高速公路,由捷克技術大學設計,意大利北部 | 車用電子應用 | 邊界框 | 一個包含 28 個剪輯的數據集,總共 27 分鐘,分為 30,000 多個車輛註釋幀。 註釋是使用來自激光掃描儀的數據半自動生成的。 該數據收集涉及可變交通場景、車道數量、道路曲率和照明,涵蓋了完整採集的大部分條件。 | Link |
CV | 視頻資料 | 無人監督的美洲駝,由美國博世 | 車用電子應用 | 車道標線、激光雷達 | 無監督美洲駝數據集通過生成高清自動駕駛地圖(包括基於激光雷達的車道標記)進行註釋。 自動駕駛汽車可以與這些地圖對齊,車道標記被投影到相機框架中。 通過最小化已經觀察到的和預測的圖像標記之間的差異來優化 3D 投影。 | Link |
NLP | 音頻 | Facebook AI 多語言 LibriSpeech (MLS) | 總 | 音頻註釋/語音識別 | Facebook AI 多語言 LibriSpeech (MLS) 是一個大規模開源數據集,旨在幫助推進自動語音識別 (ASR) 的研究。 MLS 提供超過 50,000 小時的 8 種語言音頻:英語、德語、荷蘭語、法語、西班牙語、意大利語、葡萄牙語和波蘭語。 | Link |