開放數據集

發現可幫助您訓練 ML 模型的開源數據集

開放數據集

幫助您開始使用 AI/ML 模型的開源數據集

您的 AI 和 ML 模型的輸出與您用來訓練它的數據一樣好 - 因此您應用於數據聚合以及標記和識別該數據的精度非常重要!

因此,如果您想開始一項新的 AI/ML 計劃,現在您很快就會意識到,尋找高質量的訓練數據將是您項目中更具挑戰性的方面之一,因為高質量的數據集是保持 AI/機器學習引擎正在運行。 我們積累了一份開放數據集列表,可以免費使用和訓練您未來的 AI/ML 模型。

專業化數據類型數據集名稱行業/部門註釋/用例產品描述Link
NLP文本亞馬遜評論電子商務情緒分析過去 35 年的 18 萬條評論和評級,以純文本形式包含用戶和產品詳細信息。Link
NLP文本維基百科鏈接數據一般超過 4 百萬。 文章包含 1.9 億。 由單詞和短語以及段落組成的單詞。Link
NLP文本斯坦福情緒樹庫娛樂情緒分析來自 Rotten Tomatoes 的超過 10,000 條評論的 HTML 文件格式的情感註釋數據集Link
NLP文本Twitter 美國航空公司情緒航空公司情緒分析2015 年美國航空公司的推文分為正面、負面和中性色調Link
CV圖片 野外帶標籤的面孔一般人臉辨識簽到數據集包​​含超過 13,000 張裁剪過的人臉和兩張不同的用於人臉識別訓練的圖片。Link
CV視頻、圖片UMDfaces 數據集一般人臉辨識簽到包含來自 367,000 多個主題的超過 8,000 張人臉的帶註釋的數據集,包括靜止圖像和視頻圖像。Link
CV圖片 圖片網一般超過 14 百萬的數據集。 根據 WordNet 層次結構組織的各種文件格式的圖像。Link
CV圖片 谷歌的開放圖片一般9 百萬。 用於對來自 6,000 多個類別的公共圖像進行分類的 URL。Link
NLP文本MIMIC重症監護數據庫醫療具有來自 40,000 名重症監護患者的去識別化數據的計算生理學數據集。 數據集包​​含人口統計、生命體徵、藥物等信息。Link
CV圖片美國國家旅遊局旅遊提供來自旅遊業的廣泛照片和值得信賴的數據庫,涵蓋出入境旅遊和國際旅遊信息等主題。Link
NLP文本交通運輸部旅遊旅遊數據集,包括國家公園、司機登記、橋樑和鐵路信息等。Link
NLP音頻Flickr 音頻字幕語料庫一般來自 40 張照片的超過 8,000 條語音字幕,專為無監督語音模式而設計Link
NLP音頻語音命令數據集一般語音識別、音頻註釋千人千言萬語,構建基礎語音界面。Link
NLP音頻環境音頻數據集一般包含事件聲音表和聲學場景表的環境音頻數據集。Link
NLP文本COVID-19開放研究數據集 醫療醫療人工智能一個研究數據集,包含 45,000 篇關於 COVID-19 和冠狀病毒家族的學術文章。Link
CV圖片Waymo打開數據集 汽車Waymo 發布的最多樣化的自動駕駛數據集Link
CV圖片視覺基因組 一般圖片說明具有超過 100K 圖像詳細說明的視覺知識庫Link
CV圖片標籤 公共政府可通過 Labelme Matlab 訪問的大量帶註釋的圖像Link
CV圖片線圈100一般從多個角度(即 100 度)拍攝的 360 多個不同物體Link
CV圖片斯坦福狗數據集一般超過 20,500 幅圖像被分類為 120 種不同犬種的圖像集Link
CV圖片室內場景識別一般場景識別一個特定的數據集,由 15620 個室內類別的 67 張圖像組成,用於構建場景識別模型Link
CV圖片視覺質量保證一般一個數據集,其中包含與 265,016 張照片相關的開放式問題,這些問題需要理解視覺和語言理解才能做出回應。Link
NLP文本多域情感分析數據集電子商務情緒分析包含來自亞馬遜的產品評論的數據集Link
NLP文本IMDB評論娛樂情緒分析包含用於情感分析的 25000 條影評的數據集Link
NLP文本情感140一般情緒分析數據集包​​含 160,000 條推文,並預先刪除了表情符號以提高準確性Link
NLP文本博主語料庫一般關鍵字分析包含來自 blogger.com 的 681,288 篇博客文章的數據集,其中包含至少 200 次出現的廣泛使用的英語單詞。Link
NLP文本傑帕迪一般聊天機器人培訓包含超過 200,000 個問題的數據集,可用於訓練機器學習模型以智能自動響應Link
NLP文本英語垃圾短信收集電信垃圾郵件識別包含 5,574 條英文短信的垃圾郵件數據集Link
NLP文本Yelp評論一般情緒分析Yelp 發布的評論超過 5 萬的數據集Link
NLP文本UCI 的垃圾郵件庫企業垃圾郵件識別大型垃圾郵件數據集,可用於垃圾郵件過濾。Link
CV視頻、圖片伯克利 DeepDrive BDD100k汽車自主車輛最大的自動駕駛 AI 數據集之一,包含來自紐約和舊金山地區一天中不同時間的 1,100 多個視頻中的 100,000 小時駕駛體驗。Link
CV影片逗號汽車自主車輛 7 小時高速公路駕駛數據集,包含汽車速度、加速度、轉向角和 GPS 坐標信息Link
CV視頻、圖片城市景觀數據集汽車自動駕駛汽車語義標籤從 5,000 個不同城市記錄的立體視頻序列中包含 20,000 個像素級註釋的數據集以及更大的 50 個弱註釋幀Link
CV圖片KUL 比利時交通標誌數據集汽車自主車輛來自法蘭德斯地區的 10000 多個交通標誌註釋基於來自比利時各地的物理上不同的交通標誌。Link
CV圖片LISA:智能與安全汽車實驗室,加州大學聖地亞哥分校數據集汽車自主車輛包含交通標誌、車輛檢測、交通燈和軌跡模式的豐富數據集。Link
CV圖片CIFAR-10一般物體識別用於對象識別的數據集由 50,000 張圖像和 10,000 張測試圖像(即 60,000 張 32×32 彩色圖像 10 類)組成。Link
CV圖片時尚MNIST時尚一個圖像數據集,包含 60,000 個示例和 10,000×28 灰度圖像中的 28 個示例的測試集,與來自 10 個類別的標籤相關聯。Link
CV圖片IMDB-Wiki 數據集娛樂人臉辨識簽到帶有性別和年齡等標籤的大型面部圖像數據集。 在總共 523,051 張人臉圖像中,460,723 張圖像來自 IMDB 的 20,284 位名人和維基百科的 62,328 位名人。Link
CV影片動力學-700一般對於每個動作類,高質量數據集由 650,000 個視頻剪輯組成,包含 700 個人類動作類,其中至少有 600 個視頻剪輯。 在這裡,每個剪輯持續 10 秒左右。Link
CV圖片可可女士一般對象檢測、分割該數據集包含 328k 個圖像,總共有 2.5 萬個實例和 91 個對像圖像,用於訓練大規模對象檢測、分割和數據字幕相關的 ML 模型。Link
CV圖片MPII 人體姿勢數據集一般數據集中包含大約 25 張照片,其中包含超過 40 個帶有註釋身體關節的個體,用於闡明人體姿勢估計。 總的來說,數據集涵蓋了 410 項人類活動,每個圖像都提供了一個活動標籤。Link
CV圖片打開圖像一般對象位置註釋包含大約 9 百萬張圖像的圖像數據集,用圖像級標籤、對象邊界框、對象分割等進行註釋。該數據集也包含 16 百萬張。 600 萬幅圖像上 1.9 個對像類的邊界框。Link
CV影片Apollo 開放平台,由中國百度公司提供汽車邊界框,激光雷達豐富的自動駕駛數據集,為開發者提供自動駕駛所需的數據,加速創新迭代的效率。Link
CV視頻、圖片Argo,美國 Argo汽車邊界框、光流、行為標籤、語義標籤、車道標記自動駕駛數據集,包含具有幾何和語義元數據的高清地圖,即車道中心線、車道方向和可行駛區域。 該數據集用於訓練 ML 模型,以製定更準確的感知算法,這將有助於自動駕駛車輛安全導航。Link
CV影片博世小型交通燈,博世北美研究部汽車邊界框由 13427 張分辨率為 1280*720 的攝像頭圖像組成的數據集,用於構建基於視覺的交通燈檢測系統。 該數據集有超過 24000 個帶註釋的交通燈。Link
CV影片Brain4Cars,美國康奈爾大學汽車行為標籤包含一系列機艙傳感器(攝像頭、觸覺傳感器、智能設備等)的數據集,以提取有關駕駛員警覺性的有用統計數據。 我們的算法可能會檢測到昏昏欲睡或分心的司機,並增強必要的警報以改善保護。Link
CV圖片CULane,由中國大學。 香港,北京,中國汽車車道標記關於交通車道檢測的計算機視覺數據集,由 55 小時的視頻組成,其中提取了 133,235 個(88880 個訓練集、9675 個驗證集和 34680 個測試集)幀。 它由安裝在北京不同司機駕駛的六輛不同車輛上的攝像頭收集。Link
CV影片戴維斯,由大學。 蘇黎世聯邦理工學院 ¨ 蘇黎世,德國,瑞士汽車使用 DAVIS 事件+幀相機的端到端車輛駕駛訓練數據集。 轉向、油門、GPS 等汽車數據用於評估汽車應用程序的幀和事件數據的融合。Link
CV影片DBNet,上海交通大學,廈門大學,中國汽車點雲、激光雷達真實世界的 1000 公里駕駛數據,包括對齊的視頻、點雲、GPS 和駕駛員行為,用於深入研究駕駛行為。Link
CV影片Dr(eye)ve,由大學。 摩德納和雷焦艾米利亞,摩德納,意大利汽車行為標籤數據集包​​含 74 個視頻序列,每個序列 5 分鐘,註釋超過 500,000 幀。 該數據集包括地理參考位置、行駛速度、路線,還標記駕駛員注視點及其時間整合,提供特定於任務的地圖。Link
CV影片ETH Pedestrian (2009),蘇黎世聯邦理工學院,瑞士蘇黎世一般邊界框包含 74 個視頻序列的數據集,每個序列 5 分鐘,註釋超過 500,000 幀。 該數據集提供了地理參考位置、行駛速度、方向,還為駕駛員及其時間整合標記了注視點,包括特定任務的地圖。Link
CV影片福特 (2009),由大學。 美國密歇根州密歇根州汽車邊界框, , LiDAR由配備 Velodyne 3D 激光雷達掃描儀、兩個推掃式前視 Rieg 激光雷達、技術和消費者慣性測量單元 (IMU) 以及 Point Grey Ladybug3 全向攝像頭系統的自動陸地車輛編譯的數據集。Link
CV影片HCI 挑戰立體聲,博世公司研究部,德國希爾德斯海姆一般來自捕獲的視頻場景的數百萬幀數據集,包括各種天氣條件、多層運動和深度; 城市和農村等情況。Link
CV影片JAAD,約克大學,烏克蘭,加拿大汽車邊界框,行為標籤“JAAD 是一個用於研究自動駕駛背景下聯合注意力的數據集。重點是行人和司機在交叉路口的行為以及影響他們的因素。為此,JAAD 數據集提供了一個包含豐富註釋的 346 個短視頻集合從北美和東歐多個地點的超過 5 小時駕駛鏡頭中提取的剪輯(10-240 秒長)。帶有遮擋標籤的邊界框用於所有行人,使該數據集適用於行人檢測。行為註釋指定行人的行為與駕駛員互動或需要駕駛員注意。對於每個視頻,都有幾個標籤(天氣、位置等)和帶時間戳的行為標籤(例如停止、行走、尋找等)。此外,人口統計屬性列表是為每個行人提供(例如年齡、性別、運動方向等)以及每幀中可見交通場景元素(例如停車標誌、交通信號等)的列表。”Link
CV影片KAIST Urban,韓國 KAIST一般激光雷達數據收集包括用於 LiDAR 數據和立體圖像的眾多位置傳感器,目標是非常複雜的城市地區(例如大都市地區、複雜的建築物和住宅區)。Link
CV圖片LISA交通標誌,由大學。 美國加利福尼亞州聖地亞哥汽車邊界框包含視頻和帶註釋的幀的數據集集,其中包含美國交通標誌。 它分兩個階段發布,一個只有圖片,一個有圖片和視頻。Link
CV圖片Mapillary Vistas,由 Mapillary AB 提供,全球汽車語義標籤一個街道級攝影數據集,用於通過像素精確和特定於實例的人類註釋來解釋世界各地的街景。Link
CV視頻、圖片Semantic KITTI,德國卡爾斯魯厄波恩大學汽車邊界框、語義標籤、車道標記包含所有 Odometry Benchmark 序列的語義註釋的數據集。 該數據集註釋了各種類型的移動和非移動交通:包括汽車、自行車、自行車、行人和騎自行車的人,允許研究場景中的物體。Link
CV影片斯坦福軌道,美國斯坦福大學汽車目標檢測/分類 LiDAR、GPS、代碼一個包含 14,000 個標記對象軌蹟的數據集,由 Velodyne HDL-64E S2 LIDAR 在自然街道場景中觀察到,可用於訓練機器學習模型以進行 3D 對象識別。Link
CV視頻、圖片Boxy 數據集,由美國博世提供汽車邊界框/車輛檢測包含 2 萬輛帶註釋的車輛的車輛檢測數據集,用於訓練和分析高速公路上自動駕駛汽車的目標識別策略。Link
CV影片TME 高速公路,由捷克技術大學設計,意大利北部汽車邊界框一個包含 28 個剪輯的數據集,總共 27 分鐘,分為 30,000 多個車輛註釋幀。 註釋是使用來自激光掃描儀的數據半自動生成的。 該數據收集涉及可變交通場景、車道數量、道路曲率和照明,涵蓋了完整採集的大部分條件。Link
CV影片無人監督的美洲駝,由美國博世汽車車道標線、激光雷達無監督美洲駝數據集通過生成高清自動駕駛地圖(包括基於激光雷達的車道標記)進行註釋。 自動駕駛汽車可以與這些地圖對齊,車道標記被投影到相機框架中。 通過最小化已經觀察到的和預測的圖像標記之間的差異來優化 3D 投影。Link
NLP音頻Facebook AI 多語言 LibriSpeech (MLS)一般音頻註釋/語音識別Facebook AI 多語言 LibriSpeech (MLS) 是一個大規模開源數據集,旨在幫助推進自動語音識別 (ASR) 的研究。 MLS 提供超過 50,000 小時的 8 種語言音頻:英語、德語、荷蘭語、法語、西班牙語、意大利語、葡萄牙語和波蘭語。 Link