開放數據集

發現可幫助您訓練 ML 模型的開源數據集

幫助您開始使用 AI/ML 模型的開源數據集

您的 AI 和 ML 模型的輸出與您用來訓練它的數據一樣好 - 因此您應用於數據聚合以及標記和識別該數據的精度非常重要！

因此，如果您想開始一項新的 AI/ML 計劃，現在您很快就會意識到，尋找高質量的訓練數據將是您項目中更具挑戰性的方面之一，因為高質量的數據集是保持 AI/機器學習引擎正在運行。我們積累了一份開放數據集列表，可以免費使用和訓練您未來的 AI/ML 模型。

專業化	數據類型	數據集名稱	行業/部門	註釋/用例	產品描述	Link
NLP	文本	亞馬遜評論	電子商務	情緒分析	過去 35 年的 18 萬條評論和評級，以純文本形式包含用戶和產品詳細信息。	Link
NLP	文本	維基百科鏈接數據	總		超過 4 百萬。文章包含 1.9 億。由單詞和短語以及段落組成的單詞。	Link
NLP	文本	斯坦福情緒樹庫	娛樂	情緒分析	來自 Rotten Tomatoes 的超過 10,000 條評論的 HTML 文件格式的情感註釋數據集	Link
NLP	文本	Twitter 美國航空公司情緒	航空公司	情緒分析	2015 年美國航空公司的推文分為正面、負面和中性色調	Link
CV	圖片	野外帶標籤的面孔	總	人臉辨識簽到	數據集包含超過 13,000 張裁剪過的人臉和兩張不同的用於人臉識別訓練的圖片。	Link
CV	視頻、圖片	UMDfaces 數據集	總	人臉辨識簽到	包含來自 367,000 多個主題的超過 8,000 張人臉的帶註釋的數據集，包括靜止圖像和視頻圖像。	Link
CV	圖片	圖片網	總		超過 14 百萬的數據集。根據 WordNet 層次結構組織的各種文件格式的圖像。	Link
CV	圖片	谷歌的開放圖片	總		9 百萬。用於對來自 6,000 多個類別的公共圖像進行分類的 URL。	Link
NLP	文本	MIMIC重症監護數據庫	醫療		具有來自 40,000 名重症監護患者的去識別化數據的計算生理學數據集。數據集包含人口統計、生命體徵、藥物等信息。	Link
CV	圖片	美國國家旅遊局	旅遊		提供來自旅遊業的廣泛照片和值得信賴的數據庫，涵蓋出入境旅遊和國際旅遊信息等主題。	Link
NLP	文本	交通運輸部	旅遊		旅遊數據集，包括國家公園、司機登記、橋樑和鐵路信息等。	Link
NLP	音頻	Flickr 音頻字幕語料庫	總		來自 40 張照片的超過 8,000 條語音字幕，專為無監督語音模式而設計	Link
NLP	音頻	語音命令數據集	總	語音識別、音頻註釋	千人千言萬語，構建基礎語音界面。	Link
NLP	音頻	環境音頻數據集	總		包含事件聲音表和聲學場景表的環境音頻數據集。	Link
NLP	文本	COVID-19開放研究數據集	醫療	醫療人工智能	一個研究數據集，包含 45,000 篇關於 COVID-19 和冠狀病毒家族的學術文章。	Link
CV	圖片	Waymo打開數據集	車用電子應用		Waymo 發布的最多樣化的自動駕駛數據集	Link
CV	圖片	視覺基因組	總	圖片說明	具有超過 100K 圖像詳細說明的視覺知識庫	Link
CV	圖片	標籤	公共政府		可通過 Labelme Matlab 訪問的大量帶註釋的圖像	Link
CV	圖片	線圈100	總		從多個角度（即 100 度）拍攝的 360 多個不同物體	Link
CV	圖片	斯坦福狗數據集	總		超過 20,500 幅圖像被分類為 120 種不同犬種的圖像集	Link
CV	圖片	室內場景識別	總	場景識別	一個特定的數據集，由 15620 個室內類別的 67 張圖像組成，用於構建場景識別模型	Link
CV	圖片	視覺質量保證	總		一個數據集，其中包含與 265,016 張照片相關的開放式問題，這些問題需要理解視覺和語言理解才能做出回應。	Link
NLP	文本	多域情感分析數據集	電子商務	情緒分析	包含來自亞馬遜的產品評論的數據集	Link
NLP	文本	IMDB評論	娛樂	情緒分析	包含用於情感分析的 25000 條影評的數據集	Link
NLP	文本	情感140	總	情緒分析	數據集包含 160,000 條推文，並預先刪除了表情符號以提高準確性	Link
NLP	文本	博主語料庫	總	關鍵字分析	包含來自 blogger.com 的 681,288 篇博客文章的數據集，其中包含至少 200 次出現的廣泛使用的英語單詞。	Link
NLP	文本	傑帕迪	總	聊天機器人培訓	包含超過 200,000 個問題的數據集，可用於訓練機器學習模型以智能自動響應	Link
NLP	文本	英語垃圾短信收集	電信	垃圾郵件識別	包含 5,574 條英文短信的垃圾郵件數據集	Link
NLP	文本	Yelp評論	總	情緒分析	Yelp 發布的評論超過 5 萬的數據集	Link
NLP	文本	UCI 的垃圾郵件庫	企業	垃圾郵件識別	大型垃圾郵件數據集，可用於垃圾郵件過濾。	Link
CV	視頻、圖片	伯克利 DeepDrive BDD100k	車用電子應用	自主車輛	最大的自動駕駛 AI 數據集之一，包含來自紐約和舊金山地區一天中不同時間的 1,100 多個視頻中的 100,000 小時駕駛體驗。	Link
CV	影像介面應用	逗號	車用電子應用	自主車輛	7 小時高速公路駕駛數據集，包含汽車速度、加速度、轉向角和 GPS 坐標信息	Link
CV	視頻、圖片	城市景觀數據集	車用電子應用	自動駕駛汽車語義標籤	從 5,000 個不同城市記錄的立體視頻序列中包含 20,000 個像素級註釋的數據集以及更大的 50 個弱註釋幀	Link
CV	圖片	KUL 比利時交通標誌數據集	車用電子應用	自主車輛	來自法蘭德斯地區的 10000 多個交通標誌註釋基於來自比利時各地的物理上不同的交通標誌。	Link
CV	圖片	LISA：智能與安全汽車實驗室，加州大學聖地亞哥分校數據集	車用電子應用	自主車輛	包含交通標誌、車輛檢測、交通燈和軌跡模式的豐富數據集。	Link
CV	圖片	CIFAR-10	總	物體識別	用於對象識別的數據集由 50,000 張圖像和 10,000 張測試圖像（即 60,000 張 32×32 彩色圖像 10 類）組成。	Link
CV	圖片	時尚MNIST	時尚		一個圖像數據集，包含 60,000 個示例和 10,000×28 灰度圖像中的 28 個示例的測試集，與來自 10 個類別的標籤相關聯。	Link
CV	圖片	IMDB-Wiki 數據集	娛樂	人臉辨識簽到	帶有性別和年齡等標籤的大型面部圖像數據集。在總共 523,051 張人臉圖像中，460,723 張圖像來自 IMDB 的 20,284 位名人和維基百科的 62,328 位名人。	Link
CV	影像介面應用	動力學-700	總		對於每個動作類，高質量數據集由 650,000 個視頻剪輯組成，包含 700 個人類動作類，其中至少有 600 個視頻剪輯。在這裡，每個剪輯持續 10 秒左右。	Link
CV	圖片	可可女士	總	對象檢測、分割	該數據集包含 328k 個圖像，總共有 2.5 萬個實例和 91 個對像圖像，用於訓練大規模對象檢測、分割和數據字幕相關的 ML 模型。	Link
CV	圖片	MPII 人體姿勢數據集	總		數據集中包含大約 25 張照片，其中包含超過 40 個帶有註釋身體關節的個體，用於闡明人體姿勢估計。總的來說，數據集涵蓋了 410 項人類活動，每個圖像都提供了一個活動標籤。	Link
CV	圖片	打開圖像	總	對象位置註釋	包含大約 9 百萬張圖像的圖像數據集，用圖像級標籤、對象邊界框、對象分割等進行註釋。該數據集也包含 16 百萬張。 600 萬幅圖像上 1.9 個對像類的邊界框。	Link
CV	影像介面應用	Apollo 開放平台，由中國百度公司提供	車用電子應用	邊界框，激光雷達	豐富的自動駕駛數據集，為開發者提供自動駕駛所需的數據，加速創新迭代的效率。	Link
CV	視頻、圖片	Argo，美國 Argo	車用電子應用	邊界框、光流、行為標籤、語義標籤、車道標記	自動駕駛數據集，包含具有幾何和語義元數據的高清地圖，即車道中心線、車道方向和可行駛區域。該數據集用於訓練 ML 模型，以製定更準確的感知算法，這將有助於自動駕駛車輛安全導航。	Link
CV	影像介面應用	博世小型交通燈，博世北美研究部	車用電子應用	邊界框	由 13427 張分辨率為 1280*720 的攝像頭圖像組成的數據集，用於構建基於視覺的交通燈檢測系統。該數據集有超過 24000 個帶註釋的交通燈。	Link
CV	影像介面應用	Brain4Cars，美國康奈爾大學	車用電子應用	行為標籤	包含一系列機艙傳感器（攝像頭、觸覺傳感器、智能設備等）的數據集，以提取有關駕駛員警覺性的有用統計數據。我們的算法可能會檢測到昏昏欲睡或分心的司機，並增強必要的警報以改善保護。	Link
CV	圖片	CULane，由中國大學。香港，北京，中國	車用電子應用	車道標記	關於交通車道檢測的計算機視覺數據集，由 55 小時的視頻組成，其中提取了 133,235 個（88880 個訓練集、9675 個驗證集和 34680 個測試集）幀。它由安裝在北京不同司機駕駛的六輛不同車輛上的攝像頭收集。	Link
CV	影像介面應用	戴維斯，由大學。蘇黎世聯邦理工學院 ¨ 蘇黎世，德國，瑞士	車用電子應用		使用 DAVIS 事件+幀相機的端到端車輛駕駛訓練數據集。轉向、油門、GPS 等汽車數據用於評估汽車應用程序的幀和事件數據的融合。	Link
CV	影像介面應用	DBNet，上海交通大學，廈門大學，中國	車用電子應用	點雲、激光雷達	真實世界的 1000 公里駕駛數據，包括對齊的視頻、點雲、GPS 和駕駛員行為，用於深入研究駕駛行為。	Link
CV	影像介面應用	Dr（eye）ve，由大學。摩德納和雷焦艾米利亞，摩德納，意大利	車用電子應用	行為標籤	數據集包含 74 個視頻序列，每個序列 5 分鐘，註釋超過 500,000 幀。該數據集包括地理參考位置、行駛速度、路線，還標記駕駛員注視點及其時間整合，提供特定於任務的地圖。	Link
CV	影像介面應用	ETH Pedestrian (2009)，蘇黎世聯邦理工學院，瑞士蘇黎世	總	邊界框	包含 74 個視頻序列的數據集，每個序列 5 分鐘，註釋超過 500,000 幀。該數據集提供了地理參考位置、行駛速度、方向，還為駕駛員及其時間整合標記了注視點，包括特定任務的地圖。	Link
CV	影像介面應用	福特 (2009)，由大學。美國密歇根州密歇根州	車用電子應用	邊界框, , LiDAR	由配備 Velodyne 3D 激光雷達掃描儀、兩個推掃式前視 Rieg 激光雷達、技術和消費者慣性測量單元 (IMU) 以及 Point Grey Ladybug3 全向攝像頭系統的自動陸地車輛編譯的數據集。	Link
CV	影像介面應用	HCI 挑戰立體聲，博世公司研究部，德國希爾德斯海姆	總		來自捕獲的視頻場景的數百萬幀數據集，包括各種天氣條件、多層運動和深度；城市和農村等情況。	Link
CV	影像介面應用	JAAD，約克大學，烏克蘭，加拿大	車用電子應用	邊界框，行為標籤	“JAAD 是一個用於研究自動駕駛背景下聯合注意力的數據集。重點是行人和司機在交叉路口的行為以及影響他們的因素。為此，JAAD 數據集提供了一個包含豐富註釋的 346 個短視頻集合從北美和東歐多個地點的超過 5 小時駕駛鏡頭中提取的剪輯（10-240 秒長）。帶有遮擋標籤的邊界框用於所有行人，使該數據集適用於行人檢測。行為註釋指定行人的行為與駕駛員互動或需要駕駛員注意。對於每個視頻，都有幾個標籤（天氣、位置等）和帶時間戳的行為標籤（例如停止、行走、尋找等）。此外，人口統計屬性列表是為每個行人提供（例如年齡、性別、運動方向等）以及每幀中可見交通場景元素（例如停車標誌、交通信號等）的列表。”	Link
CV	影像介面應用	KAIST Urban，韓國 KAIST	總	激光雷達	數據收集包括用於 LiDAR 數據和立體圖像的眾多位置傳感器，目標是非常複雜的城市地區（例如大都市地區、複雜的建築物和住宅區）。	Link
CV	圖片	LISA交通標誌，由大學。美國加利福尼亞州聖地亞哥	車用電子應用	邊界框	包含視頻和帶註釋的幀的數據集集，其中包含美國交通標誌。它分兩個階段發布，一個只有圖片，一個有圖片和視頻。	Link
CV	圖片	Mapillary Vistas，由 Mapillary AB 提供，全球	車用電子應用	語義標籤	一個街道級攝影數據集，用於通過像素精確和特定於實例的人類註釋來解釋世界各地的街景。	Link
CV	視頻、圖片	Semantic KITTI，德國卡爾斯魯厄波恩大學	車用電子應用	邊界框、語義標籤、車道標記	包含所有 Odometry Benchmark 序列的語義註釋的數據集。該數據集註釋了各種類型的移動和非移動交通：包括汽車、自行車、自行車、行人和騎自行車的人，允許研究場景中的物體。	Link
CV	影像介面應用	斯坦福軌道，美國斯坦福大學	車用電子應用	目標檢測/分類 LiDAR、GPS、代碼	一個包含 14,000 個標記對象軌蹟的數據集，由 Velodyne HDL-64E S2 LIDAR 在自然街道場景中觀察到，可用於訓練機器學習模型以進行 3D 對象識別。	Link
CV	視頻、圖片	Boxy 數據集，由美國博世提供	車用電子應用	邊界框/車輛檢測	包含 2 萬輛帶註釋的車輛的車輛檢測數據集，用於訓練和分析高速公路上自動駕駛汽車的目標識別策略。	Link
CV	影像介面應用	TME 高速公路，由捷克技術大學設計，意大利北部	車用電子應用	邊界框	一個包含 28 個剪輯的數據集，總共 27 分鐘，分為 30,000 多個車輛註釋幀。註釋是使用來自激光掃描儀的數據半自動生成的。該數據收集涉及可變交通場景、車道數量、道路曲率和照明，涵蓋了完整採集的大部分條件。	Link
CV	影像介面應用	無人監督的美洲駝，由美國博世	車用電子應用	車道標線、激光雷達	無監督美洲駝數據集通過生成高清自動駕駛地圖（包括基於激光雷達的車道標記）進行註釋。自動駕駛汽車可以與這些地圖對齊，車道標記被投影到相機框架中。通過最小化已經觀察到的和預測的圖像標記之間的差異來優化 3D 投影。	Link
NLP	音頻	Facebook AI 多語言 LibriSpeech (MLS)	總	音頻註釋/語音識別	Facebook AI 多語言 LibriSpeech (MLS) 是一個大規模開源數據集，旨在幫助推進自動語音識別 (ASR) 的研究。 MLS 提供超過 50,000 小時的 8 種語言音頻：英語、德語、荷蘭語、法語、西班牙語、意大利語、葡萄牙語和波蘭語。	Link

開放數據集

幫助您開始使用 AI/ML 模型的開源數據集

人工智能數據服務

其他麵條

行業

產品

公司

資源

聯絡我們