機器學習的 NLP 數據集

用於訓練自然語言處理模型的 15 個最佳 NLP 數據集

自然語言處理是機器學習盔甲中的重要組成部分。 但是,它需要大量數據和訓練才能使模型正常運行。 NLP 的重要問題之一是缺乏可以涵蓋該領域內廣泛興趣領域的訓練數據集。

如果您剛開始涉足這個廣闊的領域,您可能會發現創建數據集具有挑戰性且實際上是多餘的。 尤其是有質量的時候 NLP 可用於根據目的訓練機器學習模型的數據集。

NLP 市場預計在 11.7 年和 2018 年以 2026% 的複合年增長率增長,以達到 到28.6年將達到2026億美元. 由於對 NLP 和機器學習的需求不斷增長,現在您可以接觸到適合情感分析、評論、問答分析和語音分析數據集的高質量數據集。

值得信賴的機器學習 NLP 數據集

由於幾乎每天都在發布無數數據集——專注於各種需求——因此訪問高質量、可靠和最佳的數據集可能具有挑戰性。 在這裡,我們讓您的工作更輕鬆,因為我們向您展示了根據它們所服務的類別分離的精選數據集。

Spambase 是在惠普實驗室創建的,它收集了用戶的垃圾郵件,旨在開發個性化的垃圾郵件過濾器。 它有超過 4600 條來自電子郵件的觀察結果,其中近 1820 條是垃圾郵件。

安然數據集有大量匿名的“真實”電子郵件可供公眾使用,以訓練他們的機器學習模型。 它擁有來自 150 多個用戶(主要是安然公司的高級管理層)的超過 XNUMX 萬封電子郵件。 此數據集可用於結構化和非結構化格式。 要修飾非結構化數據,您必須應用數據處理技術。

推薦系​​統數據集是包含不同特徵的各種數據集的龐大集合,例如,

  • 產品評論
  • 星級評定
  • 健身追踪
  • 歌曲資料
  • 社交網絡
  • 時間戳
  • 用戶/項目交互
  • GPS數據

情緒分析

情緒分析
電影和金融詞典數據集為金融填充和電影評論中的正極性或負極性提供了特定於領域的詞典。 這些詞典來自 IMDb 和 US Form-8 填充。

Sentiment 140 擁有超過 160,000 條帶有各種表情符號的推文,分為 6 個不同的領域:推文日期、極性、文本、用戶名、ID 和查詢。 該數據集使您可以根據 Twitter 活動發現品牌、產品甚至主題的情緒。 由於該數據集是自動創建的,與其他人工標註的推文不同,它將具有積極情緒和消極情緒的推文歸類為不利的。

這個多域情感數據集是亞馬遜各種產品評論的存儲庫。 某些產品類別(例如書籍)的評論數以千計,而其他產品類別只有幾百條評論。 此外,帶有星級的評論可以轉換為二進制標籤。

讓我們今天討論一下您的 AI 訓練數據需求。

文本

WiKi QA Corpus 旨在幫助開放域問答研究,是最廣泛的公開可用數據集之一。 從 Bing 搜索引擎查詢日誌編譯而來,帶有問答對。 它有 3000 多個問題和 1500 個標記的答案句子。

Legal Case Reports 數據集包含 4000 個法律案例,可用於訓練自動文本摘要和引文分析。 使用每個文檔、標語、引文類、引文標語等。

Jeopardy 數據集是由 Reddit 用戶匯集的熱門問答電視節目中的 200,000 多個問題的集合。 每個數據點都按其播出日期、劇集編號、值、輪次和問題/答案進行分類。

音頻語音

音頻語音 該數據集非常適合希望超越英語的每個人。 該數據集包含以荷蘭語、德語和英語發言的文章集合。 它有各種各樣的主題和演講者集,持續數百小時。

2000 HUB5 英語數據集有 40 個英語電話交談記錄。 該數據由美國國家標準與技術研究所提供,其主要重點是識別會話語音並將語音轉換為文本。

LibriSpeech 數據集收集了近 1000 小時的英語演講,並按主題正確分割成有聲讀物的章節,使其成為自然語言處理的完美工具。

用戶評論

Yelp 數據集包含 8.5 多家企業的約 160,000 萬條評論、他們的評論和用戶數據。 評論可用於訓練您的情感分析模型。 此外,該數據集還有超過 200,000 張圖片,涵蓋八個大都市。

IMDB 評論是最受歡迎的數據集之一,其中包含超過 50 萬部電影的演員信息、評級、描述和類型。 此數據集可用於測試和訓練您的機器學習模型。

亞馬遜評論和評級數據集包含從 1996 年到 2014 年收集的亞馬遜不同產品的有價值的元數據和評論——大約 142.8 億條記錄。 元數據包括價格、產品描述、品牌、類別等,而評論具有文本質量、文本的有用性、評級等。

那麼,您選擇了哪個數據集來訓練您的機器學習模型?

在我們走的時候,我們會給你留下一個 專家提示。 

在為您的需要選擇 NLP 數據集之前,請確保徹底閱讀自述文件。 數據集將包含您可能需要的所有必要信息,例如數據集的內容、對數據進行分類的各種參數以及數據集的可能用例。

無論您構建何種模型,將我們的機器與我們的生活更緊密、更本質地集成在一起的前景令人興奮。 使用 NLP,商業、電影、語音識別、金融等領域的可能性增加了多方面。 如果您正在尋找更多此類數據集 點擊這裡。

社交分享

你也許也喜歡