阿拉伯語、泰語、越南語、印地語、英語和漢語語言資料集

阿拉伯語、泰語、越南語、印地語、英語和漢語語言資料集

用例: 光學字元辨識

格式: 圖片

計數: 150k

註解: 可以

X

描述: 阿拉伯語、泰語、越南語、印地語、英語和漢語語言資料集

阿拉伯文本資料集

阿拉伯文本資料集

用例: 光學字元辨識

格式: 圖片

計數: 1k

註解: 可以

X

描述: 阿拉伯語文本資料集包含用阿拉伯語編寫的文本範例的集合。它包括各種形式的內容,例如新聞文章、社交媒體貼文、文學和對話,涵蓋不同的主題和寫作風格。此資料集用於阿拉伯語應用程式中的自然語言處理 (NLP)、文字分類、情緒分析和機器翻譯等任務。

漢英藏維吾爾語言資料集

漢英藏維吾爾語言資料集

用例: 光學字元辨識

格式: 圖片

計數: 38k

註解: 可以

X

描述: 漢英藏維吾爾語言資料集

中英文菜單資料集

中英文菜單資料集

用例: 光學字元辨識

格式: 圖片

計數: 60k

註解: 可以

X

描述: 中英文菜單資料集包含中英文餐廳菜單的圖像或文字樣本。它包括各種字體、佈局和菜單結構,呈現雙語菜餚名稱、描述和價格。此資料集對於多語言環境中的光學字元辨識 (OCR)、機器翻譯和選單數位化等任務非常有用。

中文手寫文資料集

中文手寫文資料集

用例: 光學字元辨識

格式: 圖片

計數: 3k

註解: 可以

X

描述: 中文手寫文資料集包含手寫中文文字樣本,包括作文、論文和其他長篇文本。它具有各種手寫風格和複雜程度,可用於手寫辨識、文字分析和機器學習模型訓練等任務。

中文WIFI提示資料集

中文WIFI提示資料集

用例: 光學字元辨識

格式: 圖片

計數: 1k

註解: 可以

X

描述: 中文 WIFI 提示資料集由 WIFI 提示和登入畫面中以中文編寫的文字樣本組成。它通常包括與連接或管理 WIFI 網路相關的各種提示、說明和錯誤訊息。此資料集用於文字辨識、自然語言處理和改進網路連接的使用者介面等任務。

中英文手寫資料集

中英文手寫資料集

用例: 光學字元辨識

格式: 圖片

計數: 12k

註解: 可以

X

描述: 英文和中文手寫資料集包含英文和中文的手寫樣本,展示了各種書寫風格和字元複雜性。它通常用於訓練和評估手寫辨識模型,支援多語言文字分析和其他相關研究。該資料集包括兩種語言的各種字元、數字、單字和句子。

中英店牌資料集

中英店牌資料集

用例: 光學字元辨識

格式: 圖片

計數: 30k

註解: 可以

X

描述: 英文和中文店牌資料集包括具有英文和中文文字的店牌圖像。它捕獲各種標誌元素,例如商店名稱、廣告、促銷和方向,以不同的字體、樣式和格式顯示。此資料集用於文字檢測和識別、多語言場景理解以及改進用於解釋雙語標誌的電腦視覺模型等任務。

英漢特殊角度文字資料集

英漢特殊角度文字資料集

用例: 光學字元辨識

格式: 圖片

計數: 50k

註解: 可以

X

描述: 英文和中文特殊角度文字資料集包含英文和中文以各種角度和方向顯示的文字圖像。它包括來自標誌、廣告和文件等來源的文本,這些文本不以標準水平格式呈現。該資料集用於訓練和評估文本檢測和識別模型,特別是那些能夠以非傳統方向和視角處理文本的模型。

英文菜單資料集

英文菜單資料集

用例: 光學字元辨識

格式: 圖片

計數: 20k

註解: 可以

X

描述: 英文菜單資料集包括用英文編寫的餐廳菜單的圖像或文字樣本。它具有多種字體、佈局和格式樣式,內容涵蓋從菜餚名稱到描述和價格。此資料集通常用於食品相關應用中的光學字元辨識 (OCR)、文字擷取和選單數位化等任務。

英文場景文字資料集

英文場景文字資料集

用例: 光學字元辨識

格式: 圖片

計數: 33k

註解: 可以

X

描述: 英文場景文字資料集由包含自然場景和嵌入英文文字的圖像組成。文字以各種形式出現,例如標誌、廣告看板和海報,通常採用不同的字體、大小和方向。此資料集通常用於文字偵測、識別和場景理解任務中的模型訓練和測試。

手寫文本數據集

手寫文本數據集

用例: 文檔 AI

格式: HEIC(圖像)和 .mov(視頻)

計數: 94053

註解: 沒有

X

描述: 日語、韓語和俄語的帶有手寫文本的實時照片

錄音設備: iPhone 和 iPad 相機

錄音條件: - 強光/眩光 - 相機閃光燈開啟 - 彩色光 - 弱光,無相機閃光燈 - 正常

日語和韓語語言資料集

日語和韓語語言資料集

用例: 光學字元辨識

格式: 圖片

計數: 40k

註解: 可以

X

描述: 日語和韓語語言資料集包括日語和韓語的文本範例。它具有一系列內容,例如句子、短語和單詞,涵蓋各種上下文和風格。此資料集用於多語言應用程式中的自然語言處理 (NLP)、機器翻譯和文字分析等任務。

印刷常規/草書文本數據集(文檔 AI)

印刷常規/草書文本數據集(文檔 AI)

用例: 文檔 AI

格式: HEIC(圖像)和 .mov(視頻)

計數: 23930

註解: 沒有

X

描述: 日語、韓語和俄語的帶有手寫文本的實時照片

錄音設備: iPhone 和 iPad 相機

錄音條件: - 強光/眩光 - 相機閃光燈開啟 - 彩色光 - 弱光,無相機閃光燈 - 正常

文本+視聽(多語言/OCR/NLP)-書籍、期刊、音訊+文本

文本+視聽(多語言/OCR/NLP)-書籍、期刊、音訊+文本

用例: 文字 + 視聽(多語言 / OCR / NLP)

格式: 影像素材

計數: 100K+ 講座視頻 + PPT 長視頻

註解: 沒有

X

描述: 中文圖書、英文圖書、期刊、公共政策、小說、兒童、粵語音頻+文字、講座影片+PPT、長影片 五億本圖書、問答對、文章