現在獲取 50折優惠* 對話式人工智慧現成資料集
適用於聊天機器人、語音助理、語音設備的語音和音訊資料集。
*限時優惠
深受行業領導者信賴
更多資訊 | 關鍵詞 | 現成的語言資料集 | 呼叫中心對話 8khz* | 通用對話 8khz* | 媒體與播客 16khz* | 話語/劇本獨白 16khz* | 總成交量(小時) | 涵蓋方言 | 音頻格式 | 文字轉錄格式 | 用例 | 資源 | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
南非荷蘭語 | 南非荷蘭語音訊資料集 | 600 | 900 | 1500 | 非洲使用的南非荷蘭語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
阿拉伯語 | 阿拉伯語音訊資料集 | 800 | 1500 | 2300 | 來自海灣國家的阿拉伯語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
繁體中文 | 中文音訊資料集 | 2000 | 2000 | 來自中國的華人 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
丹麥 | 丹麥音訊資料集 | 400 | 600 | 2000 | 3000 | 來自丹麥的丹麥人 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
荷蘭人 | 荷蘭語音訊資料集 | 2000 | 2000 | 來自荷蘭的荷蘭人 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
英語 - AAVE 口音 | 英文 - AAVE(非裔美國白話英文)音訊資料集 | 500 | 500 | 1000 | 方言變體(有時稱為AAVE,通常由絕大多數工薪階層和中產階級非裔美國人使用)和更標準的變體(通常由中產階級非裔美國人在正式和公共場合使用),但強調程度更強就白話而言。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
英語 - 波士頓/紐約口音 | 英文 - 波士頓/紐約音訊資料集 | 225 | 225 | 350 | 800 | 這是波士頓、紐約和費城等城市及其周邊地區使用的幾種地方口音的集合。這些口音聽起來可能與非本地人相似,但與其他美國口音不同。儘管一些當地詞彙與英語世界其他地區不同,但這些口音與其他地方所說的英語是可以相互理解的。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
英漢口音 | 英漢重音音訊資料集 | 150 | 300 | 450 | 以中文為第一語言、在青少年/成年時期移居/移民到美國並學習英語作為第二語言的使用者。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
英語 - 深南口音 | 英語 - Deep South 音訊資料集 | 275 | 275 | 450 | 1000 | 演講者來自 (i) 德克薩斯州; (ii) 北卡羅來納州、南卡羅來納州、喬治亞州; ㈢ 紐奧良; (iv) 佛羅裡達狹長地帶; (v) 田納西州、阿肯色州、密西根州。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
英語 - 西班牙口音 | 英文 - 西班牙口音音訊資料集 | 400 | 400 | 800 | 西班牙英語是指具有不同民族傳統的西班牙裔美國人所使用的美國英語變體。主要焦點是墨西哥裔美國人、不同國籍(例如墨西哥、波多黎各、多明尼加共和國、厄瓜多、古巴等)和來自不同地區(如加州、紐約、佛羅裡達)的使用者。其中包括以西班牙語為第一語言的發言者以及以西班牙語為傳統語言的西班牙裔發言者。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
英語 - 紐西蘭口音 | 英語 - 紐西蘭音訊資料集 | 250 | 750 | 1000 | 兩個島上的使用者中,年輕使用者(<40 歲)和老年使用者(>40 歲)的比例相同。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
英語 - 新加坡口音 | 英語 - 新加坡音訊資料集 | 400 | 600 | 1000 | 標準新加坡英語和新加坡口語英語。不同種族背景(例如華人、馬來人、印度人等)和不同教育程度的新加坡人。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
英語 - 南非口音 | 英語 - 南非音訊資料集 | 400 | 600 | 1000 | 來自不同社會經濟階層和民族學背景的代表(例如歐洲、非洲、印度或混合背景的南非人)。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
英語 - 愛爾蘭口音 | 英語 - 愛爾蘭語音訊資料集 | 500 | 500 | 愛爾蘭說英語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
英語 - 蘇格蘭口音 | 英語 - 蘇格蘭音訊資料集 | 800 | 800 | 蘇格蘭人說的英語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
英語 - 威爾斯口音 | 英文 - 威爾斯語音訊資料集 | 800 | 800 | 威爾士英語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
法裔加拿大人 | 法語加拿大音訊資料集 | 1000 | 1000 | 加拿大法語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
希伯來語 | 希伯來語音訊資料集 | 750 | 750 | 1500 | 以色列的希伯來語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
印度尼西亞 | 印尼音訊資料集 | 1000 | 1000 | 2000 | 印尼語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
日文 | 日文音訊資料集 | 2000 | 2000 | 來自日本的日語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
韓語 | 韓文音訊資料集 | 100 | 200 | 1500 | 1800 | 演講者遍布韓國各地。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
馬來語 | 馬來語音訊資料集 | 500 | 500 | 1000 | 馬來西亞的馬來語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
墨西哥西班牙語 | 墨西哥西班牙語音訊資料集 | 1250 | 1250 | 來自墨西哥的墨西哥人 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
波蘭語 | 波蘭語音訊資料集 | 250 | 2000 | 2250 | 來自波蘭的波蘭人 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
俄語 | 俄語音訊資料集 | 2000 | 2000 | 來自俄羅斯的俄語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
斯瓦希裡 | 斯瓦希里語音訊資料集 | 350 | 650 | 1000 | 南非和肯亞斯瓦希里語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
瑞典 | 瑞典語音訊資料集 | 350 | 650 | 1000 | 瑞典語在瑞典 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
台灣華人 | 台灣中文音訊資料集 | 1000 | 1000 | 來自台灣的中國人 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
泰語 | 泰語音訊資料集 | 350 | 450 | 800 | 朋友之間使用的非正式暫存器, | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
土耳其 | 土耳其語音訊資料集 | 2000 | 2000 | 來自土耳其的土耳其語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||||
越南語 | 越南語音訊資料集 | 600 | 400 | 1000 | 北部(例如河內)、中部和南部(例如胡志明市)。 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
印度語 | 印地語音訊資料集 | 800 | 2000 | 2800 | 印度印地語,特別是北部、東部和西部地區 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
興力士 | 印度英語音訊資料集 | 300 | 500 | 800 | 從印度城市收集,由於經濟機會不斷增長,這些城市成為該國的金融中心。這些地方可以是諾伊達、德里、德拉敦、昌迪加爾、孟買、加爾各答、班加羅爾、浦那、金奈、海得拉巴等 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||
English | 英語音訊資料集 | 700 | 700 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | |||||
卡納達語 | 卡納達語音訊資料集 | 60 | 100 | 40 | 200 | 來自印度卡納塔克邦的卡納達語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
馬拉雅拉姆語 | 馬拉雅拉姆語音訊資料集 | 60 | 100 | 40 | 200 | 來自喀拉拉邦、拉克沙群島和本地治裡的馬拉雅拉姆語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
奧里亞語 | 奧裡亞語音訊資料集 | 60 | 100 | 40 | 200 | 來自奧裡薩邦、西孟加拉邦、賈坎德邦和恰蒂斯加爾邦部分地區的奧裡亞語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
旁遮普 | 旁遮普語音頻資料集 | 60 | 100 | 40 | 200 | 來自印度旁遮普邦的旁遮普語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
泰米爾人 | 泰米爾語音訊資料集 | 60 | 100 | 240 | 400 | 來自印度泰米爾納德邦的泰米爾語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
泰盧固語 | 泰盧固語音訊資料集 | 100 | 950 | 950 | 2000 | 來自印度安得拉邦的泰盧固語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
孟加拉 | 孟加拉語音訊資料集 | 60 | 100 | 40 | 200 | 來自印度西孟加拉邦的孟加拉語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
古吉拉特語 | 古吉拉特語音訊資料集 | 60 | 100 | 40 | 200 | 來自印度古吉拉特邦的古吉拉特語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
馬拉 | 馬拉地語音訊資料集 | 60 | 100 | 40 | 200 | 來自印度馬哈拉施特拉邦的馬拉地語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 | ||
阿薩姆 | 阿薩姆語音訊資料集 | 60 | 100 | 40 | 200 | 來自印度阿薩姆邦的阿薩姆語 | WAV。 | .json | ASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模 | 夏普 | 聯絡我們 聯絡我們 |
對話式人工智能方面的深厚專業知識
對話式人工智能、聊天機器人或虛擬/數字助理的智能程度取決於其背後的技術和數據。 在 Shaip,我們為您提供一系列用於自然語言處理 (NLP) 的多樣化音頻數據集,這些數據集可以模仿與真人的對話,讓您將 AI 變為現實。 憑藉我們的深刻理解,我們可以幫助您利用全球多種語言的豐富且結構化的數據集以最高精度構建和本地化支持 AI 的語音模型。 我們根據您的要求提供多語言音頻採集、音頻轉錄和音頻註釋服務,同時完全定制所需的意圖、話語和人口統計分佈。
腳本語音集合
自發語音採集
音頻數據轉錄
數據標記和註釋
Shaip 可讓您準確訓練會話式 AI 平台,使其能夠:
- 跨多個渠道無縫通話、發短信和聊天。
- 從聊天、語音記錄、交易等形式的現有交互中學習,並根據這些知識提出建議和交談。
- 理解人類語言背後的意圖並消除理解人類語言的歧義。
- 與您進行一對一的互動,並且可以接受培訓來識別用戶並記住過去的對話。
對話式 AI 訓練數據的世界領導者
100 多種語言的數小時音頻數據 – 來源、轉錄和註釋
語音數據許可
超過 20 小時的 40 多種語言和方言的語音數據,涵蓋來自不同領域的 55 個以上主題,即呼叫中心、辯論、一般對話、演講、播客等。
語音數據收集
收集來自世界各地 2 多種語言的音頻和語音數據(獨白、兩人對話、人機聊天),並根據您的 AI 要求進行定制。
語音數據轉錄
透過 30,000 名合作者組成的強大員工隊伍,實現具有成本效益的音訊轉錄或音訊註釋,並保證 TAT、準確性和節省
Shaip 優勢
規模
我們可以根據您的要求以多種語言和方言從世界各地獲取、擴展和交付音頻數據。
專門知識
我們在準確和無偏見的數據收集、轉錄和黃金標準註釋方面擁有正確的專業知識。
網絡
由 30,000 多名合格貢獻者組成的網絡,可以快速分配數據收集任務以構建 AI 訓練模型和擴展服務。
專業技術
我們擁有一個完全基於 AI 的平台,其中包含專有工具和流程,可全天候 24*7 地利用工作流管理。
敏捷
我們非常快速地適應客戶需求的變化,並透過比競爭對手快 5-10 倍的高品質語音數據來幫助加速 AI 開發。
安全性
我們非常重視數據安全和隱私,並且還獲得了處理高度監管敏感數據的認證。
我們最擅長的
數據收集、標記和註釋
使用 Shaip,您將獲得 15 年以上在收集、轉錄和註釋質量數據方面經過驗證的專業知識。 憑藉我們的全球勞動力,我們可以收集來自世界各地的數據,然後以數據所需的完美技能水平和專業知識提供標籤和註釋服務。
數據目錄和許可
借助我們擁有數百萬個數據集的海量清單,您可以根據需要收集和組織。 然後,我們可以根據您的特定 AI 和 ML 使用要求許可該質量數據。 此外,如果您要自己創建這些數據,則只需花費一小部分成本即可獲得這些數據。
想建立自己的數據集?
立即聯繫我們,了解我們如何為您的獨特 AI 解決方案收集自定義數據集。