現在獲取 50折優惠* 對話式人工智慧現成資料集

適用於聊天機器人、語音助理、語音設備的語音和音訊資料集。

*限時優惠

  • 通過註冊,我同意 Shaip 隱私權政策服務條款 並同意接受來自 Shaip 的 B2B 營銷傳播。

深受行業領導者信賴

更多資訊現成的語言資料集呼叫中心對話 8khz*通用對話 8khz*媒體與播客 16khz*話語/劇本獨白 16khz*總成交量(小時)涵蓋方言音頻格式文字轉錄格式用例資源CTA
發言南非荷蘭語南非荷蘭語音訊資料集6009001500非洲使用的南非荷蘭語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言阿拉伯語阿拉伯語音訊資料集80015002300來自海灣國家的阿拉伯語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言繁體中文中文音訊資料集20002000來自中國的華人WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言丹麥丹麥音訊資料集40060020003000來自丹麥的丹麥人WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言荷蘭人荷蘭語音訊資料集20002000來自荷蘭的荷蘭人WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - AAVE 口音英文 - AAVE(非裔美國白話英文)音訊資料集5005001000方言變體(有時稱為AAVE,通常由絕大多數工薪階層和中產階級非裔美國人使用)和更標準的變體(通常由中產階級非裔美國人在正式和公共場合使用),但強調程度更強就白話而言。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 波士頓/紐約口音英文 - 波士頓/紐約音訊資料集225225350800這是波士頓、紐約和費城等城市及其周邊地區使用的幾種地方口音的集合。這些口音聽起來可能與非本地人相似,但與其他美國口音不同。儘管一些當地詞彙與英語世界其他地區不同,但這些口音與其他地方所說的英語是可以相互理解的。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英漢口音英漢重音音訊資料集150300450以中文為第一語言、在青少年/成年時期移居/移民到美國並學習英語作為第二語言的使用者。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 深南口音英語 - Deep South 音訊資料集2752754501000演講者來自 (i) 德克薩斯州; (ii) 北卡羅來納州、南卡羅來納州、喬治亞州; ㈢ 紐奧良; (iv) 佛羅裡達狹長地帶; (v) 田納西州、阿肯色州、密西根州。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 西班牙口音英文 - 西班牙口音音訊資料集400400800西班牙英語是指具有不同民族傳統的西班牙裔美國人所使用的美國英語變體。主要焦點是墨西哥裔美國人、不同國籍(例如墨西哥、波多黎各、多明尼加共和國、厄瓜多、古巴等)和來自不同地區(如加州、紐約、佛羅裡達)的使用者。其中包括以西班牙語為第一語言的發言者以及以西班牙語為傳統語言的西班牙裔發言者。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 紐西蘭口音英語 - 紐西蘭音訊資料集2507501000兩個島上的使用者中,年輕使用者(<40 歲)和老年使用者(>40 歲)的比例相同。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 新加坡口音英語 - 新加坡音訊資料集4006001000標準新加坡英語和新加坡口語英語。不同種族背景(例如華人、馬來人、印度人等)和不同教育程度的新加坡人。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 南非口音英語 - 南非音訊資料集4006001000來自不同社會經濟階層和民族學背景的代表(例如歐洲、非洲、印度或混合背景的南非人)。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 愛爾蘭口音英語 - 愛爾蘭語音訊資料集500500愛爾蘭說英語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 蘇格蘭口音英語 - 蘇格蘭音訊資料集800800蘇格蘭人說的英語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言英語 - 威爾斯口音英文 - 威爾斯語音訊資料集800800威爾士英語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言法裔加拿大人法語加拿大音訊資料集10001000加拿大法語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言希伯來語希伯來語音訊資料集7507501500以色列的希伯來語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言印度尼西亞印尼音訊資料集100010002000印尼語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言日文日文音訊資料集20002000來自日本的日語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言韓語韓文音訊資料集10020015001800演講者遍布韓國各地。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言馬來語馬來語音訊資料集5005001000馬來西亞的馬來語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言墨西哥西班牙語墨西哥西班牙語音訊資料集12501250來自墨西哥的墨西哥人WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言波蘭語波蘭語音訊資料集25020002250來自波蘭的波蘭人WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言俄語俄語音訊資料集20002000來自俄羅斯的俄語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言斯瓦希裡斯瓦希里語音訊資料集3506501000南非和肯亞斯瓦希里語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言瑞典瑞典語音訊資料集3506501000瑞典語在瑞典WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言台灣華人台灣中文音訊資料集10001000來自台灣的中國人WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言泰語泰語音訊資料集350450800朋友之間使用的非正式暫存器,WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言土耳其土耳其語音訊資料集20002000來自土耳其的土耳其語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言越南語越南語音訊資料集6004001000北部(例如河內)、中部和南部(例如胡志明市)。WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言印度語印地語音訊資料集80020002800印度印地語,特別是北部、東部和西部地區WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言興力士印度英語音訊資料集300500800從印度城市收集,由於經濟機會不斷增長,這些城市成為該國的金融中心。這些地方可以是諾伊達、德里、德拉敦、昌迪加爾、孟買、加爾各答、班加羅爾、浦那、金奈、海得拉巴等WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言English英語音訊資料集700700WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言卡納達語卡納達語音訊資料集6010040200來自印度卡納塔克邦的卡納達語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言馬拉雅拉姆語馬拉雅拉姆語音訊資料集6010040200來自喀拉拉邦、拉克沙群島和本地治裡的馬拉雅拉姆語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言奧里亞語奧裡亞語音訊資料集6010040200來自奧裡薩邦、西孟加拉邦、賈坎德邦和恰蒂斯加爾邦部分地區的奧裡亞語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言旁遮普旁遮普語音頻資料集6010040200來自印度旁遮普邦的旁遮普語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言泰米爾人泰米爾語音訊資料集60100240400來自印度泰米爾納德邦的泰米爾語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言泰盧固語泰盧固語音訊資料集1009509502000來自印度安得拉邦的泰盧固語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言孟加拉孟加拉語音訊資料集6010040200來自印度西孟加拉邦的孟加拉語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言古吉拉特語古吉拉特語音訊資料集6010040200來自印度古吉拉特邦的古吉拉特語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言馬拉馬拉地語音訊資料集6010040200來自印度馬哈拉施特拉邦的馬拉地語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普
發言阿薩姆阿薩姆語音訊資料集6010040200來自印度阿薩姆邦的阿薩姆語WAV。.jsonASR、虛擬助手、聊天機器人、會話 AI、語音分析、TTS、語言建模夏普

對話式人工智能方面的深厚專業知識

對話式人工智能、聊天機器人或虛擬/數字助理的智能程度取決於其背後的技術和數據。 在 Shaip,我們為您提供一系列用於自然語言處理 (NLP) 的多樣化音頻數據集,這些數據集可以模仿與真人的對話,讓您將 AI 變為現實。 憑藉我們的深刻理解,我們可以幫助您利用全球多種語言的豐富且結構化的數據集以最高精度構建和本地化支持 AI 的語音模型。 我們根據您的要求提供多語言音頻採集、音頻轉錄和音頻註釋服務,同時完全定制所需的意圖、話語和人口統計分佈。

腳本語音集合

自發語音採集

音頻數據轉錄

數據標記和註釋

Shaip 可讓您準確訓練會話式 AI 平台,使其能夠:

  • 跨多個渠道無縫通話、發短信和聊天。
  • 從聊天、語音記錄、交易等形式的現有交互中學習,並根據這些知識提出建議和交談。
  • 理解人類語言背後的意圖並消除理解人類語言的歧義。
  • 與您進行一對一的互動,並且可以接受培訓來識別用戶並記住過去的對話。

對話式 AI 訓練數據的世界領導者

100 多種語言的數小時音頻數據 – 來源、轉錄和註釋

語音數據許可​

超過 20 小時的 40 多種語言和方言的語音數據,涵蓋來自不同領域的 55 個以上主題,即呼叫中心、辯論、一般對話、演講、播客等。

語音數據收集

收集來自世界各地 2 多種語言的音頻和語音數據(獨白、兩人對話、人機聊天),並根據您的 AI 要求進行定制。

語音數據轉錄

透過 30,000 名合作者組成的強大員工隊伍,實現具有成本效益的音訊轉錄或音訊註釋,並保證 TAT、準確性和節省

使用音頻採集和音頻註釋服務加速對話式 AI 應用程序開發

Shaip 優勢

規模

我們可以根據您的要求以多種語言和方言從世界各地獲取、擴展和交付音頻數據。

專門知識

我們在準確和無偏見的數據收集、轉錄和黃金標準註釋方面擁有正確的專業知識。

網絡

由 30,000 多名合格貢獻者組成的網絡,可以快速分配數據收集任務以構建 AI 訓練模型和擴展服務。

專業技術

我們擁有一個完全基於 AI 的平台,其中包含專有工具和流程,可全天候 24*7 地利用工作流管理。

敏捷

我們非常快速地適應客戶需求的變化,並透過比競爭對手快 5-10 倍的高品質語音數據來幫助加速 AI 開發。

安全性

我們非常重視數據安全和隱私,並且還獲得了處理高度監管敏感數據的認證。

我們最擅長的

訓練數據

在很短的時間內獲得最高質量的標記數據。 它是黃金標準、可靠且隨時可以訓練您的 AI 和 ML 模型以獲得最高水平的性能。

了解更多

數據收集、標記和註釋

使用 Shaip,您將獲得 15 年以上在收集、轉錄和註釋質量數據方面經過驗證的專業知識。 憑藉我們的全球勞動力,我們可以收集來自世界各地的數據,然後以數據所需的完美技能水平和專業知識提供標籤和註釋服務。

了解更多

數據目錄和許可

借助我們擁有數百萬個數據集的海量清單,您可以根據需要收集和組織。 然後,我們可以根據您的特定 AI 和 ML 使用要求許可該質量數據。 此外,如果您要自己創建這些數據,則只需花費一小部分成本即可獲得這些數據。

了解更多

想建立自己的數據集?

立即聯繫我們,了解我們如何為您的獨特 AI 解決方案收集自定義數據集。