今天,我們在家裡、汽車系統、便攜式設備、家庭自動化解決方案等中有一些會說話的機器人,如聊天機器人、虛擬助手等等。這些設備精確地聽我們說的話和我們說的方式並檢索結果或執行特定任務.
如果你一直在使用像這樣的助手 Siri 或 Alexa,您還會意識到它們一天比一天變得古怪。 他們的回答很詼諧,他們頂嘴,不屑一顧,回饋讚美,而且比你可能認識的一些同事表現得更像人。 我們不是在開玩笑。 根據普華永道, 27% 與他們最近的客戶服務助理互動的用戶不知道他們是在與人交談還是與聊天機器人交談。
開發如此復雜的對話系統和設備是非常複雜和艱鉅的。 這是一種完全不同的球類運動,具有不同的開發方法。 這就是為什麼我們認為我們應該將其分解以便您更容易理解。 因此,如果您希望開發對話式 AI 引擎或虛擬助手,本指南將幫助您理清思路。
對話式人工智能的意義
隨著技術以更新的設備和系統的形式成為我們生活中不可或缺的一部分,出現了推動障礙、打破常規並想出與它們互動的新方式的需求。 從簡單地使用鼠標和鍵盤等連接的外圍設備,我們切換到提供更多便利的鼠標墊。 然後我們遷移到觸摸屏,在提供輸入和執行任務方面提供了進一步的便利。
隨著設備成為我們自己的延伸,我們現在正在開啟一種通過語音進行指揮的新媒體。 我們甚至不需要靠近設備就可以操作它。 我們所要做的就是使用我們的聲音來解鎖它並命令我們的輸入。 在附近的房間裡,在駕駛時,同時使用另一個設備,對話式人工智能無縫地執行我們的預期任務。 那麼我們從哪裡開始——一切都始於高質量的語音數據來訓練 ML 模型。
收集語音訓練數據的基礎知識
為對話式 AI 收集和註釋 AI 訓練數據是非常不同的. 人類命令涉及大量錯綜複雜的問題,必須採取多種措施以確保每個方面都得到考慮,以獲得有影響力的結果。 讓我們看看語音數據的一些基礎知識是什麼。
自然語言理解(NLU)
為了讓聊天機器人和虛擬助手理解並響應我們的文本或命令,這個過程稱為 全國土地聯盟 被執行。 它代表 自然語言理解 並涉及三個技術概念來解釋和處理不同的輸入類型。
意圖
這一切都始於意圖。 特定用戶試圖通過命令傳達、交流或實現什麼? 用戶是否在尋找信息? 他們是否在等待更新以採取行動? 他們是否在命令系統執行指令? 他們是怎麼指揮的? 是通過問題還是請求? 所有這些方面都可以幫助機器理解和分類意圖和目的,以分別提出無懈可擊的響應。
話語集
“最近的自動取款機在哪裡?”命令之間存在差異。 和命令,“給我找一個附近的 ATM。” 現在人類會承認兩者的意思相同,但必須用這種差異來解釋機器。 它們在意圖方面是相同的,但意圖的形成方式完全不同。
話語收集是關於將不同的話語和短語定義和映射到特定目標,以精確執行任務和響應。 從技術上講,數據註釋專家處理語音數據或文本數據,以幫助機器區分這一點。
實體抽取
每個句子都有帶有強調權重的特定單詞或短語,正是這種強調導致了對上下文和目的的解釋。 機器,就像它們的剛性系統一樣,需要用勺子餵食這樣的實體。 例如,“我在哪裡可以找到第六大道附近的吉他弦?”
如果你優化句子,find 是實體一,弦是二,吉他是三,第六大道是 6。這些實體被機器組合在一起以檢索適當的結果,為此,專家在後端工作。
為會話式人工智能設計對話
人工智能的目標主要是通過手勢、動作和反應來複製人類行為。 有意識的人類思維具有理解上下文、意圖、語氣、情緒和其他因素並做出相應反應的先天能力。 但是機器如何區分這些方面呢?
設計對話 對話式人工智能 非常複雜,更重要的是,推出一個通用模型是不可能的。 每個人都有不同的思考、談話和反應方式。 即使在回應中,我們也都以獨特的方式表達了我們的想法。 因此,機器必須傾聽並做出相應的響應。
然而,這也並不順利。 當人類說話時,口音、發音、種族、語言等因素都會進來,機器不容易誤解和曲解單詞並做出回應. 當印度人、英國人、美國人和墨西哥人口述時,機器可以以多種方式理解一個特定的詞。 有大量的語言障礙在起作用,提出響應系統的最實用方法是通過基於流程圖的可視化編程。
通過專用塊 手勢、反應和触發器,作者和專家可以幫助機器發展角色. 這更像是一種算法機器可以用來提出正確的響應。 當輸入輸入時,信息會流經相應的因素,從而為機器提供正確的響應。
撥 D 表示多樣性
就像我們提到的,人際互動是非常獨特的。 世界各地的人們來自不同的階層、背景、國籍、人口統計、種族、口音、用詞、發音等。
為了使對話機器人或系統能夠普遍運行,必須使用盡可能多樣化的訓練數據對其進行訓練。 例如,如果模型僅使用一種特定語言或種族的語音數據進行訓練,則新的口音會混淆系統並迫使它提供錯誤的結果。 這不僅讓企業主感到尷尬,而且對用戶也是一種侮辱。
這就是為什麼開發階段應該涉及來自各種不同數據集的豐富池的 AI 訓練數據,這些數據集由來自所有可能背景的人組成。 你的系統理解的口音和種族越多,它就越普遍。 此外,更讓用戶煩惱的不是信息檢索不正確,而是首先無法理解他們的輸入。
消除偏見應該是一個關鍵的優先事項,公司可以做到這一點的一種方法是選擇眾包數據。 當您眾包您的語音數據或文本數據時,您允許來自世界各地的人們為您的需求做出貢獻,從而使您的數據池更加有益(閱讀我們的 博客 了解將數據外包給眾包工作者的好處和缺陷)。 現在,您的模型將理解不同的口音和發音並做出相應的響應。
未來之路
開發對話式人工智能就像撫養嬰兒一樣困難。 唯一的區別是嬰兒最終會成長為理解事物並在自主交流方面變得更好。 這是需要持續推動的機器。 目前這個領域存在一些挑戰,我們應該承認這樣一個事實,即儘管存在這些挑戰,我們還是產生了一些最具革命性的對話式人工智能係統。 讓我們拭目以待,看看我們友好的鄰里聊天機器人和虛擬助手的未來會怎樣。 同時,如果您打算為您的企業開發像 Google Home 這樣的對話式 AI, 聯繫我們了解您的 AI 訓練數據和註釋需求.