每次我們聽到一個單詞或閱讀一段文字時,我們都有自然的能力來識別單詞並將其分類為人物、地點、位置、價值觀等。 人類可以快速識別一個詞,對其進行分類並理解上下文。 例如,當您聽到“史蒂夫·喬布斯”這個詞時,您可以立即想到至少三到四個屬性並將實體分為幾類,
- 人: 史蒂夫·喬布斯
- 公司: 蘋果
- 地點: 加利福尼亞州
由於計算機沒有這種天生的能力,它們需要我們的幫助來識別單詞或文本並對其進行分類。 這是哪裡 命名實體識別 (NER) 發揮作用。
讓我們簡要了解一下 NER 及其與 NLP 的關係。
什麼是命名實體識別?
命名實體識別是自然語言處理的一部分。 的主要目標 NER 是處理 結構化和非結構化數據 並將這些命名實體分類為預定義的類別。 一些常見的類別包括姓名、地點、公司、時間、貨幣價值、事件等。
簡而言之,NER 處理:
- 命名實體識別/檢測——識別文檔中的一個詞或一系列詞。
- 命名實體分類——將每個檢測到的實體分類為預定義的類別。
但是 NER 與 NLP 有什麼關係呢?
自然語言處理有助於開發能夠從語音和文本中提取意義的智能機器。 機器學習通過大量自然語言的訓練幫助這些智能係統繼續學習 數據集.
一般來說,NLP 包括三大類:
- 理解語言的結構和規則—— 句法
- 導出單詞、文本和語音的含義並識別它們的關係—— 語義
- 識別和識別口語並將其轉換為文本 - 演講
NER 有助於 NLP 的語義部分,提取單字的含義,根據它們的關係識別和定位它們。
NER的常見示例
預定的一些常見示例 實體分類 分別是:
人: 邁克爾·傑克遜、奧普拉·溫弗瑞、巴拉克·奧巴馬、蘇珊·薩蘭登
地點: 加拿大、檀香山、曼谷、巴西、劍橋
組織: 三星、迪士尼、耶魯大學、谷歌
時間: 15.35,下午 12 點,
其他類別包括數值、表達式、電子郵件地址和設施。
命名實體識別中的歧義
一個術語所屬的類別對於人類來說在直覺上是很清楚的。 然而,計算機並非如此——它們會遇到分類問題。 例如:
曼徹斯特城 (文章結構) 贏得了英超聯賽獎杯,而在下面的句子中,組織的用法有所不同。 曼徹斯特城 (活動地點) 是紡織和工業強國。
您的 NER 模型需要 訓練數據 進行準確的 實體抽取 和分類。 如果你正在用莎士比亞英語訓練你的模型,不用說,它無法破譯 Instagram。
不同的NER方法
一個主要目標 NER模型 是對文本文檔中的實體進行標註,並對其進行分類。 為此,通常使用以下三種方法。 但是,您也可以選擇組合一種或多種方法。
創建NER系統的不同方法是:
基於字典的系統
基於字典的系統可能是最簡單和最基本的 NER 方法。 它將使用包含許多單詞、同義詞和詞彙集合的字典。 系統將檢查文本中存在的特定實體是否也在詞彙表中可用。 通過使用字符串匹配算法,對實體進行交叉檢查。
使用這種方法的一個缺點是需要不斷升級詞彙數據集以使 NER 模型有效運行。
基於規則的系統
在這種方法中,信息是基於一組預先設定的規則來提取的。 使用了兩組主要規則,
基於模式的規則 – 顧名思義,基於模式的規則遵循文檔中使用的形態模式或單詞串。
基於上下文的規則 – 基於上下文的規則取決於文檔中單詞的含義或上下文。
基於機器學習的系統
在基於機器學習的系統中,統計建模用於檢測實體。 在這種方法中使用了基於特徵的文本文檔表示。 您可以克服前兩種方法的幾個缺點,因為模型可以識別 實體類型 儘管它們的拼寫略有不同。
命名實體識別的用例和範例?
揭示命名實體識別 (NER) 的多功能性:
- 聊天機器人: NER 透過識別關鍵實體來幫助 OpenAI 的 ChatGPT 等聊天機器人理解用戶查詢。
- 客戶支持: 它按產品名稱組織客戶回饋,從而加快時間。
- 財經: NER 從財務報告中提取關鍵數據,以幫助進行趨勢分析和風險評估。
- 衛生保健: 它從臨床記錄中提取重要訊息,促進更快的數據分析。
- 人力資源: 它透過總結申請人資料和傳達員工回饋來簡化招募。
- 新聞提供者: NER 將內容分類為相關資訊和趨勢,從而加快報告速度。
- 推薦引擎: 像 Netflix 這樣的公司使用 NER 根據用戶行為提供個人化推薦。
- 搜索引擎: 透過對網頁內容進行分類,NER 提高了搜尋結果的準確性。
- 情緒分析: NER 從評論中提取品牌提及,為情感分析工具提供支援。
NER的應用
NER 在與自然語言處理和建立訓練資料集相關的許多領域都有多個用例 機器學習 和 深入學習 解決方案。 NER的一些應用是:
簡化的客戶支持
NER 系統可以根據產品名稱、規格、分公司位置等重要資訊輕鬆發現相關的客戶投訴、查詢和回饋。 透過過濾優先關鍵字,對投訴或回饋進行適當分類並轉移到正確的部門。
高效的人力資源
NER 透過快速總結申請人的履歷,幫助人力資源團隊改善招募流程並縮短時間。 NER 工具可以掃描履歷並提取相關資訊——姓名、年齡、地址、資格、大學等。
此外,人力資源部門還可以使用NER工具通過過濾員工投訴並將其轉發給相關部門負責人來簡化內部工作流程。
簡化的內容分類
內容分類對於新聞提供商來說是一項艱鉅的任務。 將內容分類為不同的類別可以更容易地發現、獲得見解、識別趨勢和理解主題。 一個命名 實體識別 工具可以為新聞提供者派上用場。 它可以掃描許多文章,識別優先關鍵字,並根據人員、組織、位置等提取信息。
優化搜索引擎
NER 有助於簡化和提高搜索結果的速度和相關性。 NER 模型可以運行一次查詢並保存結果,而不是為數千篇文章運行搜索查詢。 因此,基於搜索查詢中的標籤,可以快速找到與查詢相關聯的文章。
準確的內容推薦
一些現代應用程式依賴 NER 工具來提供優化和客製化的客戶體驗。 例如,Netflix 使用命名實體識別根據用戶的搜尋和觀看歷史記錄提供個人化推薦。
命名實體識別讓您的 機器學習 模型更加高效可靠。 但是,您需要高品質的訓練資料集,以便您的模型能夠以最佳水平工作並實現預期目標。 您所需要的只是一個經驗豐富的服務合作夥伴,他們可以為您提供可供使用的優質資料集。 如果是這樣的話,Shaip 是您最好的選擇。 請聯絡我們以取得全面的 NER 資料集,以協助您為 AI 模型開發高效且先進的 ML 解決方案。
[另請閱讀: 案例研究:臨床 NLP 的命名實體識別 (NER)]
命名實體識別如何運作?
深入研究命名實體識別 (NER) 領域,揭示了一個包含幾個階段的系統之旅:
符號化
最初,文字資料被分割成更小的單元,稱為標記,其範圍可以從單字到句子。 例如,語句「Barack Obama was the President of the USA」被分割為「Barack」、「Obama」、「was」、「the」、「president」、「of」、「the」和「token」美國」。
實體檢測
利用語言指南和統計方法的結合,潛在的命名實體受到關注。 在此階段,識別姓名大寫(「Barack Obama」)或不同格式(如日期)等模式至關重要。
實體分類
檢測後,實體被分類為預先定義的類別,例如「人」、「組織」或「位置」。 在標記資料集上培育的機器學習模型通常會推動這種分類。 在這裡,“巴拉克·奧巴馬”被標記為“人”,“美國”被標記為“位置”。
情境評估
NER 系統的能力通常可以透過評估周圍環境來放大。 例如,在短語“華盛頓見證了歷史性事件”中,上下文有助於將“華盛頓”識別為一個地點而不是一個人名。
評估後細化
在初步識別和分類之後,可能會進行後評估細化以完善結果。 此階段可解決歧義、融合多令牌實體或利用知識庫來增強實體資料。
這種描述的方法不僅揭開了 NER 核心的神秘面紗,還優化了搜尋引擎的內容,增強了 NER 所體現的複雜過程的可見性。
NER 的好處與挑戰?
為妳而設的優點:
- 信息提取:NER 識別關鍵數據,幫助資訊檢索。
- 內容組織:它有助於對內容進行分類,對資料庫和搜尋引擎很有用。
- 增強的用戶體驗:NER 細化搜尋結果並個人化推薦。
- 富有洞察力的分析:有利於情緒分析和趨勢偵測。
- 自動化的工作流程:NER 促進自動化,節省時間和資源。
限制/挑戰:
- 歧義消解:難以區分相似的實體。
- 特定領域的適應:跨不同領域的資源密集。
- 語言依賴性: 效果因語言而異。
- 標記數據稀缺:需要大量標記資料集進行訓練。
- 處理非結構化數據: 需要先進的技術。
- 績效衡量:準確評估很複雜。
- 實時處理:平衡速度與準確性具有挑戰性。