資料註 – NER
用於臨床 NLP 的命名實體識別 (NER) 註釋
註釋完善的黃金標準臨床文字數據,用於訓練/開發臨床 NLP 以建立下一版本的醫療保健 API
在過去的幾年中,臨床自然語言處理 (NLP) 的重要性得到了越來越多的認識,並帶來了變革性的進步。 臨床 NLP 使電腦能夠理解醫生對患者的書面分析背後的豐富意義。 臨床 NLP 可以有多種用例,從人口健康分析到臨床文件改進、語音識別到臨床試驗匹配等。
要開發和訓練任何臨床 NLP 模型,您需要大量準確、無偏見且註釋良好的資料集。 黃金標準和多樣化的數據有助於提高 NLP 引擎的精確度和召回率。
體積
面臨的挑戰
客戶期望使用新的實體類型來訓練和發展其自然語言處理 (NLP) 平台,並識別各種類型之間的關係。 此外,他們正在評估提供高精度、遵守當地法律並擁有註釋大量數據所需的醫學知識的供應商。
任務是對多達20,000 條標記記錄進行標記和註釋,其中包括來自住院和門診電子健康記錄(EHR) 數據的多達15,000 條標記記錄以及來自轉錄醫療聽寫的多達5,000 條標記記錄,均勻分佈在(1) 地理來源和 ( 2)可用的醫學專業。
因此,總結一下挑戰:
- 整理異質臨床資料來訓練NLP平台
- 識別不同實體之間的關係以獲取關鍵訊息
- 具有標記/註釋大量複雜臨床文件的能力和專業知識
- 控製成本,在規定的時間內標記/註釋大量資料以訓練臨床 NLP
- 對由 75% EHR 和 25% 聽寫記錄組成的臨床資料集中的實體進行註釋。
- 交付時資料去識別化
自然語言理解的其他挑戰
單字是唯一的,但根據上下文可能具有不同的含義,從而導致詞彙、句法和語義層面上的歧義。
我們可以用不同的術語來表達相同的想法,這些術語也是同義詞:在描述一個物件時,big 和large 的意思是相同的。
在尋找文字中引用同一實體的所有表達式的過程稱為共指解析。
根據說話者的個性、意圖和情感,同一想法可能會得到不同的表達。
解決方案
大量的醫療數據和知識以醫療文件的形式提供,但主要是非結構化格式。 借助醫療實體註釋/命名實體識別 (NER) 註釋,Shaip 能夠透過註釋不同類型的臨床記錄中的有用信息,將非結構化資料轉換為結構化格式。 一旦識別了實體,它們之間的關係也被映射以識別關鍵資訊。
工作範圍:醫療保健實體提及註釋
9 種實體類型
- 醫療條件
- 醫療程序
- 解剖結構
- 藥物
- 醫療裝置
- 身體測量
- 濫用藥物
- 實驗室數據
- 身體機能
17 修飾符
- 藥物修飾因子:強度、單位、劑量、起始時間、頻率、途徑、持續時間、狀態
- 身體測量修飾符:數值、單位、結果
- 過程修飾符:方法
• 實驗室資料修改器:實驗室值、實驗室單位、實驗室結果 - 嚴重性
- 程式結果
27 關係和病患狀況
結果
附註釋的資料將用於開發和訓練客戶的臨床 NLP 平台,該平台將納入下一版本的醫療保健 API 中。 客戶獲得的好處是:
- 標記/註釋的資料符合客戶的標準資料註釋指南。
- 使用異質資料集來訓練 NLP 平台以獲得更高的準確性。
- 確定不同實體之間的關係,即解剖身體結構 <> 醫療設備、醫療狀況 <> 醫療設備、醫療狀況 <> 藥物、醫療狀況 <> 程序,以得出關鍵醫療資訊。
- 帶有標籤/註釋的大量資料在交付時也被去識別化。
我們與 Shaip 的合作極大地推進了我們在醫療保健領域的環境技術和對話式人工智慧計畫。 他們在創建和轉錄合成醫療保健對話方面的專業知識提供了堅實的基礎,展示了合成數據在克服監管挑戰方面的潛力。 與 Shaip 一起,我們克服了這些障礙,現在距離實現直覺醫療保健解決方案的願景又更近了一步。