腫瘤學 NLP 研究的進步

腫瘤學資料精度:NLP 模型創新的許可、去識別化和註釋

腫瘤學nlp

利用尖端 NLP 技術徹底改變癌症治療

該客戶是醫療保健行業的主要參與者,需要先進的 NLP 解決方案來處理大量的腫瘤病歷。 作為完善腫瘤學研究的關鍵措施的一部分,平衡詳細數據分析與嚴格的隱私標準的需求至關重要。 本案例研究概述了我們透過高保真數據註釋、嚴格的去識別化實踐以及自然語言處理 (NLP) 技術的應用,在 HIPAA 提供的監管框架內為增強客戶的研究工作所做的貢獻。

體積

資料授權+資料去ID
10 網頁
腫瘤學關係
10 網頁
非腫瘤領域
10 網頁
在否定
10 網頁
腫瘤學領域
10 網頁
NER + 關係映射
10 網頁

面臨的挑戰

該計畫需要對臨床文件有細緻入微的了解、精確識別醫療實體以及準確應用否定標籤的能力,所有這些都在根據 HIPAA 法規保護患者隱私的安全框架內進行。 這項工作不僅需要處理大量複雜數據的技術專業知識,還需要一種在註釋過程的所有階段納入回饋和維持品質的策略方法。

目標

服務詳細說明

類別產品描述
全面的臨床數據覆蓋涵蓋各種註釋類型、護理環境和腫瘤亞專業,確保提供反映不同臨床情況的可靠資料集。
嚴格去識別化確保所有標籤的記錄均按照 HIPAA 的安全港方法去識別化,確保客戶對資料隱私和安全的信心。
註釋指南建立和實施標準資料註釋指南,以根據 HIPAA 標準準備標籤記錄。
高階註解策略對 10,000 頁腫瘤學相關記錄進行了手動註釋,重點是根據既定指南識別陰性狀態和其他相關資訊。
嚴格的品質保證達到指南中規定的品質標準

解決方案

我們的方法涉及以下關鍵策略:

客製化腫瘤學數據集編譯

從超過 5 MN EHR 的龐大檔案中提取了精心挑選的資料子集,旨在滿足客戶對腫瘤學資料的特殊要求,並專注於基因組實體。 收集過程涉及創建腫瘤標記、基因、變異和 TNM 階段的詳盡列表,並使用關鍵字搜尋來找出這些數據中豐富的文件。 正規表示式用於識別一系列遺傳變異和癌症階段。 這種方法與涵蓋各種文件類型、專業、護理環境和來自多個醫生的數據的廣泛數據覆蓋相結合,確保了全面且相關的腫瘤學數據集。

腫瘤學數據集編譯

嚴格去識別化

此流程嚴格遵循HIPAA的安全港去識別方法,確保了客戶對資料隱私和安全的信心。 這涉及刪除所有受保護的健康資訊 (PHI) 並將其替換為帶有標籤的佔位符,從而保持資料的實用性,同時保護患者的機密性。

去識別化變數

類別子分類
姓名病患姓名、醫師姓名、執業護理師姓名、家庭成員姓名、醫療中心名稱、診所名稱、療養院名稱、公司名稱、大學名稱
年齡 
日期日期模式、月年模式、日月模式、日年模式、日、月、年、季節
活動地點國家、州、城市、街道、郵遞區號、房號、套房號、樓層號
ID社會安全號碼、醫療記錄號、健康計畫受益人號碼、帳號、證書/許可證號碼、生物辨識 ID、記錄 ID、登記號碼、車輛識別號碼、車牌號碼設備識別碼和序號
聯絡我們 電話號碼、傳真號碼、電子郵件地址、網址、IP 位址

示例:

25 年 2106 月 11 日上午 00:90,202 歲的 Harry Pace 先生被送入 Forrest General Hospital 接受預定的髖關節手術,此前由他的初級保健醫生 Jose Martin 醫生進行諮詢,並由 Kendra Reith 參與。醫學博士。 在他逗留期間,他得到了瑪麗·胡(Mary Hu)和蘇珊·雷(Suzan Ray)的照顧,賓夕法尼亞州的查爾斯·梅蘭肯(R. Charles Melancon)也接受了諮詢。 他的手術在入院當天進行,非常成功,沒有出現併發症。 手術後,佩斯先生被轉移到二樓2室進行復健。 他的妻子艾瑪·佩斯全程在場,並獲得了所有必要的最新資訊。 在他短暫停留期間,他的醫療記錄(包括 MRN MR99062619 和帳戶 KV000014764)均按照他之前居住地 Gracewood Nursing Home 的標準協議進行處理。 當天晚些時候,他出院到奧克蘭門診診所接受進一步康復治療。 在整個過程中,所有程序均已記錄並遵守保密標準。

例:去識別化

On [日期模式],上午11:00,先生 [患者姓名],[年齡],被錄取 [醫療中心名稱] 進行預定的髖關節手術,此前曾諮詢過他的初級保健醫生 Dr. [醫生姓名], 並出席了 [醫生姓名] 醫學博士。 在他逗留期間,他受到了 [護理師執業], NP,並且 [護理師執業], 註冊護士,與 [醫生姓名], PA,也在諮商中。 他的手術在入院當天進行,非常成功,沒有出現併發症。 手術後,先生。 [患者姓名] 被轉移到房間號碼。 [房號], 樓層號 [樓層號], 為了恢復。 他的妻子,[家庭成員姓名]全程在場,並獲得了所有必要的最新情況。 在他短暫停留期間,他的醫療記錄,包括 MRN [病歷號] 和帳戶 [帳號], 根據標準協議進行處理 [療養院名稱], 他以前的住所。 當天晚些時候,他出院並接受護理 [診所名稱] 以便進一步復原。 在整個過程中,所有程序均已記錄並遵守保密標準。

註釋指南和高級註釋技術

Shaip 在標準資料註釋指南的製定和實施方面發揮了重要作用,確保所有標記記錄的準備一致並符合 HIPAA 標準。 此外,來自各種醫療記錄的 10,000 頁都經過精心註釋,重點是陰性狀態和其他臨床相關實體(包括各種腫瘤學亞專業)的詳細標籤。 註釋是由具有腫瘤學和資料隱私法規專業知識的專家註釋者團隊進行的。

複雜的註解標準

類別子分類
日期註釋(腫瘤學)診斷日期、分期日期、發病日期、手術日期、醫療開始日期、醫療結束日期、放射開始日期、放射結束日期
疾病(腫瘤學)癌症問題、組織學、臨床狀態、身體部位、行為、等級、癌症分期、TNM 分期、腫瘤標記測試、尺寸、代碼
治療(腫瘤學)癌症醫學、藥物劑量、頻率、癌症手術、手術結果、放射線方式、放射劑量
基因組學變異代碼、研究的基因、方法、樣本
在否定消極、可能消極、不確定、可能積極
臨床NER癌症問題 - 身體部位、組織學 - 身體部位、行為 - 身體部位、癌症手術 - 關係身體部位、放射方式 - 身體部位、組織學 - 等級、癌症問題 - 維度

示例:

腫瘤學臨床記錄聲明

腫瘤學臨床記錄聲明

「患者 Jane Doe 於 03 年 05 月 2023 日被診斷出患有 IIIB 期非小細胞肺癌 (NSCLC),特別是腺癌。 癌症位於肺右下葉。 依TNM分期系統分類為T3N2M0,腫瘤大小為5 cm x 3 cm。 透過腫瘤切片標本進行 PCR 分析,發現 EGFR 外顯子 19 缺失。 卡鉑 AUC 5 和培美曲塞 500 mg/m² 化療於 03 年 20 月 2023 日開始,每 3 週進行一次。 體外放射治療 (EBRT) 於 60 年 30 月 04 日開始,劑量為 01 Gy,分 2023 次。 患者的治療正在進行中,最近的核磁共振檢查沒有發現腦轉移的證據。 淋巴血管侵犯的可能性尚未確定,患者對完整化療方案的耐受性仍不確定。

腫瘤學臨床記錄聲明

腫瘤學臨床記錄聲明

嚴格的品質保證

實施靈活的專案管理框架,促進有效整合客戶回饋,同時堅持嚴格的品質標準。 執行了全面的品質保證協議,與指南保持一致,以達到必要的品質基準。 該協議以連續多輪的審查和驗證為特色,確保了註釋數據的準確性和可靠性。 這種細緻的品質監督對於制定可靠的 NLP 解決方案至關重要,對於明智的臨床決策和卓越的研究至關重要。

結果

成功交付10,000筆高品質、去識別化的標籤記錄,為客戶的NLP模型開發提供了安全且有價值的資料集。 NLP 的精心應用和對HIPAA 去識別標準的遵守產生了高度精煉的數據集,該數據集將支持客戶正在進行和未來的腫瘤學研究工作,最終旨在提高腫瘤學患者的治療效果和護理服務效率。

此計畫的成功表明我們有能力精確處理複雜的醫療數據,有助於客戶實現改善病患照護結果並加快醫療創新步伐的目標。

我們與 Shaip 的合作對於提升我們在腫瘤學領域的 NLP 能力發揮了重要作用。 對 10,000 份醫療記錄的專業處理,並附有詳細的否定和其他臨床實體註釋,表明了他們對卓越和合規性的承諾。 此外,他們對 HIPAA 等隱私標準的承諾為我們提供了寶貴的資源,以推動我們開發尖端腫瘤治療和診斷的人工智慧計畫。

金色五星級

加速您的醫療保健人工智慧
應用程序開發 100%