許可用於 AI 和 ML 模型的高質量醫療保健/醫療數據

Q: 什麼是醫療保健數據集？

醫療保健數據集是與健康相關的數據的集合，通常是為了醫療和保健領域的分析、研究和決策而結構化和收集的。

Q: 醫療保健數據集有哪些示例？

示例包括電子健康記錄 (EHR)、醫學成像數據庫、基因組序列、患者人口統計數據和可穿戴健康設備的數據集。

Q: 如何將醫療保健數據集用於醫學研究？

醫療保健數據集通過提供對疾病模式、治療結果、患者行為、藥物療效等的見解來支持醫學研究，從而有助於醫學進步和政策制定。

Q: 醫療保健數據集的常見格式有哪些？

常見格式包括 CSV、Excel、DICOM（用於醫學成像）和 HL7（用於健康記錄）。

Q: 使用醫療數據集時有哪些隱私問題？

隱私問題源於敏感患者數據的潛在濫用，導致身份盜竊、歧視或不必要地暴露個人健康信息。

Q: 如何保護醫療數據集中的患者信息？

通過去身份識別（刪除個人身份信息）、加密、嚴格的訪問控制以及遵守 HIPAA（美國）等法規來保護患者信息。

Q: 如何確保醫療保健數據集中的數據質量？

為確保質量，定期驗證和清理數據集，使用標準化的數據收集方法，與可靠來源交叉引用，並邀請領域專家進行驗證。

現成的醫療保健/醫療數據集可快速啟動您的醫療保健 AI 項目

插入您今天丟失的醫療數據

聯絡我們

用於機器學習的醫療和保健數據集

醫師聽寫音頻數據

我們用於醫療保健的去標識化數據集包括 31 個不同的專業音頻文件，這些文件由醫生根據醫院/臨床環境中的醫患遭遇描述患者的臨床狀況和護理計劃。

現成的醫師聽寫音頻文件：

來自 257,977 個專業的 31 小時真實世界醫師聽寫語音數據集，用於訓練醫療保健語音模型
從電話聽寫 (54.3%)、數字錄音機 (24.9%)、語音麥克風 (5.4%)、智能手機 (2.7%) 和未知 (12.7%) 等各種設備捕獲的聽寫音頻
遵循 HIPAA 安全港指南的 PII 編輯音頻和成績單

轉錄病歷

病案抄錄是指醫患對話的抄錄、醫療報告的抄錄和醫學評估的抄錄。它有助於繪製患者的病史以供將來訪問，並且還可以作為醫生的參考點。它有助於醫生評估患者的現狀並提出合適的治療方案。

現成的轉錄醫療記錄：

轉錄來自 257,977 個專業的 31 小時真實世界醫師聽寫，以訓練醫療保健語音模型
從各種工作類型轉錄的醫療記錄，如手術報告、出院總結、會診記錄、入院記錄、ED 記錄、臨床記錄、放射學報告等。
遵循 HIPAA 安全港指南的 PII 編輯音頻和成績單

電子健康記錄 (EHR)

電子健康記錄或 EHR 是包含患者病史、診斷、處方、治療計劃、疫苗接種或免疫接種日期、過敏、放射學圖像（CT 掃描、MRI、X 射線）和實驗室測試等的醫療記錄。

現成的電子健康記錄 (EHR)：

5.1 個專業的 31 萬個以上記錄和醫生音頻文件
用於訓練臨床 NLP 和其他 Document AI 模型的真實世界黃金標準病歷
元數據信息，例如 MRN（匿名）、入院日期、出院日期、住院天數、性別、患者類別、付款人、財務類別、狀態、出院處置、年齡、DRG、DRG 描述、$ 報銷、AMLOS、GMLOS、風險死亡率、疾病嚴重程度、石斑魚、醫院郵政編碼等。
來自美國各州和地區的醫療記錄 - 東北 (46%)、南部 (9%)、中西部 (3%)、西部 (28%)、其他 (14%)
屬於所有患者類別的醫療記錄 - 住院患者、門診患者（臨床、康復、經常性、外科日間護理）、急診。

屬於所有患者年齡組的病歷 <10 歲 (7.9%)、11-20 歲 (5.7%)、21-30 歲 (10.9%)、31-40 歲 (11.7%)、41-50 歲 (10.4%) ), 51-60 歲 (13.8%), 61-70 歲 (16.1%), 71-80 歲 (13.3%), 81-90 歲 (7.8%), 90 歲以上 (2.4%)
患者性別比例為 46%（男性）和 54%（女性）
符合 HIPAA 的符合安全港指南的 PII 編輯文檔

屬於所有患者年齡組的病歷 <10 歲 (7.9%)、11-20 歲 (5.7%)、21-30 歲 (10.9%)、31-40 歲 (11.7%)、41-50 歲 (10.4%) ), 51-60 歲 (13.8%), 61-70 歲 (16.1%), 71-80 歲 (13.3%), 81-90 歲 (7.8%), 90 歲以上 (2.4%)
患者性別比例為 46%（男性）和 54%（女性）
符合 HIPAA 的符合安全港指南的 PII 編輯文檔

CT 掃描圖像數據集

醫生使用 CT 掃描圖像來診斷和檢測患者身體的異常或正常狀況（即識別身體各部位的疾病或損傷）。在計算機圖像處理診斷中，一張CT掃描圖像要經過複雜的階段，即採集、圖像增強、重要特徵提取、感興趣區域（ROI）識別、結果解釋等。

Shaip 提供對研究和醫學診斷必不可少的高質量 CT 掃描圖像數據集。我們的數據集包括從真實患者那裡收集並使用最先進技術處理的數千張高分辨率圖像。這些數據集旨在幫助醫療專業人員和研究人員提高他們對各種醫療狀況（包括癌症、神經系統疾病和心血管疾病）的知識和理解。借助 Shaip，您可以獲得可靠且準確的醫療數據，以加強您的研究並改善患者的治療效果。

MRI 圖像數據集

據 IBM 稱，計算機視覺模型旨在從數字圖像和視頻中獲取有意義的信息。它允許廣泛使用醫療保健圖像數據，以提供更好的疾病診斷、治療和預測。它可以使用來自圖像序列、紋理、形狀和輪廓信息的上下文以及過去的知識來生成有助於提高人類理解力的 3D 和 4D 信息。與 CT 掃描一樣，MRI 也用於診斷和檢測患者身體的異常或正常狀況（即識別身體各部位的疾病或損傷）。

Shaip 提供對研究和醫學診斷必不可少的高質量 MRI 圖像數據集。我們的數據集包括從真實患者那裡收集並使用最先進技術處理的數千張高分辨率圖像。