ChatGPT在急診科的診斷性能評估
人工智慧(AI)越來越多地應用於醫療保健領域,以提高診斷和決策的準確性。西弗吉尼亞大學(WVU)的一項新研究評估了ChatGPT在急診室中的表現。WVU的科學家們,在Gangqing “Michael” Hu的帶領下,評估了ChatGPT使用醫生筆記診斷患者的能力。該研究發表在《科學報告》上,強調了人工智慧在急診診斷中的潛力和局限性。
該研究旨在了解不同版本的ChatGPT如何處理真實世界的臨床數據。研究人員使用了來自30個急診病例的去識別化筆記。他們要求GPT-3.5、GPT-4、GPT-4o和o1系列模型提出三個診斷建議。然後,將模型的準確性與實際的患者結果進行比較。
人工智慧在處理典型症狀時表現良好,但在處理非典型病例時則表現不佳。ChatGPT能夠準確地為具有典型疾病症狀的患者提出診斷建議。然而,在複雜的病例中,例如沒有發燒的肺炎,它就顯得力不從心。這表明人工智慧在面對超出其通常訓練模式的數據時存在困難。
目前的人工智慧模型主要使用非結構化文本,例如醫生筆記。它們無法訪問其他臨床數據,例如圖像和實驗室結果。Hu建議,添加更多的数据流可以提高人工智慧的診斷準確性。這將使人工智慧成為更全面的臨床支持工具。
較新的ChatGPT模型在準確性方面略有提高。最佳診斷建議提高了15%到20%。然而,始終如一的高精度仍然是一個挑戰。這突出了在使用人工智慧診斷工具時需要人工監督的重要性。
該研究強調,醫生必須監督人工智慧輔助的診斷。醫生專業知識對於解釋人工智慧的輸出和確保準確的患者護理至關重要。這創造了一個“混合智慧”系統。人工智慧加速數據分析,而臨床醫生提供判斷。
Hu希望人工智慧系統更加透明和可解釋。人工智慧應該揭示其推理過程,以建立與醫療保健提供者的信任。這種“可解釋的人工智慧”可以改善其在臨床工作流程中的整合。最終,這將改善患者的治療結果。
Hu的團隊還在探索多智能體人工智慧模擬。這涉及人工智慧代理在小組討論中扮演專家的角色。目標是模仿協作診斷過程。這種對話模型可能會導致更準確的評估。
研究人員警告說,ChatGPT不是經過認證的醫療設備。不應將其用作獨立的診斷解決方案。人工智慧模型必須在安全、合規的系統中運行,尤其是在使用擴展數據類型時。必須遵守法規並保護患者隱私。
展望未來,Hu希望研究重點關注人工智慧解釋其推理過程的能力。提高可解釋性可以幫助進行分診和治療決策。這可以提高效率和患者安全。