ChatGPT在急诊科的诊断性能评估
人工智能(AI)越来越多地应用于医疗保健领域,以提高诊断和决策的准确性。西弗吉尼亚大学(WVU)的一项新研究评估了ChatGPT在急诊室中的表现。WVU的科学家们,在Gangqing “Michael” Hu的带领下,评估了ChatGPT使用医生笔记诊断患者的能力。该研究发表在《科学报告》上,强调了人工智能在急诊诊断中的潜力和局限性。
该研究旨在了解不同版本的ChatGPT如何处理真实世界的临床数据。研究人员使用了来自30个急诊病例的去标识化笔记。他们要求GPT-3.5、GPT-4、GPT-4o和o1系列模型提出三个诊断建议。然后,将模型的准确性与实际的患者结果进行比较。
人工智能在处理典型症状时表现良好,但在处理非典型病例时则表现不佳。ChatGPT能够准确地为具有典型疾病症状的患者提出诊断建议。然而,在复杂的病例中,例如没有发烧的肺炎,它就显得力不从心。这表明人工智能在面对超出其通常训练模式的数据时存在困难。
目前的人工智能模型主要使用非结构化文本,例如医生笔记。它们无法访问其他临床数据,例如图像和实验室结果。Hu建议,添加更多的数据流可以提高人工智能的诊断准确性。这将使人工智能成为更全面的临床支持工具。
较新的ChatGPT模型在准确性方面略有提高。最佳诊断建议提高了15%到20%。然而,始终如一的高精度仍然是一个挑战。这突出了在使用人工智能诊断工具时需要人工监督的重要性。
该研究强调,医生必须监督人工智能辅助的诊断。医生专业知识对于解释人工智能的输出和确保准确的患者护理至关重要。这创造了一个“混合智能”系统。人工智能加速数据分析,而临床医生提供判断。
Hu希望人工智能系统更加透明和可解释。人工智能应该揭示其推理过程,以建立与医疗保健提供者的信任。这种“可解释的人工智能”可以改善其在临床工作流程中的整合。最终,这将改善患者的治疗结果。
Hu的团队还在探索多智能体人工智能模拟。这涉及人工智能代理在小组讨论中扮演专家的角色。目标是模仿协作诊断过程。这种对话模型可能会导致更准确的评估。
研究人员警告说,ChatGPT不是经过认证的医疗设备。不应将其用作独立的诊断解决方案。人工智能模型必须在安全、合规的系统中运行,尤其是在使用扩展数据类型时。必须遵守法规并保护患者隐私。
展望未来,Hu希望研究重点关注人工智能解释其推理过程的能力。提高可解释性可以帮助进行分诊和治疗决策。这可以提高效率和患者安全。