但是,在诊断方式和原因方面缺乏透明度的AI模型可能会出现问题。这种不透明的推理——也称为“黑盒”人工智能——会降低临床医生对人工智能工具可靠性的信任,从而阻碍其使用。这种缺乏透明度也可能误导临床医生过度信任该工具的解释。
在医学成像领域,创建更易于理解的AI模型和揭开AI决策神秘面纱的一种方法是显着性评估——一种使用热图来确定工具是否仅正确关注给定图像的相关部分的方法或归巢于其中不相关的部分。
热图通过突出显示图像上影响AI模型解释的区域来工作。这可以帮助人类医生了解人工智能模型是否关注与他们相同的区域,或者错误地关注图像上不相关的点。
但10月10日发表在《自然机器智能》杂志上的一项新研究表明,尽管他们做出了所有承诺,但显着性热图可能还没有准备好迎接黄金时段。
该分析由哈佛医学院研究员PranavRajpurkar、斯坦福大学的MatthewLungren和纽约大学的AdrielSaporta领导,量化了七种广泛使用的显着性方法的有效性,以确定它们识别与常见诊断的10种疾病相关的病理的可靠性和准确性在X射线上,例如肺部病变、胸腔积液、水肿或心脏结构扩大。为了确定性能,研究人员将工具的性能与人类专家判断进行了比较。
归根结底,与人类放射科医生相比,使用基于显着性热图的工具在图像评估和发现病理病变的能力方面始终表现不佳。
这项工作代表了显着性图和人类专家在评估多种X射线病理学方面的表现之间的第一次比较分析。该研究还提供了对图像上的某些病理特征是否以及如何影响AI工具性能的详细理解。
显着性图功能已被临床实践用作质量保证工具,临床实践使用AI来解释计算机辅助检测方法,例如读取胸部X光片。但研究人员表示,鉴于新发现,应谨慎应用此功能并保持健康的怀疑态度。
“我们的分析表明,显着性图还不够可靠,无法验证人工智能模型做出的个人临床决策,”HMS生物医学信息学助理教授Rajpurkar说。“我们确定了在当前实践中使用会引起严重安全问题的重要限制。”
研究人员警告说,由于研究中发现的重要限制,基于显着性的热图在临床AI模型中被广泛采用之前应该进一步完善。
该团队的完整代码库、数据和分析是开放的,所有有兴趣研究医学成像应用中临床机器学习这一重要方面的人都可以使用。 返回学习心得体会列表