在AI技术准确检出肺部结节病灶的前提下,团队开发了一套胸部CT排版系统,适合全自动或者半自动的影像学图像的排版问题,可以将以往人工诊断到排版花费约2小时的工作时间,降低到约100秒完成。
过去几年,AI在医学影像方面取得了诸多成果。在影像学科的临床工作流程中,肺部病变的良、恶性鉴别诊断,已经成为AI创业公司争先恐后涌入的赛道。但是,多数创业公司基本上是停留在后端的疾病诊断层面,在此之前的图像采集、图像呈现阶段,其实都有文章可做。
近日,南京鼓楼医院医学影像科张冰团队,在柳叶刀子刊EBiomedicine发表了一则AI医疗的新成果,直面影像科医生工作流程前端的痛点问题。
该团队选择了一个全新的切入点——从临床影像工作全流程角度出发,提出了一种基于深度学习的智能成像排版系统(IILS),系统包括AI肺结节检测和分类和自适应排版工具,用于结节识别的成像报告标准化和工作流程优化。
成人的典型胸部CT扫描有大约三百张图像。 然而,最终排版仅约为四十幅图像。 因此,大约/DISPLAY/PARIS/LIDC-IDRI )有1018次CT 扫描,其包含更多的切片厚度类型并且更类似于真实的临床环境。对于大于3mm的结节,模型的召回率为88.75%,每例扫描的假阳性率为5.22。
在本研究中,通过创建和部署深度神经网络算法,在有限的人类干涉下,我们的IILS模型展示了胸部CT图像分析的竞争性性能。此外,机器学习技术用于图像分析的功效可能超出了胸部CT图像的范围—原则上,通过AI和布局学习的技术可能潜在地用于多个学科的各种医学图像。
IILS的一个主要特点是几乎实时地检测肺部结节。这种实时性能是由于系统中的Faster RCNN模型。IILS的性能在很大程度上取决于通过训练模型检测和分类结节的准确性。虽然与金标准达成了很高的一致性,将AI应用于UI在检测小结节方面仍存在显著差异,这可能是由于参加模型训练的样本量小(结节数量,n=1119)造成的。
经证实,在检出结节数量和判断良恶性方面,IILS优于6名专家。根据目前构建的模型,获得的ROC曲线下面积达90.6%,具有一定的临床应用价值。经过严格的统计检验,在结节检出量和良恶性判断方面,IILS优于6名人类专家。补充表S6显示了一些相关工作和比较结果。相比之下,实验数据和CNN结构的结果都取得了一定的进展,使我们对IILS的模型性能稳定、可靠和高效充满了希望。
IILS旨在用于日常实际工作中准确检测和分类结节,并标准化胸部CT图像和报告。这种布局的优点是简化了医生仔细翻看图像,找到有关键图像的肺结节的过程。为优化IILS,我们评估了其在布局部件中的性能。凭借AI接近100%的成功率,整个多平面重建程序设计可以自动完成。多平面重建对临床医生从多个角度观察肺结节,做出最终诊断,评估和跟踪肺结节至关重要。
IILS与传统布局系统之间存在十四个差异。其中,内容分为三个部分。第一部分侧重于使运营商受益。IILS可能有机会降低成本,包括提高CT利用效率,替代低成本资源甚至取代某些业务。第二部分包括第四至第十一点的内容,这些差异主要集中在最终产出的差异,两种电子胶片加上两种不同系统产生的一种相应的报告。尽管IILS制作的电子胶片布局是从传统方式的两个部分演变为三个部分,其中前五个小网格仅用于显示在不同呈现形式下具有最高恶性风险的一个结节,这将有助于IILS比传统方法更经常地获得有效图像,从而提高了效率。
此外,还出现了一个有趣的现象。验证在我们的自适应工具的表现中,我们从临床医学报告的结果中随机选择了来自对照组的327例病例,这些病例报道没有肺结节。然而,在重新测试的过程中,我们发现在153例(46.8%)中实际错过了318个结节。错过的结节主要集中在3-6毫米而不是<3毫米的,主要类型的缺失结节是钙化结节而不是磨砂玻璃结节。这个问题的可能原因是,在传统的母语中,钙化结节可能被“旧病变”所取代,而“磨玻璃结节”则没有同义词。
第六点为多维结节;根据基线和随访CT的结节直径和时间间隔的差异可以观察和估计结节的大小在这两种扫描之间,肿瘤呈均匀的三维生长。然而,由于繁重的体力劳动,无法对关键的肺结节进行三维重建。因此,我们增加了一种自动多维观察方法,以最大限度地减少误诊率。
第三部分包括第十二至第十四点的内容,比较了IILS和传统工作站对所有医生和病人的影响。我们的研究结果表明,所有医生和患者对IILS的输出感到满意。然而,在以经验为导向的阅读习惯方面,人工智能在人类专家中的有效性仍然存在差异。在我们的研究中,一名资深放射科医生(专家1)似乎对人工智能预测肺结节的信心较低,即使IILS做出了判断,也会仔细遵循阅读习惯浏览图像。应用人工智能前后,在效率、消耗时间、结节绝对不匹配等方面均有显著差异。有趣的是,在敏感性和特异性方面没有发现明显的改善。相比之下,初级放射科医生(专家2)似乎在很大程度上信任人工智能。我们推测,人机耦合操作可能仍然需要一个适应过程。
虽然结果很有希望,但我们的研究有一些局限性。在这项试验研究中,脊柱侧凸患者、原发性或继发性胸部畸形患者和接受胸外科手术的患者的图像不包括在训练和测试集中。因此,需要进一步的临床收集和测试来评估各种形式的胸腔的临床准确性。由于胸廓畸形的发生率相对较低,这种影响不会影响我们的总体结论。临床试验研究在两年内进行,IILS正常运作六个月。但是,需要对新系统进行进一步评估,以评估长期准确性和稳定性。
此外,IILS仅限于解决成人肺结节的CT图像问题,而不是婴儿,由于婴儿很少出现肺结节。在各种环境条件下还需要进行更多测试,例如,在极冷,炎热,干燥和潮湿的环境中进行测试。还需要测试具有一些噪声的图像以评估系统的稳健性。事实上,图像不完整的患者被纳入系统,最终导致异常。因此,在处理特殊图像,例如不完整图像,空白图像或不正确图像时,当前系统仍有改进的空间,可以引入诸如完整性扫描和灰度确认之类的算法。另外,目前,IILS只能在胸部进行。未来的工作可能包括将设备应用于身体其他部位的图像。
总之,IILS的性能优于传统系统,并提供了一种比现有技术更经济、设计更合适的替代方法,以优化肺部结节的CT布局,节省费用和提高效率。由于基于自动AI的标准化电子胶片和可视化结构化报告生成,可能会在日常工作流程中建立一个新的标准和一个新的放射学工作流程,并且不需要一些相关的操作员。
为了提供一个可以引用的基准,我们在两个基准数据库上评估了我们的IILS的性能。正如预期的那样,我们得到了相对较高水平的假阳性,特别是LUNA16,因为在预测中,小尺寸的结节被视为假阳性。我们认为,设计的最优诊断模型通常是针对特定群体的,因为我们采用的所有训练图像都来自中国,而LUNA16数据库收集的数据集仅从美国中收集,且没有任何<3mm结节的标签。
综合而言,IILS提供了一种简单、准确的方法来检测、分类和布局肺结节的CT图像,以提高对中国人群的诊断。因此,IILS为人工智能的临床应用打开了新的窗口,可能是改善全球医疗质量不平衡的有效途径。