医疗新突破：罕见疾病的影像数据集增强，准确率大幅提升

AI 特别是深度学习在提升医疗诊断的速度和准确率上拥有相当的潜力，但在临床医师可以驾驭 AI 的能力识别医学图像（例如 X 射线影像）中反映的疾病之前，他们需要先对模型进行大量训练，而罕见疾病标记图像的匮乏一直是深度学习医疗的一大障碍。

现在，多伦多大学教授 Shahrokh Valaee 和他的团队设计了一种 AI 医疗领域中的新方法：使用生成对抗网络创建的 X 射线影像来增强 AI 训练集。实验表明，通过数据增强，无论对常见疾病还是罕见疾病，系统的识别准确率都有大幅提高。

Shahrokh Valaee 教授和博士生 Hojjat Salehinejad 正在使用机器学习创建虚拟 X 射线胸透影像来训练 AI 系统识别罕见疾病。摄影：Jess MacInnis

由于以监督学习方式训练 AI 系统的医学图像非常稀少，识别医学图像中的罕见疾病对于研究者而言一直是很有挑战的问题。

Shahrokh Valaee 教授和他的团队设计了一种新方法：使用机器学习创建计算机生成的 X 射线影像以增强 AI 的训练集。

在每个象限的左侧是一张真实的病人 X 射线胸透影像，其旁边是由 DCGAN 生成的合成 X 射线影像。在 X 射线影像的下方是对应的热图，是机器学习系统观察影像后得到的。图源：Hojjat Salehinejad/MIMLab

“在某种意义上，我们在使用机器学习来做机器学习，”多伦多大学 Edward S. Rogers 高级电气与计算机工程系（ECE）教授 Valaee 说。“我们正在创建模拟的但反映了特定罕见疾病的 X 射线影像，从而我们可以将它们和真实 X 射线影像结合起来，以得到足够规模的数据库，来训练神经网络在其它 X 射线影像上识别这些疾病。”

Valaee 是医学实验室机器智能（MIMLab）的成员，MIMLab 是一个由医师、科学家和工程研究员组成的团队，致力于将他们的专业知识结合到图像处理、人工智能和医学中以解决医学挑战。“AI 在医疗领域中有无数种方式能提供帮助，”Valaee 说，“为此我们需要大量数据。但对于某些罕见疾病，并没有让这些系统正常工作而必要的数千张标记图像。”

为了创建这些人工 X 射线影像，该团队使用了称为深度卷积生成对抗网络（DCGAN）的 AI 技术，来生成和不断提升模拟图像。GAN 是一类由两个网络构成的算法：一个网络生成图像，另一个尝试将合成图像和真实图像区分开来（判别器）。这两个网络被持续训练直到判别器无法将合成图像和真实图像区分。一旦创建了足够多的人工 X 射线影像，它们就和真实 X 射线影像结合起来以训练一个深度卷积神经网络（即分类器），然后该分类器用于对其它图像进行诊断（正常或有疾病）。

“我们的实验表明，由 DCGAN 生成的人工数据可以用于增强真实数据集，”Valaee 说。“这为我们提供了更多的训练数据，并提升了这些系统在识别罕见疾病上的性能。”

MIMLab 将用增强数据集获得的识别准确率和原始数据集获得的准确率进行对比，发现对于常见疾病，其识别准确率提高了 20%。对于某些罕见疾病，准确率提高了约 40%，并且由于合成的 X 射线影像不是源于真实的个体，该数据集可以轻易地提供给医院外的研究者，而不会侵犯个人隐私。

“这实在令人激动，通过证实这些增强数据集帮助提高了分类准确率，我们已经可以克服将人工智能应用到医疗中的一大障碍，”Valaee 说。“深度学习仅当训练数据足够多的时候才有效，而数据增强是可以确保神经网络能以高精度分类图像的一种方式。”

（END）

杭州市卫生信息中心

微信号：zjhzhic