PublicationsAI論文(胃)早期胃がん検出の診断能力におけるAIと内視鏡医の比較検証2022/08/31

がん研有明病院・池之山洋平先生が『Digestive Endoscopy』誌(2020年)に発表した「早期胃がん検出の診断能力におけるAIと内視鏡医の比較検証」に関する研究です。

本論文はがん研有明病院平澤俊明先生の「世界初・胃がん拾い上げAI論文」で作成したAIを用いて検証を実施しました。

Detecting early gastric cancer: Comparison between the diagnostic ability of convolutional neural networks and endoscopists

はじめに

胃がんの早期発見は経験を積んだ内視鏡医にとっても難しく、見逃しが発生することがあります。
近年、畳み込みニューラルネットワーク注1)を用いたディープラーニング注2)を活用したAI注3)技術が消化器分野で飛躍的な進歩を遂げています。
しかしながら、AIが内視鏡医を上回ることができるかどうかは明らかになっていません。そこで本研究では、AIと内視鏡医の早期胃がんにおける検出能力を比較検証しました。

研究方法

2,639病変13,584枚の内視鏡画像を教師データとして活用し、機械学習を行ったAIを開発しました。検証画像(140症例2,940枚)を用いて、AIと内視鏡医67名の診断能力を比較検証しました。

結果

● 2,940枚の内視鏡画像の平均診断時間は、AIが45.5±1.8秒、内視鏡医が173.0分±66.0分でした。
● AIは感度58.4%、特異度87.3%、陽性的中率26.0%、陰性的中率96.5%でした。
● 内視鏡医67名は感度31.9%、特異度97.2%、陽性的中率46.2%、陰性的中率94.9%でした。
● AIの感度は内視鏡医より26.5%高い数値でした。

考察

AIは多くの早期胃がんの症例を内視鏡医よりも短時間で検出しました。より診断精度を向上させる必要がありますが、将来的にAIを用いた胃がんの診断支援ツールの実用化が期待されます。

※便宜上、本研究の「畳み込みニューラルネットワークを用いたディープラーニングを活用したAI」の表記を「AI」と統一しています。
なお、画像を検出するアルゴリズムとして、Single Shot MultiBox Detector注4)を使用しました。

注1)畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)
人間の脳の神経細胞ネットワークを模倣し、数理モデル化したものの組み合わせ。
注2)ディープラーニング
ニューラルネットワークの層を増やすことにより、画像認識などの処理性能を画期的に向上させた機械学習の一形態。
注3)AI(=artificial intelligence)
注4)Single Shot MultiBox Detector(=SSD)
機械学習を用いた一般物体検知のアルゴリズム。 深層学習の技術を使い、多種類の物体を高速で検知する。

研究方法

2,639病変13,584枚の内視鏡画像を教師データとして活用し、機械学習を行ったAIを開発しました。検証画像(140症例2,940枚)を用いて、AIと内視鏡医67名の診断結果を比較検証しました。

内視鏡医67名の内訳

● 専門医33名
● 非専門医34名

教師画像(2,639病変13,584枚)

● 内訳:早期胃がん10,474枚、進行胃がん3,110枚
● 対象画像:白色光(white-light imaging;以下、WLI)、インジゴカルミンを粘膜に散布した色素内視鏡、及び狭帯域光(Narrow-band imaging;以下、NBI)の画像
● 除外基準:空気注入が少ない、生検後の出血、ハレーション、ぼけ、焦点のずれ、粘液の多いものなど質の悪い画像

検証画像(140症例2,940枚)

● 内訳:大きさが20mm以下の早期胃がん75症例209枚、非腫瘍性病変2,731枚

    〇 胃がん症例の内訳
     ■ T1a:66病変、T1b:9病変
     ■ 腫瘍の大きさ:10mm(中央値)
     ■ H. pylori感染状態:既感染54例、現感染19例、未感染2例

● 画像の撮影パターン:1病変につき前庭部4枚、胃体部見下ろし8枚、胃体部反転8枚、穹窿部1枚の計21枚

    〇 除外基準:術後胃、色素内視鏡、NBIのような画像が強調されたものや質の悪い画像

画像毎の解析

● AIまたは内視鏡医の検出部分を示す矩形と正解を示す矩形が40%以上重なる場合を「正解」と定義

結果

AIと内視鏡医の検証結果および両者の比較

● AIは内視鏡医よりも診断時間が有意に短かった。
● AIは内視鏡医よりも感度が有意に高かった。また専門医グループと比較しても有意に高かった。
● AIは内視鏡医よりも特異度、陽性的中率が有意に低かった。陰性的中率に有意差はみられなかった。

AIの結果

● 診断速度(全体):45.5±1.8秒
● 診断速度(画像毎):0.0154秒
● 感度:58.4%
● 特異度:87.3%
● 陽性的中率:26.0%
● 陰性的中率:96.5%
● AUC値:0.757

全内視鏡医(67名)の結果

● 診断速度(全体):173.0±66.0分
● 診断速度(画像毎):3.53秒
● 感度:31.9%
● 特異度:97.2%
● 陽性的中率:46.2%
● 陰性的中率:94.9%

内視鏡医間(専門医と非専門医)での比較

専門医グループは、非専門医グループよりも感度及び陽性的中率が有意に高かった

専門医(33名)

● 診断速度(全体):172.9±68.4分
● 感度:37.2%
● 特異度:97.0%
● 陽性的中率:48.2%

非専門医(34名)

● 診断速度(全体):173.0±63.6分
● 感度:26.9%
● 特異度:97.4%
● 陽性的中率:43.8%

偽陽性あるいは偽陰性となってしまった原因

偽陽性

● AIと内視鏡医ともに胃炎を癌と判断してしまったケースが最も多かった(AI:54.8%、内視鏡医:73.5%)
● AIは噴門や胃角部、幽門などの正常構造を胃がんと判断するケースがみられた(22.8%)。内視鏡医が正常構造を胃がんと判断するケースはなかった。

偽陰性

● AIは小さな病変(直径10mm以下)を見逃すケースが最も多かった(57.5%)。
● 内視鏡医はinflammation-likeを見逃すケースが最も多かった(49.6%)。小さな病変(直径10mm以下)の割合は比較的少なかった(16.3%)

考察

AIは多くの早期胃がんの症例を内視鏡医よりも短時間で検出しました。
より診断精度を向上させる必要がありますが、将来的にAIを用いた胃がんの診断支援ツールの実用化が期待されます。