本文へジャンプ

ヘルスケア / ライフサイエンス > ソリューション・コラム > 

ソリューション・コラム

肝臓医療に貢献したデータ・マイニング。患者の余命とインターフェロンの有効性を判定

医療の研究でもデータ・マイニングが、大きな成果を上げるようになりました。独立行政法人国立病院機構長崎医療センターの八橋弘部長は2003年5月に、13年間蓄積した医療データを分析し、肝臓疾患の患者の余命を80%以上の確率で判定する手法を実用化しました。さらに、同様の手法でインターフェロンが効く患者かどうかも判定できる段階に入っています。データ・マイニングは流通業や金融業では、1990年代の初期から利用されてきましたが、医学の世界で有効に応用された例はほとんどありません。同医療センターは1989年に電子カルテに取り組み、約77万件の肝臓病の患者の医療データと血液データを蓄積していました。八橋部長の発見は、電子カルテのデータの活用法と他の疾患の医療への応用可能性の両面で、注目できる内容です。


八橋 弘 部長

独立行政法人国立病院
機構長崎医療センター
臨床研究センター
治療研究部

八橋 弘 部長

九州は、C 型肝炎など肝臓疾患の患者が多い地域です。かつては海軍病院だった独立行政法人国立病院機構長崎医療センターは、肝臓病専門の病床が90あり20人以上の専門スタッフが常勤していて、肝臓病だけで1年間に約7,000人の患者が西日本全域から訪れます。20年ほど前に肝臓病の医療と臨床研究に関する日本の基幹病院(現在は、準ナショナルセンター)に指定され、長崎空港に近い同医療センターは2000年に改築され、ゲノム解析など最先端の研究設備を備えています。また、全国22カ所ある国立の肝疾患の医療機関からのデータをまとめて、臨床研究に役立てる国立病院・療養所肝疾患ネットワーク(L-net)でも、中心的な役割を担っています。



電子カルテとデータ・マイニング
肝臓病患者の余命判定
インターフェロンが効く人を見分ける



電子カルテとデータ・マイニング

独立行政法人国立病院機構長崎医療センターでは、診療記録をデジタル・データで残せるように、1989年に電子カルテを導入しました。臨床研究センター治療研究部の八橋弘部長は、このプロジェクトを通じてITと関わるようになり、患者の血液の自動分析機のデータを電子カルテに蓄積できるようにしました。「肝臓病は慢性の病気ですので、ひとりの患者さんと10年以上つき合うことになります。従って、その人の電子カルテに蓄積されるデータも、膨大な量になります。年間700人ほどの方が入院されますが、13年間で8,000人の入院患者のデータが蓄積されていました」。

八橋部長はこの入院患者の内456人が、この病院で亡くなっていることから、データ・マイニングで余命判定に役立つ因子を調べることにしました。八橋部長は「データ・マイニングは統計解析と異なり、コンピュータの能力を持ってしかできません。統計解析は仮説を立ててイエスかノーの結果を得ますが、データ量が膨大ですと手に負えなくなります」と語っています。

データ・マイニングは流通業や金融業で利用されてきた、膨大なデータの中に潜む法則を高性能コンピュータで探索する手法です。統計解析が限られたサンプルから仮説を検証するのに対し、データ・マイニングは膨大なデータに対して、因子を分類したり相関関係や時系列パターンを導き出すアルゴリズムを適用します。流通業では消費者の購買パターンを分析する「買い物かご分析」、金融業では顧客のセグメンテーションなどにデータ・マイニングを活用しています。IBMがデータ・マイニング・ソフトウェアのIntelligent Minerを発売したのは1996年ですが、IBMリサーチのラメシュ・アガワルが開発した相関分析アルゴリズムは、1980年代末から小売業の「買い物かご分析」だけでなく遺伝子やタンパク質の解析にも利用されています。

八橋部長はデータ・マイニングの決定木(decision tree)という手法を用いて、余命の判定に関わる因子を分類することにしました。「死亡したという、動かし難い事実を起点にして、客観的に判断しやすい死亡予測モデルをつくることを目標にしました」。

八橋部長は厚生労働省のデータ・マイニング研究班の一員として、医学の領域でまだ認知されていないこの手法の有効性を、誰にも判りやすい例で示す必要性を感じていました。決定木は因子となるデータ項目の値を目安にして、イエスとノーで患者のタイプを木の根のように細分化して、視覚的に判りやすい図を描きます。

決定木はデータ・マイニングの代表的な分析手法で、クラス判別回帰ツリー(classi-cation and regressiontrees)とも呼ばれています。健康診断では、血圧や血糖値など病気の判定の基礎となる一連の診断項目の値から、その人が病気か健康か判定します。クラス判別は、このような値を判別するモデルから、新しいデータ項目の分類モデルを自動的に作成して、その信頼性を検証します。

同医療センターで亡くなられた肝臓病患者は、男性325人、女性131人の合計456名でした。これらの患者のデータは最初に診断した日から亡くなる日まで血液採取のデータが残っています。この456人分の電子カルテには217のデータ項目があり、採血した回数を掛けると、769,697件のデータがありました。八橋部長は「日本IBMのデータマイニングのアナリストの協力を得て、松本武浩情報推進研究室長とともに、このデータを解析し、がんと診断されてから1年以上生きられるか判定するアルゴリズムをつくり、データ・マイニングを行うスタート地点に立ちました」と語っています。


次へ進む
上に戻る

ソリューション・コラム
目次一覧