AI技術のブームと共に、創薬の分野でもAI技術への関心が高まっています。典型的な知的集約産業である創薬の分野においても、いずれAIやロボットが創薬をする時代が訪れるのでしょうか。製薬企業から受け入れている社会人学生（浅見俊さん、佐藤敦子さん）と共に、この課題にチャレンジしています。

研究目標

AI技術を用いた創薬の可能性の探索

背景

AIシステムがクイズ王になったり、将棋や碁でプロ棋士を倒す時代が到来し、産業界の様々な分野でAI技術への関心が高まりつつある。創薬の分野でもAI技術に関心を持つ製薬企業とIT企業がコンソーシアムを結成するなど、創薬プロセスへのAI技術の実用化が着々と進められつつある。また、アカデミックにおいても、AI創薬に関連する講演会や特集号が組まれるなどまさに時流のテーマとなっている。しかしながら、現時点においては、利用できるAI技術と創薬のギャップは大きく、できることとやりたいことのギャップを埋めるための努力が創薬研究者（事業者）とAI研究者（事業者）の双方に求めらているのが実情である。小長谷研究室では、AI創薬を機械学習応用、結果解釈支援、外れ値（レア事象）探索支援技術の観点から研究を推進している。

研究テーマ

機械学習応用
結果解釈支援
外れ値（レア事象）探索

機械学習応用

AI技術の中で現在もっとも実用化されている技術がSVM、RF、深層学習などの「機械学習アルゴリズム」である。極端な言い方をすれば、現在のAIブームは「人工知能(AI)」でもなんでもなく、「単に計算機が速くなったことと機械学習アルゴリズムの工夫により大量データからの規則抽出がうまくできるようになっただけである」、と言えなくもない。実際、創薬プロセスの様々な場面で機械学習アルゴリズムは大活躍する。小長谷研究室でも、hERGの毒性を予測するmolecular descriptorの特徴選択[Mungkalaton2017]やMD計算の初期値構造選択[Sato2017]において機械学習を活用する研究を進めている。

結果解釈支援

大量のデータに対して機械学習アルゴリズムを適用すれば何かしらの計算結果が得られるが、その結果が正しいかどうか、あるいはその結果に意味があるかどうかを判断するためには、その事象に対する専門知識が不可欠である。AI創薬における創薬研究者とAI研究者のギャップはまさにここにあると言っても過言ではない。IBMのWATSONなどはその良い例であるが、AI研究の一つの方向性は、専門家の知識をいかにして計算機上で表現するか、文献やWEB情報から専門知識をいかにして抽出するかにある。バイオ情報およびメディカル情報に関しては、膨大な公共データベース、文献データベース、バイオメディカルオントロジー、さらにこれらを結合して検索するためのLinked Open Dataがすでに整備されている。、公共情報を活用して、実験結果や計算結果の解釈を支援するAIシステムを作ることは十分可能と考えている。小長谷研究室でも、極めて初歩的な段階ではあるが、LODの知識を利用して薬物の添付文書に現れる専門用語の意味を付与するシステムを試作した[渡邊2017]。また、個人個人の薬物投与の実験結果をCluster Newton Methodで求めた薬物動態モデル（PBPKモデル）の未知パラメタの分布から解釈する研究を進めている[Asami2017]。

外れ値（レア事象）探索

10の60億個という星の数より多い膨大な小分子のケミカルスペースから、実際に承認される医薬品の数は毎年高々数十程度である。ハイスループットスクリーニングで利用される化合物データベースに登録されている化合物は数十万個から数百万個、この中から非臨床まで進む化合物は数百個程度と言われている。だからこそ、医薬品は高付加価値を生み、創薬が知的集約産業といわれる所以である。一昔前であれば、１ペタフロップスのスパコンが動けばインシリコ創薬で簡単に医薬品を見つけることができる、とか、ヒトゲノム配列が解読できればゲノム創薬で創薬ターゲットが簡単に見つかると言われていたが、どちらも実現しなかった。その最大の理由は化合物それぞれの事情があり、一つの指標で創薬の良し悪しを図ることが困難なことにある。例えば、創薬においては、標的分子とリガンド分子の結合エネルギーの強さが一つの指標となるが、必ずしも、最大の強さを持つリガンド分子が医薬品として最適とは限らない。また、標的分子も必ずしも一種類とは限らず、複数の標的分子の相乗効果によって医薬品の効果が現われている化合物もある。単純な規則や指標で創薬となる化合物を規定することができないから、創薬研究者は対象となる標的分子とリガンドに関するありとあらゆる知識と経験を総動員して、対象化合物を絞り込んでゆくわけである。逆にいうと、創薬研究者のこの発想を計算機上に表現することができたとき、「真のAI創薬」が始まると考えている。残念ながら、小長谷研究室ではまだこのテーマに着手できていない。興味ある共同研究者がおられれば連絡願います。

研究発表

Shun Asami, Daisuke Kiga, Akihiko Konagaya: Constraint-based Perturvation Analysis with Cluster Newton Method : A Case Study of Personalized Parameter Estimations with Irinotecan Whole-Body Physiologically Based Pharmacokinetic Model, BMC Systems Biology, Vol.11 (Suppl 7): 129 (2017).
DOI: 10.1186/s12918-017-0513-2
渡邊健太：セマンティックネットワークを活用した医薬文書理解システムの構築, 人工知能学会分子生物情報(SIG-MBI研究会), 北陸先端大，2017年3月24日
渡邊健太：PROLOQL Extension：LODを利用した文書理解補助システム, LOD(Linked Open Data）チャレンジ2016, 東大本郷キャンパス, 2016年3月11日

論文

小長谷明彦: 特集「AI 創薬の可能性について」の企画にあたって(その２), 日本化学会情報化学部会誌, Vol. 35 (2017) No. 3,10月号 p. 198-.
DOI:10.11546/cicsj.35.198
Shun Asami, Daisuke Kiga, Akihiko Konagaya: Constraint-based Perturvation Analysis with Cluster Newton Method : A Case Study of Personalized Parameter Estimations with Irinotecan Whole-Body Physiologically Based Pharmacokinetic Model, BMC Systems Biology InCoB2017 issue (to appear).
Norwich Mungkalaton, Computational framework for the classification of hERG potassium channel blockers, Master Thesis of Tokyo Institute of Technology, 2017
小長谷明彦: 巻頭言　特集「AI 創薬の可能性について」の企画にあたって, 日本化学会情報化学部会誌, Vol. 35 (2017) No. 2 July p. 156-157.
DOI:10.11546/cicsj.35.156
渡邊健太, 小長谷明彦: セマンティックウェブを活用した医薬文書理解支援システムの構築, 日本化学会情報化学部会誌, Vol. 35 (2017) No. 2 July p. 180-185.
DOI:10.11546/cicsj.35.180
Atsuko Sato, Hitomi Yuki, Chiduru Watanabe, Jun-ichi Saito, Akihiko Konagaya, Teruki Honma: Prediction of the site of CYP3A4 metabolism of tolterodine by molecular dynamics simulation from multiple initial structures of the CYP3A4-tolterodine complex, Chem-Bio Informatics Journal, 17, 38-52 (2017).
DOI: 10.1273/cbij.17.38