2016年6月23日木曜日

マススペクトルの正規表現

以前、理化学研究所時代に、標準化合物のMS/MSスペクトルデータを取得し、MassBankから公開したことがありました(PR1シリーズ)。さらに植物二次代謝物の文献MS/MSデータを入力し、澤田さんらと共同でReSpect for Phytochemicalsというデータベースとして公開しました。その過程で、いろんな化合物のMS/MSを見て、いろいろ思うところがあったのですが、構造が類似した化合物のMS/MSスペクトラムには、共通のパターンがあることがある。という事実をもう少し活用できないのか。という点がずっと引っかかっておりました。
また、恩師の上野民夫先生(京都大学名誉教授)からは、「マスは重さしかわからないから、マスだけで構造は決められないけど、重さが決まるのがすごいんや」と薫陶をうけてきた身としては、MS/MSスペクトルからの構造推定を"Small molecule identification"と呼ぶインフォマティクスの皆さんの感覚に、ものすごく違和感がありなんか違うアプローチがないものかといろいろ考えていた結果を今回論文にまとめることができました。

F. Matsuda. Regular expressions of MS/MS spectra for partial annotation of metabolite features. Metabolomics (2016) 12:113

例えばMassBankレコードのPeonidin-3-O-α-arabinoside (PR100453)のMS/MSスペクトルデータを数字で書くと

PK$PEAK:
m/z int. rel.int.
258.0558 810 2113
286.0496 2159 301
301.0719 7171 999
433.1134 1231 171
//



となりますが、強度値を無視して無理やり文字列にすると

C14H10O5:C14H10O5;C1O1:C15H10O6;C1H3:C16H13O6;C5H8O4:C21H21O10;

とも書けます。[ニュートラルロスの化学式]:[フラグメントイオンの化学式];の繰り返しです。
文字列といえば正規表現ですよね。そうすると、peonidin-pentosideのヒドロキシル化 or メチル化orメトキシ化物にマッチする正規表現は、

(C14H10O5|C14H10O6|C15H12O5|C15H12O6):([CHONS][0-9]*)+;(C1O1|C1O2|C2H2O1|C2H2O2):([CHONS][0-9]*)+;(C1H3|C1H3O1|C2H5|C2H5O1):([CHONS][0-9]*)+;(C6H10O5|C6H10O6|C7H12O5|C7H12O6):([CHONS][0-9])+;

となるんじゃないか、とかChEBIではflavone C-glycosideという化合物群にオントロジーとしてCHEBI:83280というIDを振っています。そこで、flavone C-glycosideの1グループである、trihydroxyflavone-C-hexosideの特徴的なフラグメントパターンを

C16H11O5;C1H2O1:([CHONS][0-9]*)+;C2:([CHONS][0-9]*)+;C2H8O4:([CHONS][0-9]*)+;

という正規表現で定義することができそうです。次にある代謝物のMS/MSスペクトルに、この正規表現にマッチすれば、その代謝物はCHEBI:83280 (flavone C-glycoside)というIDを持った化合物として”部分”構造決定ができるんじゃないかなー。などのアイデアが展開されていますのでその筋の方はぜひご覧ください。

本研究では西岡孝明先生(京都大学名誉教授)、有田正規先生(遺伝学研究所)、尾嶌雄也氏(MassBank)が作成されたfragment ion and neutral loss matrixデータが極めて重要な役割を果たしました。改めて心より御礼もうしあげます。また澤田有司博士、山田豊氏 (理化学研究所生物資源研究所)、櫻井望博士、秋元奈弓博士(かずさDNA研究所)の皆さんにはデータベース化および研究に関する貴重なご助言をいただきました。ありがとうございました。

個人的には研究者人生で一度は単著論文が書けてヤターというのはナイショであります。