Article Detail

産総研など、高い精度で誤発見の確率を示す検定値を計算するアルゴリズムを開発

ビッグデータから新たな科学的発見をもたらす統計手法を開発

＜ポイント＞
　・ビッグデータからの科学的発見のためには、正確な検定値（P値）の算出が必要。
　・超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。
　・物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。

　JST　課題達成型基礎研究の一環として、産業技術総合研究所　生命情報工学研究センター（http://www.cbrc.jp/index.ja.html）の津田　宏治　主任研究員（JST　ERATO「湊離散構造処理系プロジェクト」グループリーダー）、東京工業大学　大学院情報理工学研究科　計算工学専攻の瀬々　潤　准教授、理化学研究所　統合生命医科学研究センターの岡田　眞里子　チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値（P値（※））を計算するアルゴリズム（手順）を開発しました。

　自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる対象が増えれば増えるほど、発見の基準を厳しくしなくてはなりません。その結果、観測対象が増えたのに、科学的発見が減るという奇妙な現象「ビッグデータのパラドックス」が起きる場合があります。特に、複合的な組み合せ因子に対して極めて保守的な検定値（P値）を出すことが多く、有意義な実験結果が不当に低く評価されることがありました。

　本研究グループでは、超高速アルゴリズム（※）の技法を用いて、従来法より、格段に精度の高いP値を算出する新手法を開発しました。この手法を、乳がん細胞株の増殖・分化に関与している転写因子の研究に利用したところ、既存の遺伝子発現データから新たな組み合わせ因子を発見することに成功しました。

　開発した手法を用いれば、これまで見過ごされてきた組み合わせ因子の発見が可能になります。本成果は、物理学、医学、化学など、全ての実験科学に貢献するものであり、今後世界中で広く利用されることが期待されます。

　本研究成果は、米国科学雑誌「米国科学アカデミー紀要（PNAS）」のオンライン速報版で２０１３年７月２２日（米国東部時間）の週に公開されます。

　本成果は、以下の事業・研究領域・研究課題によって得られました。

　戦略的創造研究推進事業　ERATO型研究
　　研究プロジェクト：「湊離散構造処理系プロジェクト」
　　研究総括：湊　真一（北海道大学　大学院情報科学研究科　教授）
　　グループリーダー：津田　宏治（産業技術総合研究所　生命情報工学研究センター　主任研究員）
　　研究期間：平成２１年度〜平成２６年度

　上記研究課題では、超高速アルゴリズムを用いて、実問題を短時間に効率よく処理する技術基盤の構築を目指します。

＜研究の背景と経緯＞

　自然科学では新しい現象を見つけたとき、系のゆらぎや観測のあいまいさを考慮した上で、その結果の信頼性を担保する必要があります。科学データの解析において、この信頼性担保には、統計検定が欠かせません（図１）。統計検定では、誤発見の確率を示す検定値（P値）が計算され、あるしきい値（一般には、０．０５）以下の場合にのみ、信頼しうる科学的発見として認められ、論文に記すことができます。

　観測できる対象（例：DNAの変異）が増えると、誤発見の確率も高くなります。誤発見を避けるには、対象数が増えれば増えるほど、発見の基準を厳しくしなくてはなりません。一般的な多重検定法（※）では、P値に大きな補正係数を掛けて（補正P値）、それでも０．０５以下の場合のみ発見とみなします（図２）。最もシンプルでよく用いられるボンフェローニ法（※）では、n個の対象があれば、P値にnを掛けて補正し、それでも０．０５以内であれば、発見として認めます。その結果、観測対象が増えたのに、科学的発見が減るという奇妙な現象「ビッグデータのパラドックス」が起きる場合があります。

　特に、複合的な組み合わせ因子を考えると（図３）、対象数nが爆発的に大きくなるため、ほぼ発見は不可能となってしまいます。このため、細胞のiPS化を引き起こす４つの転写因子などに見られる組み合わせ因子を、データから見つけ出すことは困難でした。

＜研究の内容＞

　本研究では、従来よりも格段に正確な補正P値を計算できるアルゴリズムLAMP（Limitless−Arity　Multiple　testing　Procedure、無限次数多重検定法）を開発しました。LAMPでは、出現頻度の低い組み合わせは誤発見率を変化させないという数理的性質に注目し、超高速アルゴリズムを用いて無為な出現頻度の低い組み合わせを特定し取り除くことによって、補正係数を大幅に削減しています。またLAMPでは通常のボンフェローニ法と比べて、統計的な検定の精度を保ったままで、補正係数を十分に低くすることができます。この手法を用いて、ヒトの乳がん細胞株の遺伝子発現データを再解析したところ、これまで見過ごされてきた、最大８個の転写因子の組み合わせが乳がん細胞の増殖に関与していることを発見できました。

　出現頻度の低い組み合わせが誤発見率を変化させないという事実は、１９９０年に米国のタローネによって明らかになっていましたが、アルゴリズムを用いて、それらを実際に数えあげて、生命科学データに適用したのは世界初です。生命科学で広く用いられているFDR（※）による方法では、誤発見率については妥協することで、発見力を高めていますが、この手法ではそのような妥協をせず、アルゴリズムのみによって発見力を大幅に高めることに成功しました。

＜今後の展開＞

　本成果により、転写因子の組み合わせ効果の研究をはじめ、複数の遺伝子が原因となっている疾患の同定や多数の部位が関わる脳の高次機能の解明など、複合要因に起因する現象の解明が加速されることが期待されます。さらに、複数の薬剤を組み合わせた創薬、多数の項目からなるアンケートの分析など、広く自然科学から社会科学分野の実験結果の評価に影響を及ぼすと考えられます。

※参考図・用語の説明などは、添付の関連資料を参照

この記事に関連するキーワード

東京工業大学パラドックス北海道大学自然科学情報工学

Article Detail

産総研など、高い精度で誤発見の確率を示す検定値を計算するアルゴリズムを開発

Related Contents