Article Detail
理研、継続的更新に対応する細胞−遺伝子活性データベース「FANTOM5 SSTAR」を開発
継続的更新に対応する細胞−遺伝子活性データベース
−増え続ける遺伝子制御解析情報をWeb上で簡単に参照−
■要旨
理化学研究所(理研)ライフサイエンス技術基盤研究センター機能性ゲノム解析部門大容量データ管理技術開発ユニットのイマド・アブケセーサ研究員、粕川雄也ユニットリーダー、予防医療・診断技術開発プログラムの川路英哉コーディネーター(情報基盤センター予防医療・ゲノミクス応用開発ユニット ユニットリーダー)らの共同研究チームは、RNAとして転写される遺伝子領域の活性や制御に関する情報を容易に検索可能で、データの維持・更新を低コストで行うことができるデータベース「FANTOM5 SSTAR(ファントム5 スター)」を開発しました。
ヒトの体を構成する細胞は多種多様であり、活性化される遺伝子のパターンと、その結果として生成される細胞内のRNAの種類と量は細胞ごとに異なります。理研が主宰する国際コンソーシアム「FANTOM[1]」の5期目のプロジェクト「FANTOM5」では、あらゆる細胞の転写状態を明らかにするための研究が進められてきました。2014年にFANTOM5の最初の成果が発表(注1)された後も、さまざまな角度からの解析が次々に行われ(注2)、有用な測定結果や解析結果が蓄積されてきました。しかし、研究データの蓄積に合わせて柔軟かつ継続的に更新をしながら、これらの結果を一覧し、必要な情報を容易に参照できるようにすることが課題となっていました。
共同研究チームは、FANTOM5とそれに関連する研究で得られた測定結果や解析結果を容易に検索・参照するため、データベース「FANTOM5 SSTAR」を開発し、2014年3月に公開しました(注3)。膨大なデータを扱いつつ頻繁な更新に対応するために、根幹となるシステムとしてオープンソース・ソフトウェアであるSemantic MediaWiki(SMW)[2]を採用しました。SMWは広く利用されているWikiPediaのシステムと同様の構造を持ち、利用者は特別な操作を覚えることなくデータを直感的に検索・参照したりすることができます。また、SMWが備える柔軟性を活用することで、システム更新を伴わずに新たな解析データの追加が可能になるなど、データベースの維持・更新コストを低減できます。
ヒトとマウスの細胞の転写状態や、プロモーター活性[3]のデータを探索・参照することができるデータベースシステムは、哺乳類細胞を用いた基礎研究に留まらず、医療、創薬、疾患などを対象とした生命科学分野での活用が期待できます。また、本開発は、常に進歩を続ける研究結果を格納するデータベースを開発する新しい手法として、幅広い分野で応用されることが期待できます。
本研究は、英国の科学雑誌『Database』オンライン版(7月12日付け)に掲載されました。
注1)2014年3月27日プレスリリース「ゲノム上の遺伝子制御部位の活性を測定し正常細胞の状態を定義(http://www.riken.jp/pr/press/2014/20140327_1/)」
注2)2015年2月13日プレスリリース「遺伝子制御部位の活性はエンハンサーが先行(http://www.riken.jp/pr/press/2015/20150213_2/)」
注3)データベースFANTOM5 SSTAR(http://fantom.gsc.riken.jp/5/sstar/)
■背景
ヒトの体を構成する細胞には、皮膚細胞、神経細胞などさまざまな種類があり、その種類は数百種といわれています。細胞の種類や状態が異なれば、ゲノムのどの遺伝子からどのようなRNAが、どの程度転写されているかといった転写状態も異なります。理研が主宰する国際コンソーシアム「FANTOM」は、ゲノムDNAから転写されるRNAの機能をカタログ化することを目的に2000年に発足しました。その5期目のプロジェクトとなるFANTOM5では、さまざまな哺乳類細胞のゲノム上の遺伝子制御部位の活性を測定し、転写状態やプロモーター活性の全容を明らかにする研究が進められてきました。
その結果、初代培養細胞[4]、組織由来細胞、がん由来細胞株や、刺激による細胞種の変化や組織発生を時系列で追跡したサンプルを含む約1,800個のヒトサンプルと約1,000個のマウスサンプルについて、ゲノム中のプロモーター領域の活性量を網羅的に測定した結果が得られました。さらに、これらの測定結果は国際共同研究の参画メンバーによりさまざまな方法で解析され、研究成果として発表されています。
このFANTOM5プロジェクトの中で得られたデータは多岐にわたります。例えば、転写されたRNAの転写開始点領域を網羅的に同定するためのCAGE法[5]によって得られたDNA配列データ、DNA配列がゲノム上のどの位置と照合するかを示したマッピング解析結果のデータ、同定されたプロモーター領域やエンハンサー領域[6]のゲノム上の位置ならびにその活性量データなどの基本データ群です。また、これらの測定データを解析して得られた、プロモーター領域やエンハンサー領域に結合する転写因子[7]、転写因子が結合する予測DNA配列などの解析データ群や、実験に用いた細胞の情報や遺伝子機能情報などのデータもあります。これらのデータを深く理解するためには、研究者が参照しやすいようにまとめられたデータベースが必要不可欠でした。
■研究手法と成果
共同研究チームは、FANTOM5プロジェクトで得られたデータを探索し、参照するためのデータベース「FANTOM5 SSTAR(Semantic catalog of Samples,Transcription initiation And Regulators)」を開発しました。
研究成果を格納するデータベースを開発する上で、重要な課題がいくつか存在します。特にFANTOM5のように大規模なデータをさまざまな角度から解析するプロジェクトでは、データ量の増加に加え、研究が進行するにつれて測定データや解析結果が順次追加されていくことへの対応が必要です。次々に現れる新しい意味を持つデータを追加する場合、通常のデータベースの構築法ではその根幹部分の拡張や更新を含む大きな変更が必要になります。そこで共同研究チームは、データベースの根幹となるシステムにSemantic MediaWiki(SMW)というオープンソースのシステムを用いることで問題の解決できると考えました。SMWは、オンラインの辞典で有名なWikiPedia(ウィキペディア)など世界中で広く利用されているMediaWikiシステムをベースに拡張されたシステムです。両システムとも世界中のボランティアによって開発されています。
FANTOM5 SSTARでは、研究データがSMWの機能によって保持されており、特定のトピックに関連する一群のデータを1ページ内に整形して表示できるよう設定されています(図1)。例えば、遺伝子ごとに設定されたページを参照すれば、その遺伝子に関して得られたさまざまな研究解析結果を閲覧することが可能です。SMWは広く利用されているWikiPediaと同様の構造を持つことから、利用者は特別な操作を覚えることなくデータを直感的に検索・参照できます。さらに、研究チームが新たに開発した追加プログラムによって、閲覧者がデータを精査しやすくする工夫もされています。データベースシステムの構築や維持管理の観点からは、SMWが備える柔軟性を活用することでシステム更新を伴わずに新しい意味を持つ解析データを追加できるようになったこと、そしてシステムを独自設計した場合と比べるとソフトウェア維持コストを削減できたことが大きなポイントです。活発かつ多様な研究活動支援に有効な、柔軟性を備えながらもデータの維持・更新を低コストで行う開発モデルとして位置づけることができます。
■今後の期待
FANTOM5 SSTARはインターネット上で公開されており、研究者に限らず誰でも自由に利用することができます。FANTOM5で得られたさまざまな細胞の転写状態やプロモーター活性のデータを探索・参照することができるデータベースシステムは、哺乳類細胞を用いた基礎研究に留まらず、医療、創薬、疾患などを対象とした応用研究への活用が期待されます。
さらにデータベースの活用・開発技術という観点では、データ形式や内容自体が頻繁に更新されるような研究を支援する新しいデータベース開発モデルとして今後の利用が期待されます。
■原論文情報
・Imad Abugessaisa,Hisashi Shimoji,Serkan Sahin,Atsushi Kondo,Jayson Harshbarger,Marina Lizio,Yoshihide Hayashizaki,Piero Carninci,The FANTOM consortium,Alistair Forrest,Takeya Kasukawa,and Hideya Kawaji,“FANTOM5 transcriptome catalogue of cellular states based on Semantic MediaWiki”,Database(Oxford University Press),doi:10.1093/database/baw105(http://dx.doi.org/10.1093/database/baw105)
■発表者
理化学研究所
ライフサイエンス技術基盤研究センター(http://www.riken.jp/research/labs/clst/)機能性ゲノム解析部門(http://www.riken.jp/research/labs/clst/)LSA要素技術研究グループ(http://www.riken.jp/research/labs/clst/genom_tech/life_sci_accel/)大容量データ管理技術開発ユニット(http://www.riken.jp/research/labs/clst/genom_tech/life_sci_accel/large_scale_data/)
研究員 イマド・アブケセーサ(Imad Abugessaisa)
ユニットリーダー 粕川 雄也(かすかわ たけや)
予防医療・診断技術開発プログラム(http://www.riken.jp/research/labs/pmi/)
コーディネーター 川路 英哉(かわじ ひでや)
(情報基盤センター(http://www.riken.jp/research/labs/accc/)予防医療・ゲノミクス応用開発ユニット(http://www.riken.jp/research/labs/accc/prev_med_app_genom/)ユニットリーダー)
(ライフサイエンス技術基盤研究センター 機能性ゲノム解析部門 ゲノム情報解析チーム 上級研究員)
■補足説明
1.FANTOM
理化学研究所が中心となり、約20カ国、114の研究機関が参加する国際研究コンソーシアム。理研のマウスゲノム百科事典プロジェクトで収集された完全長cDNAの機能注釈(アノテーション)を行うことを目的に、理研ゲノム科学総合研究センターの林崎良英グループディレクター(現、理研予防医療・診断開発プログラム プログラムディレクター)が中心となり2000年に結成された。役割は、トランスクリプトーム(転写産物)解析の分野を軸に発展・拡大してきた。また、プロジェクトの研究対象は、ゲノムの転写産物という「要素」の理解から、転写制御ネットワークという「システム」つまり「生命体のシステム」の理解へと発展し、知見を基礎・応用の両面で有用なリソースとして公開している。同時に、医療への応用の基礎となること目指している。FANTOMは2015年まで5期にわたって活動し、その成果はiPS細胞(人工多能性幹細胞)の樹立研究など、生命科学に多大な貢献をしてきた。現在は6期目のプロジェクトが進行している。FANTOMは、Functional ANnoTation Of Mammalian genomeの略。
FANTOM(http://fantom.gsc.riken.jp/)
2.Semantic MediaWiki
WikiPedia(ウィキペディア)などで利用されているMediaWikiシステムを拡張し、記述やデータの「意味」も格納できるようにしたシステム。世界中のボランティアによって開発されている。
Semantic MediaWiki(https://www.semantic-mediawiki.org/)
3.プロモーター活性
ゲノムDNA上でRNAに書き写される領域の近くにあり、遺伝子を発現させる機能を持つ部分をプロモーター領域(配列)という。プロモーターから転写されたRNA量の測定値は、プロモーター活性化の指標となる。
4.初代培養細胞
生体から採取した組織や細胞を最初に培養した段階の細胞。細胞株のようにがん化していないため、生体内の正常細胞に近い転写状態を調べられる。
5.CAGE法
RNAの転写開始点の位置と活性量を、網羅的かつ定量的に測定するために開発された理研独自技術。RNAの5"端を網羅的に収集し、この配列をシーケンサーで決定、ゲノム配列と照合する。
6.エンハンサー活性
主に遺伝子の上流や下流に位置し、遺伝子の転写効率を変化させるDNAの特定の配列のうち、転写効率を著しく高める部分をエンハンサー領域(配列)という。エンハンサーから転写されたRNA量の測定値は、エンハンサーが活性化している指標となる。
7.転写因子
DNAに配列特異的に結合するタンパク質で、プロモーターやエンハンサーといった転写制御領域に結合し、RNAポリメラーゼによる遺伝子の転写を活性化あるいは不活性化する。
※図1は添付の関連資料を参照