Skip to content

BioHackathon 2011

BioHackathon 2011 シンポジウムのあと、BioHackathon 2011が8/22(月)-26(金)の5日間にわたり、京都大学化学研究所バイオインフォマティクスセンターで行われた。国内外から70名で、国外からは27名が参加した。前回のBioHackathon 2010はRDFとは何かというところからはじまり、Tokyo manifestoが起案されるなどした会議であった。今回はUniProtやPDBj、DDBJなどがRDFを提供するなかでの”Linked Dataを扱うための技術開発”がテーマで、ハックが中心となった。
OpenBio*, SADI (Semantic Web service), LinkedData, ConstructionOfLinkedDataDB, ButterflyData, Ontology, Glyco-annotation ontology, Textmining, Visualization (Cytoscape), BioDBCore, TripleStoreSurvey, RDFDataSharing, G-languageの13のグループにわかれて、議論を重ねてハックした。
データベースプロバイダではなく、利用するバイオインフォマティクスのユーザの立場での、Linked Dataのユースケースはこれまでにあまり検討されてこなかった。そこで、Construction of Linked Dataのグループでは、Linked Data利用のユースケースと、そのメリット・デメリット、コストについてユースケースを通じて検討した。
主要公共データベースのデータではなく、個別のプロジェクトのデータをRDF型式に変換して、RDFストア上にデータベースを構築し、そこでのデータ解析のユースケースを検討した。RDFストアVirtuosoをインストール、セットアップし、アルツハイマー病死後脳のマイクロアレイデータをRDFに変換してそのRDFを公開し(BH11Ujicha)、そのSPARQLエンドポイントも公開した。この公開したSPARQLエンドポイントへの検索結果について、クロールのRuby/Pythonプログラムとファセット(Facet)のビューアを開発した。
個別のプロジェクトのデータとして遺伝子発現データ、とくにアルツハイマー病死後脳のパブリックな遺伝子発現データを用い、遺伝子発現解析のユースケースを検討した。遺伝子発現データとその遺伝子のアノテーション情報、遺伝子調節関係、文献情報などをRDFとしてストアし統合化し、SPARQLにより疾患群と正常群での有意差解析や疾患の進行ステージ群での有意差解析の倍率変化やP値などの条件検討を行い、その条件に適合した遺伝子を検討するべき候補遺伝子として得る。得られた候補遺伝子について、遺伝子のプロバティのURIのリンク先のRDFをクロールして情報を入手し、ファセットによる層別化の解析を行った。ファセットによるビューアは、ユーザにデータを多面的に検討することを可能にするもので、データドリブンの研究を強力に支援するものである。また、RDFでデータをストアすることで、データへのメタデータがオントロジーとして定義されることで、データを解析・可視化するプログラムとの相互運用性が高く、ファセットのビューアに入力されたデータによって、自動的にそのデータのメタデータ(オントロジー)から適切な解析・可視化するプログラムを選択して、ファセットビューを構成することが可能である。これはデータベース統合の課題のひとつが解決する可能性をもっている。一方で、このメタデータ(オントロジー)はユーザが作成しなければならず、Linked Dataの無視できない、現状では非常に大きなコストであるといえる。類型化が可能なデータであればメタデータ(オントロジー)のテンプレートを用意することで、ユーザのメタデータ(オントロジー)作成のコストを下げることができるだろう。あるいは、メタデータ(オントロジー)の作成支援を自動化することが可能かもしれない。
これまでLinked Dataは、オープンなLinked Dataとして外部公開を目的にするコンテキストでそのメリット・デメリット、コストが語られてきた。外部公開を目的としたLinked Dataではなく、それぞれのユーザが個別のプロジェクトのデータへの Linked Dataの利用は、データ管理やデータ統合のコストを下げることに貢献し、さらにメタデータの利用により徹底的なデータ解析やデータ可視化に貢献する可能性をもっている。
利用するバイオインフォマティクスのユーザの立場として開発を進めてきたグループには、他にVisualization (Cytoscape)とG-languageのグループがある。CytoscapeのグループはSPAQRLエンドポイントとの連携とそのエンドポイントでの結果にもとづくRDFのグラフの可視化に取り組んでいた。一方、G-languageのグループではURIからのRDFに限定しないクロールのプログラムの開発とLinkedDataの膨大な検索結果の統計解析によるプライオタイジングに取り組んでいた。
総括すると、RDFを利用したLinkedDataでのデータベース化は、あるシーンではRDFはもっともよい選択肢ではないかもしれないが、考えうるあらゆるシーンを検討すると、もっともよい選択肢ではないか。
宇治の辰巳屋で京料理、伏見の鳥せいで日本酒を楽しむなど、夜も参加者間の交流を深めることができた。非常に貴重で、有意義な時間を提供してくださったBioHackathon 2011のオーガナイザー、こうした活動を支援しているバイオサイエンスデータベースセンター (NBDC) とライフサイエンス統合データベースセンター (DBCLS)に感謝したい。
*なお、本稿の一部はエーザイの中尾光輝さんのご協力をいただきました。ありがとうございました。

Categories: Conference.