2008年06月05日

次世代高速シーケンサーの解析コストとか日本の出遅れ具合とか

最近うちの会社にも高速シーケンサーの引き合いが結構来ていて、
私は直接関与してないんだけれど、今年の新入社員が情報集めをさせられていたりする。
仕事の合間に後輩がネットで調べ物をしているところを後ろからのぞいてみたら、うちのブログのエントリを基点にしていたもんだから、思わず「ちょwwwおまwwww」と噴出しそうになった。
とりあえずうちのブログはお客さんも見ている可能性があるので、ネタ元がばれない様に丸写しは控えるように>後輩君

まあそれは話がそれるので脇に置く。
前回のエントリでは高速シーケンサーの解析コスト面についてはあまり突っ込んだことを書いていなかったので、そこんとこもう少し補足しておこうかと。
 
 
◆ゲノムシーケンサーコスト比較
最新のデータで補完しつつ、コスト面のデータを表に追加してみた。

1.ゲノムシークエンサー FLXシステム(GS20 FLX or Roche 454 FLX)
発売元:ロシュ・ダイアグノスティックス
1ランあたりの解読量:100Mbp
1ランあたりの時間 :7.5時間
1ランあたりのコスト:200万円
1ランあたりのデータ:13〜20GB
ゲノム断片長    :200〜300bp 平均250bp(サンプルのGC含量によって変わる)
解読精度      :99.5%以上(コンセンサス精度99.99%以上)
価格        :7500万(50万ドル)

ある程度の長さのシーケンスが得られるため、既存のショットガン法をそのまま使えるのが強み。
ただし最新の機器に比べるとどうしても見劣りしてしまう。
ゲノム未解読生物種のアセンブリ向き。


2.Illumina Genome Analyzer(Sollexa)
発売元:Illumina
1ランあたりの解読量:1.5Gbp
1ランあたりの時間 :2.5日
1ランあたりのコスト:50万円
1ランあたりのデータ:数百GB〜1TB
ゲノム断片長    :35bp
解読精度      :98.5%以上(コンセンサス精度99.99%以上)
価格        :1億2500万

断片が短いのでリファレンス配列を用意してそこにマッピングしていく方式になる。
他のシーケンサーに比べランニングコストが低いのがポイント。
サンガー研究所や北京ゲノム研究所をはじめ各地の研究機関に大量配備されている。
現在解読長を75bpに増やし、1ランで15Gbp解読可能な第三世代マシンの開発中らしい。


3.SOLiD(TM) システム
発売元:Illumina
1ランあたりの解読量:4Gbp
1ランあたりの時間 :8日
1ランあたりのコスト:300万円
1ランあたりのデータ:数TB
ゲノム断片長    :35bp
解読精度      :99.94%以上(コンセンサス精度99.999%)
価格        :7800万(*)

解析方法についてはSollexaとほぼ同様。
Sollexaもそうだが、SNPs解析などには非常に強力。
ただやはり普通の研究室では簡単に手が出せないレベルのコストがかかる。


どのシーケンサーも、生化学屋にとってはよだれが出るほど魅力的なんだが、よほどお金を持っているところでもないとまだまだ手を出せないレベルのランニングコストがかかるんだよな。
そしてもう一つ、解析の上で無視できないのが、データ管理、解析用のサーバーのコストだ。
こいつがなかなか洒落にならない。
吐き出されるデータ量を考えると、リアルタイム処理を行おうと思ったらかなりのものになる。

◆次世代シーケンサーのデータ管理・解析コストは結構洒落にならない
次世代シーケンサーが必要とするデータ管理・解析サーバーのスペックは結構洒落にならない。
ABIシリーズなんかでシーケンシングを行ったことがある人なら良くご存知だろうが、シーケンサが吐き出す生データというのは、4種の塩基の波形を記録したかなりのボリュームがあるものになる。
次世代シーケンサーでもこの部分は変わりなく、大体1塩基あたり1キロバイトといったレベルの生データが吐き出される。
先日取り上げた、1時間に100Gbp読むことができるという第三世代のシーケンサーなら、毎時間数十〜百テラバイトのデータを吐き出し続けるというわけだ。
幻影随想: ゲノム解析のコストが6万ドルまで下がった
幻影随想: 1時間で1000億塩基解読可能な次世代シーケンサー

SIやっている人ならそろそろ逃げたくなってくる頃ではないだろうか。

まあ必要なデータだけ取ったらあとはもう用が無いので、生データは端から捨てるという選択肢も一応あるのだが、それでもデータをマッピングなりアセンブリなりする際には、最低でも数百GBのデータを一度に扱わなければならないわけで、今後の伸びしろも考慮すると本格的にやろうと思ったら東大が先日発表したように、スパコンでも用意しないことにはやってられないということになる。
Bio-IT World:The Drive for the $1000 Genome


◆世界の最先端では
で、話は変わるが世界の最先端の研究所では今どんな風になっているかということで、2点ほど例を出してみる。

まず一つ目はイギリスのサンガー研究所。

サンガー研究所では現在、
ABI 3730 45台
Roche 454 3台(GS20×1、FLX×2)
Solexa 27台
SOLiD 5台

という体制でゲノム解析を行っている。
インフォマティシャンも100人単位で働いているそうな。
インフォマティシャンが職に困らないという点ではちょっと羨ましかったりする。


同様の例としてお隣の中国では、できたばかりの北京ゲノム研究所(BGI)に大枚はたいてサンガー研究所にも負けないレベルの施設を整えている。

ABIの台数はちょっとわからないのだが、次世代シーケンサーだけでもこれだけ揃っている。
Roche 454 3台
Solexa 17台
SOLiD 2台

北京ゲノム研究所は現在1000ゲノムプロジェクトにも参加していて、ゲノム解析能力の向上につぎ込む熱意には目を瞠るものがある。
中国は本気でバイオのトップ争いに参加するつもりだね。
幻影随想: 中国でヒトゲノム解読
幻影随想: 1000ゲノムプロジェクト


ちなみにこれは人伝に聞いた話だが、北京ゲノム研究所でも100人からのインフォマティシャンが働いており、一日あたりのシーケンス解読量は12Gbpだそうだ。
ほとんどフル稼働でマシンを動かしていることになる。
解析サーバーにどの程度のスペックを用意しているのか、是非一度聞いてみたいものだ。



で、肝心の日本はというと、この解読競争で完全に出遅れていたりする。
というか1000ゲノムプロジェクトにも参加してないしな。

一応の理由としては、去年Natureにこんなのが出ている。
シークエンシングの新たな時代
 日本国内には、1000ドルゲノムプロジェクトを疑問視する声もある。たとえば神原博士は「このプロジェクトは遺伝子探索や機能解明のためには重要だと思うが、自分のゲノム情報を全て明らかにすることで幸せになれるとは思えない」とコメントし、「それよりも細胞の応答に目を向けるべき。今後、私は、細胞一つを単位として、その内部変化や応答をまるごと計測する機器を開発してみたい」と話す。実際、個人のゲノムデータを誰がどのように保管するのか、保険に入る際にデータの提示を求められたらどう対応すべきか、といった倫理・社会的な問題が山積みである。
 日本には、1000ドルゲノムプロジェクトに匹敵する計画はない。常にアメリカ主導の下で進んだヒトゲノム計画の二の舞を踏みたくないとの思惑もありそうだが、「各個人に対応するためとはいえ、すでに解読済みのヒトの全ゲノムを再度読むことに重きをおかない」というのも本音のようだ。

まあ確かに研究という側面だけで見れば、こういう立場もありだと思う。
しかしアメリカを見ればわかるように、連中は最近も遺伝子差別禁止法なんて物を作っていて、本気でゲノム情報を使ってビジネスをしに行く体制を国家レベルから作り上げているわけだ。

日米のバイオ業界を比較してみて、もっとも大きな差が見られるのが研究に対するこの姿勢だと思う。欧米だと、研究を産業に応用するという強い意思が明白に見られるし、そういう応用が利く分野への金の掛け方も半端じゃない。それに対して日本はそういう側面が弱い。
このまま行けば、遺伝子情報産業は欧米と、新規勢力として中国あたりが掻っ攫っていくことになるだろうね。
iPS細胞なんかも、気が付いたら日本は研究だけってなことになっていそうな気がする。


◆関連エントリ
幻影随想: 次世代ゲノムシーケンサの本命は?
幻影随想: ゲノム解析のコストが6万ドルまで下がった
幻影随想: 1時間で1000億塩基解読可能な次世代シーケンサー
幻影随想: 中国でヒトゲノム解読
幻影随想: 1000ゲノムプロジェクト
posted by 黒影 at 22:45 | Comment(4) | TrackBack(1) | バイオインフォマティクス | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
  1. 時々拝見してます。
    スレ違いをごめんなさい。
    今、騒がれている『荒田吉明・阪大名誉教授が常温核融合の公開実験』に付いて、黒影さん、各氏の意見を知りたいです。
  2. Posted by 素人 at 2008年06月06日 23:27
  3. 正直、「又大量の断片が出るのか…」と不安に
    なっています。

    読むのはいいけど、どーつなげるんだよという方法論
    が全く思いつきません。
    「気合と根性だ!」なんていうのは悪い冗談です。

    iPS細胞に関しては、日本が主要部抑えるのは
    悪いことではないと思います。
    京大は結構頑張ってるような気がします。
    (しかもES細胞使えない欧米各国にとっては
     どうしても通らないといけない領域…)

    日本の経営陣にもっと経営とバイオ、インフォを
    理解できる人間がでてきてほしいですね。
    今勉強中です。バイオはそれなりにマスター
    したので、情報技術、そして金銭についても
    勉強しています。
    …別に独立するつもりもないのですが。
  4. Posted by キ〇〇シMK3 at 2008年06月08日 01:13
  5. >素人さん
    あの件はニヤニヤしつつ受け流すレベルの話かと。
    きくちさんのところでエントリが立っていますが、うちでは今のところ扱う予定はありません。

    >キ〇〇シMK3さん
    >正直、「又大量の断片が出るのか…」と不安に
    なっています。
    >読むのはいいけど、どーつなげるんだよという方法論が全く思いつきません。

    SolexaにしろSOLiDにしろ、短すぎてショットガンは無理だから参照配列にマッピングしていく形で解読するらしいです。ヒトゲノムやマウスなんかはともかく、最近ガンガン登録されているゲノムシーケンスは結構怪しいところがあるので、本当にそれで大丈夫なのか不安もありますが。
    まあ現在開発が進んでいる一分子シーケンサーが完成すれば、一度に数万bp連続で読めるらしいので、配列をつなげる苦労は大分減るんじゃないでしょうか。データの爆発はそれでも避けられないでしょうけど。
  6. Posted by 黒影 at 2008年06月10日 21:14
  7. いつも楽しく読ませて頂いております。
    最近私のブログで、鶏のゲノム育種の現状について、ちまちまエントリを上げているのですが、記事中で第2世代シーケンサの話をする時に、この記事を使ったので、トラックバックを送らせて頂きました。

    やっぱり、産業が絡む領域のゲノム解読は、海外勢が圧倒的だよなぁ、という身も蓋もない話しかできないのが辛いところです…。
  8. Posted by QTL_chicken at 2010年11月01日 01:47
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]


この記事へのトラックバック

[バイオテクノロジー]GWASとGenomic selection : 結局カネの有るヤツが勝つのか? そのB
Excerpt: 今回はサブタイトルにも有る「カネの有るヤツ」のことについて書こうかなと思います。 養鶏(今回は採卵に絞ります)の育種業界は、1羽辺りの利益が薄いことから、どうしても数は力なり、という構造になってしま..
Weblog: QTL_chickenの日記
Tracked: 2010-11-01 01:41