CASPy奮闘記およびCASPyアシロマへ行く

国立遺伝学研究所　太田元規

（注：CASPyとはCASPに出場するため昼夜を問わずモデル作りに励み、自分のモデルに誇りを持ってアシロマに乗り込む人々。予測シーズン中から会議にかけて、ターゲット８７番はどう？などと、構造予測の問題になっているタンパク質の名前を使わず問題番号で話をする。国立遺伝学研究所の深海薫による命名。アメリカではCASPが開かれる場所にちなみ、Asilomaniaというらしい；Bryant情報）

１．CASPy奮闘記

「太田さん、シアノビリンの締切、10日になったの知ってます？」ポスドクの川端猛君が僕の部屋に来て教えてくれたのは忘れもしない、1998年6月8日月曜日の西川研セミナーが終わった直後であった。シアノビリン-Nとはエイズの治療薬からみで注目されているタンパク質で、CASPの問題になっている。CASPとは２年に１度開かれるタンパク質の立体構造予測屋の集まりだ。正式名称はもっと難しい英語名がついているが、タンパク質の立体構造予測法の評価会、とでも訳せばわかりやすいかもしれない。CASPでは立体構造決定が間近なタンパク質が募集され、その配列が問題として出題される。参加者は問題ごとに設定された締切日（構造公開日）までに予測構造を主催者に送付する。いわゆるブラインド・プレディクションである。答えの構造は会議までに参加者に公開され、会議では参加者が自己採点を持ち寄り議論をする。一方で主催者が決めた査定官が参加者から優秀チームを選定する。優秀チームは会議でのtalkとProteinsの別冊として出版されるproceedingにinviteされるという名誉を賜わる。一応、モデリングの参考構造が明確なComparative Modeling、既知構造から類似構造を選出するFold Recognition、および"最初から"折りたたんで構造を作るAb-initioのカテゴリが設けられている。今年（去年のことです）はCASP yearだから、僕らのラボではCASPに参加しましょうか？という状況になっていた。最初の問題の締切は当初６月の終わり頃だったので、６月初めは今思うと気ままなものであった。それが突然、当初は６月３０日が締切だったT0052ことコード名CV-Nの締切が今週の木曜日（時差の関係）になってしまったのである。もう、行動するしかなくなった。現実的に、具体的に、である。だって、もうその時は月曜日も夕方になっていたのだ。

というわけで、僕らは"組む"ことにした。西川研はボスの性格か僕の性格か集まってしまった人々の性格か、独立独歩で研究をしている。ポスドクの川端君や学生の金城君は当初CASPに対してとても意欲的だった。CASPで一旗あげたい、という、そういう感じであった。一旗あげるにはそれなりに目立つ必要があるし、基本的には良い成績を自力であげないといけない。やる気があるなら、試すのは面白いことだろう。一方僕はCASPに対してかなり冷めた印象を持っていた。前回のCASPには予測屋としてではなく一般参加者として出席した。僕は紳士淑女が襟をただして予測法について（特に予測に使う構造関数やその最適化手法やアラインメント法など）語り合うものと思っていた。しかし、そこで見たものは「どうして僕をプレゼンターに選ばないんだ！」とか、「あんたが当たっているって言っている構造はちょっと違うんじゃない？」とか、「関係ない自分の仕事の宣伝はするんじゃない！」と足を踏み鳴らす人々（注；CASPではCASPのWWW; What went right, What went wrong, and Why の精神からはずれたプレゼンや発言には足を踏みならして抗議することが奨励されている。オープニングの主催者代表J. Moultの挨拶の最中に足を踏みならす練習までする）達で、話題の中心は当たった／はずれた、という点にやはり力点がおかれている気がした（CASP2の査定官がちょっとまずったせいも大きいのだが）。それに、これが一番強く感じたことであるが、CASPの評価対象は純粋なプログラム出力ではなく、その出力結果を見て人間がサブミットした構造である。だからCASPではMethodという言葉も使うがTechniqueやArtと言う単語も良く使う。換言すれば、CASPの採点表はどのプログラムが構造予測に適していて、どれがそうでないのかを語っているものではない。誰がお利口さんで誰がお間抜けかを語っているのである。これはとてもしんどい。だから全身全霊を持って問題のタンパクを調べつくし、例えプログラムが良いスコアで１位出力してきた構造があっても、調べた事実に反するならば敢えて事実と整合する２位や、例えば１０位の構造を選んでサブミットする覚悟が必要なのである。まあでもこういう作業は、今の予測法のできからして、実践的な構造予測の仕事を行う場合の王道である。泥臭いけれども認められるだろう。しかし、CASPにでるからには、全身全霊で調べ尽くす作業を約３ヶ月に２０本以上もこなさないといけない。実質的に他のことは何もできなくなるし、やり遂げることができるかどうかも怪しい。とても辛いのである。だから僕は"できれば降りたい"気分だった。出ることにしてしまったのは今思うとCV-Nの締め切りが短くなって追いつめれた結果まあラボの人々がやる気がありそうで、また、組まざるを得ない現実に同意してくれて、チームができたことが大きいと思う。

それで、西川研の４人がよって、UNAGI（遺伝研がある三島が鰻の名所として有名なことに由来する）ができた。できた瞬間から闘いが始まっていた。他チームとの闘いというより、容赦なく迫ってくる締め切りまでに自分たちが使えるツールやプログラムや、もちろん文献調査などを通してどれだけ問題のタンパクの構造について調べられるか？である。UNAGIが出来たのが月曜日なので、火曜はめいめい自分のやり方で問題に取り組んで、とりあえず水曜日に会議を開いて公式に情報交換をし、UNAGIの解答を決めましょう、ということにした。会議は決め手をイマイチ欠いていたので、もう１回結果の検討をして木曜日の朝１０時から最終会議をすることにした。構造をサブミットするアメリカとは時差があるので、午後２時くらいなら確実に間に合うだろう。最初の水曜日の会議が夕方４時か５時くらいに終わったので、検討課題用にカスタマイズしたプログラムを作って走らせて８時か９時に帰宅した。翌日朝７時くらいに出勤して結果を見て、rasmolで構造をいくつか眺めて、もう１回今度は別のプログラムを走らせて、それらの結果をまとめたり印刷したりする作業を９時くらいから始めて１０時くらいから会議をまた始めた。一回暗い会議をやった後だったし（そういう会議にうんざりしていた）、締切時間が迫っていることを皆知っていたので割とスムースに会議は進み、１１時すぎくらいにはサブミットする答えがだいたい決まった。僕らは最初からNONEを使った。つまり、"PDB中に解なし：問題の構造は新規フォールドである"という答えである。その他に、いろいろな見地から選んだ構造を合成して"新規フォールド"を作成し、これを２番目のモデルにした。サブミットが決まると何だか明るい気分になってきた（運動会でリレーを走り終わったようなトリップ感）。しかし、まだ難関は残っている。前回のCASPでは答えのフォーマットがうまく作成できなくて難儀をしたチームが多かったと聞いていた。サブミットが完了するまでは安心できない。送付するアラインメント（川端担当）とフォーマット作り（金城担当）は若い２人に任せて、僕は"どうしてこの構造を選んだのか"についての作文作りを始めた。１２時すぎくらいに作文を書いて、添削を沖縄アメリカ人の金城玲君に任せて、ともかくフォーマットができるのを彼らの部屋まで見にいった。そのうちN先生が食事に誘いに来たけれど、僕らはサブミットが終わるまでは安心できないと思い、全てが終わってから食事にでかけた。近くのファミレスで１時すぎに飲んだコーヒーがとてもおいしかったのを覚えている。と、同時に、ああ始まっちゃったんだな、と思った。

こういったCASP会議をだいたい週に１回か２回開きながら６月は過ぎていった。６月の締切は３つくらいだったので、会議でサブミット構造がなかなか決まらず、歯切れが悪いのは苦しかったけれど、思ったより厳しい生活ではなかった。しかし、そういうペースが破綻するのはもう目に見えていた。CASPのprediction seasonは一応８月で終わるよう計画されていたので、８月３１日締切の問題が何と１０問くらいあった。これを何とか前倒しにして、少なくともお盆くらいには全体の目鼻をつけないと夏休みもとれない。それで、何とか体制を整えるべく前々から会議の議題に締切がまだ先の問題を混ぜたり、目先を変えて比較的調査が楽そうな問題（類縁配列がない問題配列はやることが少ないのであげちゃうのが楽？）を先にやってみたりしたが、なかなかスカっとする結論がでない問題が多く、結局前倒しでサブミットを決めることはできずじまいで、ズルズルとアンニュイな会議を続けながら７月が過ぎていった。この間にマルチプルアラインメントを入力して構造予測をするプログラムや連続ランが可能な仕掛けとか、出力表示を変えたバージョンとか総計１０種類くらいの変形プログラムを作成した。７月の終わりになると何とCASPのオーガナイザから問題の追加通知なども送られてくるようになり（結局５問くらい増えたのではないだろうか？）、憂鬱度はますますつのっていった。しかし、CASPはやりとげないと意味がない。トータル何問中いくつ解答できたか、という統計がでないと参加した甲斐がないのだ。もうここまで来たのだから、なんとか最後まで、と思っているうちお盆になり、何問かを宿題としてしばし休憩することにした。

会議は８月の終わりくらいからまた再開した。問題の質にも依存するのであるが、僕のインバースサーチ用（構造で配列のサーチをする）のプログラムがたまに使える場面などがあり、個人的には憂鬱度は減少してきた。皆も慣れてきて、役割というか持ち分が固まってきたし、先が見える状況になってきたことも大きい。川端君は最初は自分のthreaderを動かしていたけれど、最後の方はコンパスという松尾洋さんが昔作ったthreaderを動かすようになっていた。川端君がコンパスを使うようになってから西川さん一人では準備しきれなかった（かの？）ように見えるライブラリの更新などの細かな配備がされて、コンパスが生かされるようになってきた。また、3D-1Dよりも3D-3D比較の方により興味がシフトしたようである。この時期の川端君の資産はCASPの自己評価をする時に生かされた。金城君作の新しいthreader：S3は最初トンチンカンにも見える答えを連発していたのだが、ある時彼は何かに気がついたようで、どうも関数の入れ替えをしたらしい。その後このthreaderは地味ながらも会議の後押しをする場面などで良い答えを出してくれた（一時期の新党さきがけのような役割？）。そして９月の初旬、ついに最後の問題について議論をすることになった。僕らの解答は最初と同じNONEで終わった。結局僕らは２５問について５６個のモデルをサブミットした。

CASPは１２月初旬に会議が行われる。もしも査定官に優秀チームと認められれば、talk依頼のお知らせがせいぜい２週間前くらいには来るであろう。また、参加者は自己採点を会議に持ち込むことになっているので、答えの構造も送られてくるはずである。答えの構造はぽつぽつと５個程度出版されていて、それを見るとまあ"悪くはない"感じであった。しかし、その頃公になっていた答えは皆だいたい当たりがついていた構造ばかりで、僕らも"人並みに調べた人達"以上のものではなかった。最後まで問題に取り組んだおかげである種やりとげたという充足感はあったし、会議に参加した時臨場感があるだろうな（ターゲット８６、と言われても、あああれね！と思えるような）、と思ってはいたが、若干色気はあった。１１月下旬から中国に出張に行くことになっていたので、その前に自己採点などの目鼻がつくと嬉しかった。答えの構造は中国に行く前々日に送付されてきた。その日は会議やらセンターの忘年会やら（私が幹事）やることがいっぱいあったので、メールを若手によろしくねと転送して、私は東奔西走し、そのまま中国に行ってしまった。中国から帰ってきてから２００本近くたまっているメールをわさわさと捌きだした。ちょうど２０本目くらいに、John Moultからのメールがあった。会議についての注意や連絡が彼からよく来ていたので、あまり期待はしていなかったのだが、これが嬉しい知らせであった。こんなメールです。

From: John Moult Subject: CASP3 meeting talk
Date: Tue, 24 Nov 1998 19:03:06 -0500 (EST) To: mota@genes.nig.ac.jp

Dear Predictor:

Your group is one of those that has been selected by the threading assessor, Alexey Murzin, to give a short talk in the threading section at the Asilomar meeting. The program is still being finalized, but you will probably be allotted approximately 20 minutes, including five minutes for discussion.

In the talk, please discuss the methods that were used. In general, the talk should focus on analysis of what went wrong, what went right, and why. Because time is short, please do adhere to these principles. As in the earlier meeting, the audience will be encouraged to intervene with any speaker who deviates from the guidelines.

You are also invited to submit a short paper, describing your work, to the CASP3 special issue of PROTEINS. The deadline for receipt of papers is February 1. Further details on paper length and so on will follow.

Please acknowledge receipt of this message, and let me know which member of the group will be giving the talk.

John Moult
(On Behalf of CASP3 organizers).

というわけで、UNAGIの努力は認められた。

２．UNAGIアシロマに行く

CASP3は1998年12月13日の午後７時から17日の正午まで、カリフォルニア、モントレー近くのアシロマ・カンファレンス・センターで行われた。遺伝研からの参加者、川端、金城、太田は今までの慣例に習い？、サンフランシスコからレンタカーを駆って、アシロマ入りした。３時間程度のドライブである。CASP2の時は現在かずさDNA研究所の須山幹太氏とモントレーのあたりで迷ってしまったが、さすがに今回は一発で着いた。

13日の夜は主催者側のプレゼンがあった。最初にJ. Moultが挨拶をし、何チームが参加した、とか、サブミッションがいくつあった、などのgeneralな話やCASPの精神や意義などを語ったり、皆で足を踏み鳴らす練習などをしたりした。前日にStanfordによった時、友人がStive Chu（Stanford U. :９７年度のノーベル物理学賞受賞者）はとっても切れる男だ、と絶賛していたのだが、ここでもChuさんがでてきて、何でもFoldingをやると宣言したそうな（新聞記事からの引用）。まあ、それだけ我々の分野はメジャーなんですよ、という紹介なのでしょうが、Moultの話にはそういうエピソードがふんだんに盛られていて、とても鼓舞する力があるな、と感じた。その後、評価方法全般についてFedelisが講演し、続いて、予測構造評価システムを試作したT. Hubberd、評価用数値テーブルを作成したSippl、解答の類似構造ブラウザを提供したBryantが説明をした。Sipplの作った数値テーブルが参加者に配布されたのだが、前回配布された数値テーブルに比べて格段に見やすくなったと感じた。前回もらったものは、どうやって使って良いものかさっぱりわからなかったが、今回もらったものは各数値の意味する"哲学"まで共有するのは難しいものの、少なくとも"誰だれがどういう構造をサブミットして、こういうメジャで評価するといくつになるんだな"ということは読み取れた。

14日はComparative Modelingの評価が行われた。査定官はAlwyn Jonesだった。前回査定官のJ. Thorntonの印象があまりにすばらしかったので、それに比べるとJonesさんはやっぱり畑が違うのかな、という印象だったけど、Hubbardのダイアグラムなどをいっぱい書いて一生懸命やっている感じがした。イギリス人らしく紳士的冗談もいっぱい言っていて査定の方法などについて良くわかんない部分も多かったけど僕は好感が持てた。Sternberg, Blundell, Fidelis, Honig, Fischer, Dunbrackの６グループがプレゼンを行った。前回／今回のCASPでの大きな違いの１つは、PSI-BLASTの出現と感じる。今回のモデリング部門でも当然のごとくアライメントを行う場合にPSI-BLASTが使われていた。あと、プレゼンを取ったのはモデリングだけであったが、Sternbergのグループが他のカテゴリでも結構良い成績を出しているという印象を持った。それに気を良くしてか、Sternbergの口も滑らかで、かなり積極的に発言もしていた。元気だなあ、という感じであった。夕食後のセッションでは２年間の技術的進歩について小さな議題（ループ予測は進歩したか？など）を設定して議論がされた。

15日はFold Recognitionの評価が行われた。査定官はA. Murzin。このセッションは演者の選定法について前回大紛糾したので、査定を務めるのは難作業に思われた。その意味でMurzinという人選は最適解であったと思う。彼の判定に関して文句は言いにくいからだ。評価は"問題と答えの関係がSCOPでいうとどういうレベルであるか"で難易度が設定された上で、Murzinが目で見て解答がどのていどあっているか、かなり主観的に判定した一覧表に基づいている。「どうして私のモデルがFランク（ポイント１）で、誰だれさんのモデルがBランク（ポイント５）なの？」という疑問は湧くのであれが、評価自体は単純でMurzinがやることだから（仕方がない．．．）、と認めてしまえばとてもわかりやすいものであった。この一覧表を見ると、Bryantのグループが２１問題中８問正解し、ポイント２９をあげてトップ、以下Jonesグループが８問２５ポイント、Koretkeグループ（どこかの製薬会社所属？）が８問２２ポイント、我らがUNAGIが８問１６ポイント、Sipplグループが７問２２ポイント、Kerplusグループ（UCSC）が６問１１ポイントでプレゼンターに選ばれた。技術的にThreadingは熟しているので、トップレベルでは方法自体に優劣があるとはあまり思えないが、出来に関しては、どれだけ手を尽くして一生懸命やれるか、にかなり左右されると感じる。その意味でどのグループもかなり人的資源をかけて臨んでいると感じた。同義であるが、threading法一本だけで勝負するのはあまり賢くなくて、構造比較法や配列比較法やその成果をまとめたデータベースなどを駆使して予測構造やアラインメントを決めているという印象を持った。ここでもPSI-BLASTは常識レベルで使用されていると感じた。プレゼンも何とか済んだので、個人的には「９８年もあと少しだなあ」と実感した。午後に評価法について意見を言い合うセッションがあり、夕食後はThreadingについて進歩を検証するセッションがあった。こういうセッションは中学校の学級活動のようにとても民主的で感動的？かつとても疲労するが、結局どうなったのかあんまり良く理解できないことも多かった。話し合って、確かめあって、それで終わり、という感じ。

16日はAb-initioの評価が行われた。査定官はOrengo。Murzinの場合、頭がSCOPなので、その分類基準に添って採点を行ったが、Orengoの場合はまず、CATHに照らすことを行った。サブミットされたモデルと答えのClass, Architecture, Topologyがどのレベルまで一致しているか、もちろんSSAPも使うが最終的には目で見て判断した。どういった基準で最終的プレゼンタを決めたのかは良くわからなかったが（何しろ、前日で９８年を終わりにしていたので．．．）、演者の話はそれぞれとても面白かった。D. Bakerグループ, Skolnickグループ, Osguthorpe, Samudralaグループ, Lomizeグループ, そして最後にScheragaグループのプレゼンがあった。今回このセッションが一番"大化け"していて（いろいろな方法が出てきて、しかもちゃんと見られる形になっていた）一番面白かった。そして中でも一番ブレークしていたのが、D. Bakerだと感じた。彼の存在を日本で知っている人はとても少ないと思うが、確実に今後のタンパク質の構造形成研究を引っぱっていくキーパーソンになると僕は思う（Bakerは若くて偉い人には全然見えない。実はCASP2でもしゃべっていたのだが、僕は彼がBakerではなく、Bakerのポスドクか学生だと思った。その後いろいろ論文を見て、これからはBakerの時代だな、と薄々思っていて、CASP3で"本物の"Bakerを拝もうと思っていたら、また例の"学生さん"が出てきて、それを皆がDavidと呼んでいるので初めて"ああ、あの学生みたいなのがBakerだったんだ！"と再認識した）。あと、Scheragaが折り目正しいプレゼンをした後、それに対してMoult以下お偉いさんたちが敬意を表すコメントを返し（皆弟子みたいなものなのでしょう）、総立ちで拍手したりした。斜に見ればセレモニー？とも思えるが、皆素直にやっていて、そういうのが自然にできるのはすごいなあ、と思った。夜は二次構造予測の評価などが行われた。JonesのグループとKarplusのグループがほぼ７割の予測結果を出していて簡単にプレゼンをした。PHD敗れたり、ということだったが、Rostは意外とサバサバしていて、Rostらしさを損なっていなかったので、また感心した。まあ、成績が良かった２つの方法がin-house PHDだったせいもあるかもしれない。その他２年間の進展などについての議論もあった。確かに結果だけみると今回のCASPはAb-initioの収穫が大きいと言わざるをえないが、方法をきちんとみると、全てthreadingの技術が浸透していることが伺える。mini-threadingという言葉が１つのキーワードになっていた（threadingでフラグメントを予測してそれを組みあげる、という意味）。

17日の午前にStructural genomicsの特別セッションがあった。まあ、ある種について全遺伝子の構造に関する解析をして何かを言いましょう、という研究についてわさわさとプレゼンが行われたのだが、どれも"いっぱいやりました"以上の結論があるとも思えず、結構退屈だった（Bryantは抜け出して卓球をしていた）。あと、いろんなキーパーソンが所属や国を越えて組んでいるので（例えばSWISS-MODELのGluexとSternberg）、それは感心したし、この種の問題を処理するにあたって学ぶべき姿勢であると感じた。

午後、２年前は走るのを怖がっていたルート１０１（カリフォルニアの高速道路）をFordですっとばしてサンフランシスコに戻った。次回も２年後にやるそうだ。モデルの評価法はprediction seasonが始まる前にFIXされることになった。査定官の裁量は次回も多少認められると僕は認識している。そう言えば、僕が自分のthreaderの名前を考えたのはCASP2からの帰りの飛行機の中だった。今回プレゼンタに選ばれたのはチームの功績による部分がとても大きく、というかほぼそれに尽きるのだが、個人的には凱旋気分に浸りました。次回は若い人々にそういう気分を受け継いで欲しいな、と思っている。

fine

LINKS

国立遺伝学研究所
生命情報研究センター
大量遺伝情報研究室
DDBJ

CASPy奮闘記およびCASPyアシロマへ行く

M. Ota(mota@genes.nig.ac.jp), Jan., 1999