渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか


(Image by Arek Socha from Pixabay)

江添さんがこんな記事を書かれていました。個人的な感想ですが、面白い観点だなと思った次第です。

この記事では、江添さんが取り上げた論文についての直接の議論はあえて避けます*1。が、江添さんが提起した問題をより一般化して、SOTAに限らず「ある何かしらのメトリクスで評価される」分野の研究をどう見たら良いか?という問題についてちょっと考えてみようと思います。

メトリクスで評価される結果「僅かな改善」ばかりが繰り返される世界


今や機械学習のSOTAレースはその代表例になった感がありますが、メトリクスを競い続けた結果「僅かな改善」ばかりが多数繰り返される世界というのは意外と珍しくありません。例えば新薬開発なんかは結構そういう側面があり、特に抗がん剤などは素人目にはその印象が強いです。


例として、ニボルマブ*2を挙げてみましょう。リンク先のLancet論文は、既に2コースの抗がん剤治療を行ったものの効果がなかった進行性胃がん患者*3を対象とした第三相試験の結果を報告したものです。これは二重盲検を伴うランダム化比較対照試験を実施したもので、493名の患者のうち330名をニボルマブ群、163名を偽薬群に振り分けています。


その結果は、全生存期間の中央値がニボルマブ群で5.26ヶ月(95%信頼区間:4.60-6.37ヶ月)に対して偽薬群で4.14ヶ月(3.42-4.86ヶ月)。12ヶ月生存率はニボルマブ群で26.2%(95%信頼区間:20.7-30.2%)に対して偽薬群で10.9% (6.2-17.0%)。いずれも統計的に有意と認められています。これは平たく言えば、ニボルマブを投与して得られる生存期間の延長効果は「+1.12ヶ月」*4ということになります。


つい先日進行性稀少がんで実家の親父を亡くし、4年前に食道がんと胃管がんで義父を亡くした身からすれば、どれほど効果の幅が小さかったとしても、「統計的に有意に効く」とされる抗がん剤に藁にもすがる思いで希望を見出したくなる気持ちは良く分かります。しかし、当事者以外からすれば「1.12ヶ月だけ生存期間が延びる」ことにどれだけの意義を見出せるかは謎だと思われるかもしれません。かつて義父に長年に渡って免疫療法を実施してくださった医師の先生が「私は現役の大学病院時代は抗がん剤の性能を向上させることに執念を燃やし続けていたが、p < 0.05で生存期間が2週間延ばせても虚しいと感じることが多かった」と仰っていたのは、今でも記憶に新しいです。


恐らくですが、現在機械学習(特にNN分野)研究業界におけるSOTAレースも、見る人によっては同じ印象を受けるのではないでしょうか。Accuracyをほんの数%、いやほんの0.x%だけ改善することにどれくらいの価値があるのか、そしてそこに限られたコストやリソースをつぎ込む意味はあるのか?という問いが出てくることに、不思議はないように思います。


メトリクスの改善は僅かかほぼ無いが「質」には大きな差があるケースもある


以上のようなことは、実は僕も研究者だった時分からずっと思っていたことでした。即ち、些少なメトリクスの改善をもってして「成果」だと誇るのは本質的ではなくあくまでも皮相的なものなのではないか?と。実際、そういう論文を見かけては毎回顰蹙していた時期もあります。ところが、そんな考えを一変させる事態が僕の身に降りかかってきたのでした。


そう、深部静脈血栓症(DVT)の突然の発症です。上記の記事でも紹介した元サッカー日本代表高原直泰選手の体験記にもあったように、診断された当初は僕もてっきり「最初の数日〜1ヶ月は入院&その後数ヶ月に渡って抗凝固薬ワーファリン服用」という治療を受けるものと思っていました。これは最初しばらく入院してヘパリン点滴を受けて血栓を溶かす必要がある上に、ワーファリン服用が始まってからは食事由来のビタミンKの摂取を避けなければならない*5など、日常生活にも制限が多くかなりの忍耐を強いられるものです。


ところが、病院から僕に処方されたのはリバーロキサバン*6でした。これは2010年代に入ってから実用化された、FXa阻害薬と呼ばれる新たな作用機序に基づく抗凝固薬です。新薬であるため従来からの標準治療であるヘパリン+ワーファリンとの比較試験はかなり行われているようで、上記のNEJM論文によればDVTの再発率は、リバーロキサバン群で2.1%(36/1731人)に対してワーファリン群で3.0%(51/1718人)となっています。なおカイ二乗検定すれば分かりますが、DVTの方が上回っているものの有意な差ではありません*7。ちなみにDVT患者に対する長期治療における再発率の比較も出ていて、リバーロキサバン群で1.3%(8/602人)に対してワーファリン群で7.1%(42/594人)と報告されており、こちらは有意に優れていると結論づけられています。


ということで、素人目にはリバーロキサバン自体はそこまでワーファリンに比べて大きく優れて「効く」薬には見えません。しかしリバーロキサバンが優れている点は、いわゆる「シングル・ドラッグ・アプローチ」と呼ばれる「一種類の薬で最初の血栓を溶かすところから長期的に血栓の再発を抑えるところまで全てカバーし切る」方法論を可能にして「入院してヘパリン点滴を受け続ける」治療を省略した点と、作用機序がワーファリンと根本的に異なるためにビタミンK摂取制限が一切要らない点でしょう*8。おかげさまで、この記事を執筆時点では僕は未だに療養中ですが、それでも入院の必要は全くなかった*9上に、アルコールNGという以外に食事制限は全くありません。


勿論、そもそもリバーロキサバンを初めとするFXa阻害薬は根本的に従来薬ワーファリンとは異なる薬となることを目指して開発されていたようで、初めからそういう「質」の部分を向上させることが目的であったようにも見えます。一方で新薬である以上は少なくとも従来薬に劣らない効果があることを目指す必要があり、その点ではある意味「メトリクス」を追っているとも言えそうです。


しかしながら、この薬を処方された僕にとってはメトリクス以上の大きなメリットがあったわけです。何故なら、入院の必要がなく自宅療養が可能な上に食事制限が全くないことでQOLが確保できる上に、急性期も慢性期もこの薬の飲む量を変えるだけで対応できるのですから、こんなに楽な話はありません*10。実際には出血傾向の細かい差から来るリスクとか、中和剤の有無とか*11、考慮すべきデメリットは色々あるのですが、それでも病気療養を余儀なくされる側からすればだいぶ便利なことに変わりはないです。


多分ですが、同じことが他の様々な「メトリクスで評価される」系の研究にも言えるはずで、それは恐らくSOTAを追う機械学習の研究でも同様なのではないかと思うのです。即ち、SOTAに達しないか超えても僅かであったとしても、マルチタスク性が既存研究を大幅に凌駕しているとか、マルチモダリティ性が群を抜いていて汎用性が大きく向上したとか、そういう「質的」なところをもっと評価していくべきなのかなと思ったのでした。それはメトリクスだけ見ていてはダメで、全体像を見て初めて分かることなのでしょう。そして裏を返せば、メトリクスが確かに改善していたとしても質的な側面で進歩がないなら厳しく評価する、ということもまた求められるべきなのかなと思います。


最後に


正直なところ、今回の記事で述べたような私論は恐らく既に機械学習研究業界では散々議論し尽くされた内容ではないかと思うのですが、たまたまDVTに罹って2010年代以降の新世代の治療を受けられるようになった経験がどんなものか書いてみたくなって、やや乱暴なまとめ方ですが記事にしてみた次第です。言い換えると、DVTの療養中で時間が大幅に出来たことによる暇潰しということです(笑)。そんなわけで、お後がよろしいようで……。


追記


そう言えば、ニボルマブって「効く人には効く」談義があったなと思ったら*12ブコメでツッコミを頂いていました。

私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか - 渋谷駅前で働くデータサイエンティストのブログ

ニボルマブが画期的だったのは効く人には劇的に、長期的に効く(だだし効く人は良くて20%程度)ってことで、全生存期間の中央値でみるとたいしたことないけど、12ヶ月生存率はニボルマブ群で26.2%に対して偽薬群で10.9%。

2022/05/31 18:03

そう考えると、実はメトリクス競争をしているように見える抗がん剤研究にもそういう「質的」な側面があるんだなと思った次第です。やはりメトリクスだけ見ていては分からないことがある、ということで。

*1:何故議論を避けたかは察してください

*2:商品名オプジーボ

*3:つまりほぼ終末期

*4:ただし中央値同士の比較において

*5:例えば納豆やキャベツなどが食べられなくなる。高原選手の手記にも「モツ鍋を皆で食べに行ったらモツ以外の具材が一つも食べられなかった」というエピソードがある

*6:商品名イグザレルト

*7:なので非劣性検定でワーファリンと同等の効果ありという結論になっている

*8:ワーファリンはビタミンK由来の凝固作用を抑制するが、FXa阻害薬は全く別の因子に由来する凝固作用を抑制する

*9:おかげさまで亡くなった実家の葬式も無事に出せました

*10:それでも二大趣味のワインとテニスがNGになったのはだいぶつらいですが

*11:これはアンデキサネット(商品名オンデキサ)が最近FXa阻害薬専用の中和剤として販売されるようになったことで今年に入ってから解決した

*12:確か某元政治家がニボルマブで余命宣告の状況から生還したような記憶が