読者です 読者をやめる 読者になる 読者になる

六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

AICとc-index (concordance index)とはどう使い分けるべきなのか

統計学

あけましておめでとうございます。本年もよろしくお願いいたしますー。ということで新年最初の記事なんですが、新年早々にask.fmでこんな質問をいただきましてですね。

はじめまして.ブログ記事で勉強させて頂いております. 生存分析(COX比例ハザード解析)における多変量解析の変数選択およびモデル評価の指標としてAICおよびc-indexがありますが,いずれが優れた方法と思われますか. 10個の独立変数を1つに合成した変数Aと,3個の独立変数を1つに合成した変数Bとではいずれが予後予測能力が優れているか比較したいのです.変数Bの有する独立変数を変数Aは全て有しています.


実はCoxの比例ハザードモデルを僕自身は今までのところ実務では使ったことがなくてですね、知ったかぶりできるかどうかも微妙なラインなんですが(汗)、自分の勉強も兼ねて「AICとc-index (concordance index)*1とはどう使い分けるべきなのか」をひとまずまとめてみました。


そうそう、相変わらず僕のことなので間違ったこと書いてるかもしれません。おかしいところがあったら是非どしどし突っ込んでくださいー*2


AIC=モデル選択(ここでは変数選択)の基準、c-index=予測性能の基準


ということで、本題のAICとc-indexとでどう使い分けるべきなのかについて。実は、良い質問がCross Validated*3に転がっていたので、とりあえずその質問へのリンクを張っておきます。

AIC and c-statistic are trying to answer different questions. (Also some issues with c-statistic have been raised in recent years, but I'll come onto that as an aside)


Roughly speaking:
AIC is telling you how good your model fits for a specific mis-classification cost.
AUC is telling you how good your model would work, on average, across all mis-classification costs.


詳しい内容はリンク先を見てもらいたいんですが、冒頭にも書いてあるように「AICとc-indexはそもそも見ているものが違う」ということですね。ちなみに、群馬大の青木先生の「統計学関連なんでもあり」にもAICとAUCの使い分けの話が出てました*4

No.16553 Re: AICとAUC  【青木繁伸】 2012/03/01(Thu) 21:01


AIC と AUC,全くベツモンでしょう。それぞれが何を意味しているのかをまず再確認。


No.16554 Re: AICとAUC  【****】 2012/03/01(Thu) 21:27


青木先生


すみません.
こんな質問にご回答いただきありがとうございます.
私なりにはAICとは多重ロジスティック回帰モデルの適合性をあらわすもので,AUCとはROC曲線で算出される曲下面積で判別がうまくできているかどうかを表すものであるととらえています.


ということで、結局モデルの当てはまりだったり汎化の良さだったりを見たければAIC、純粋に予測性能そのものを見たければc-indexってことになるんでしょうかね。


で、今回はA, Bと2通りある変数選択の是非を決めようというのが目的なので、まずはAICを優先して見るのが妥当なんじゃないかな、と僕は思いました。この辺のモデル選択に関する話は、例えば久保先生の緑本なんかにも出てますね。



ただ、今回のケースではAとBとがネストの関係になっているわけですが、AとBのそれぞれで全ての変数の中からどの変数を選んできて合成するかによってはモデルの性能が変わる可能性があるので、合成する変数をどれにするかの基準としてc-indexを見る必要があるのかな、とも。


この辺の話って統計モデリングのみならず機械学習とかでも問題になるので、もうちょっとしっかり勉強しなきゃいかんなぁと、我ながら反省。。。


おまけ


ちなみにCoxの比例ハザードモデルそのものについては多分こちらのslideshareが一番分かりやすいかと思います。


いつもブログ記事ではお世話になっておりますが(笑)、slideshareでまとまっているとやはり読みやすいですね。有難うございましたー。

*1:ROC曲線の下側面積であるAUCに、生存分析らしく時間軸の情報を加味したもの

*2:いつもの炎上ラーニングです(笑)

*3:Stack Exchangeの統計学版?みたいです

*4:質問者の方のお名前は伏せました