再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ

最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、

特集＝経済学と再現性問題

【鼎談】再現性の問題にどう向き合うか？……川越敏司×會田剛史×新井康平

心理学における再現性の危機――課題と対応……大坪庸介

経済学における再現性の危機――経済実験での評価と対応……竹内幹

フィールド実験・実証研究における再現性……高野久紀

健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣

再現性問題における統計学の役割と責任……マクリン謙一郎

という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になっているマクリン謙一郎さんも寄稿されていて、非常に読み応えがあると思いました。

再現性問題については僕自身が渦中の分野にかつて身を置いていたこともあり、興味を抱き続けていた一方でこれまでブログ記事にまとめたことはありませんでした。それにはやはり僕が企業に転じて渦中の業界から遠ざかったことで、一種の「対岸の火事」感があったという側面もあると思っています。そこに、現在交流のある計量経済学・統計学方面で再現性問題に関する議論がなされたということで、改めてこの問題に目を向けようという気持ちになったのでした。

ということで、今回の記事では経済セミナーの特集（以下「本特集」とする）を下敷きとしつつ、僕の個人的な見聞や考察も交えて再現性問題についてまとめてみようと思います。その意味では書評というよりはむしろ文献を踏まえての独自議論といった方が良さそうですが、お付き合いくだされば幸いです。なおいつものように誤解や理解不足などの点があるかもしれませんので、お気付きの際はコメントなどで是非ご指摘ください。

再現性問題の概要
再現性問題の構図
データで見る再現性問題
かつて研究の現場で目撃した再現性問題の実態
ビジネスシーンにも根を張る再現性問題
本質的には「局所最適ではなく大域最適を目指すインセンティブとなる」評価基準が必要

再現性問題の概要

最初に再現性問題の全体像を簡単に振り返ってみたいと思います。まず、そもそもの前提として多くの実験科学分野の研究論文はt検定やカイ二乗検定などの統計的仮説検定、より専門的に言えば「帰無仮説有意性検定」(Null Hypothesis Significance Testing: NHST)を用いて、得られた実験データが実験条件間で「統計的に意味ある差」（有意差）を生じていると示すことで、実験結果の信頼性を立証しているという建前になっています。言い換えると、統計的な信頼性があるのでこの実験結果はきっと真実である、再現性もあるということを暗にアピールしているというわけです。

ところが、NHSTによって保証されているはずの再現性がどうも怪しい、という議論が徐々に各分野で出てくるようになります。本特集でも幾つか例が挙げられていますが、2000年代半ばぐらいから様々な形で再現性問題についての議論が提起されるようになっていきます。

そして再現性問題の最大の転換点となったのは、2015年にScienceに掲載されたOpen Science Collaboration論文と言って良いでしょう。この論文が「心理学研究における著名な論文のうち4割程度しか再現できない」と報告したことで、にわかに再現性問題の議論が活発化していったように思われます。特に心理学と研究手法が共通する行動経済学分野では、人口に膾炙した有名な学説の多くが実験結果を再現できないと指摘されたことで、大きなセンセーションを巻き起こした感があります。

代表的なところで言えば、ノーベル経済学賞を受賞した行動経済学者であるDaniel Kahnemanが有名な著書『ファスト＆スロー』で盛んに取り上げた社会的プライミング効果に関する論文が再現できないと報告されており、これは僕が観測していた範囲でも多くの心理学・行動経済学の研究者やこの問題に関心を持つ統計学者など（著名なところではAndrew Gelman）を巻き込んだ大論争*1に発展しています。

実際には、心理学に限らず複数の分野で再現性問題が指摘され続けてきています。本特集でも開発経済学や会計学における再現性問題についての言及がありますが、一般にはJohn P. A. Ioannidisのグループによる一連のメタアナリシス的アプローチによる再現性検証研究による貢献が大きいものと思われます。その嚆矢となった2005年の "Why Most Published Research Findings Are False" という刺激的なタイトルのPLoS Med論文では、医学分野の論文に対して主にサンプルサイズの小ささとバイアスに侵された実験デザインを放置していることが、偽陽性の多さ＝再現性の低さを招き得ることを指摘して警鐘を鳴らしています。なお、この論文の中では検定力が低過ぎて偽陽性だらけの研究成果ばかりの分野のことを "null fields" 即ち文字通り「無を生み出す分野」と断じており、破壊力の高いフレーズだなと読むたびに感心させられる次第です。

これらの批判に応えようという動きは世界各地で見られますが、個人的に注目しているのは僕も研究者時代に論文をよく読むことがあったRuss Poldrackが設立したStanford Center for Reproducible Neuroscienceという試みです。これは聞くところによれば、既にベテランとなったPoldrackが「このまま再現性なき研究ばかりを生み出し続けていては認知神経科学分野の未来が危ない」ということで立ち上げたもので、事前登録制度（後述）のサポートやfMRIデータのオープンリポジトリ運営を行なっているようです。

しかし、これらの再現性問題の解消を目指す動きに対するベテラン研究者たちからの反発が依然として多いのも事実のようです。例えば、著名な論文に再現性がないと指弾されたKahneman当人が「再現実験を行う際のエチケットとして実験者は元論文の著者をアドバイザーに迎えるべきである」という論説を発表しています。もっとも、これは「第三者による再現性の検証に干渉する行為だ」として各所からかなり批判された模様です。

また、認知神経科学分野で「紡錘状回の顔認知領域」研究で著名な大御所であるNancy KanwisherがJournal of Neuroscienceに寄せた論考では、再現性問題について

Today, our field faces a replication crisis, with widespread concerns that a substantial proportion of our published findings might be spurious (Szucs and Ioannidis, 2016). I think this problem will be solved not with fancier math, but simply by developing a stronger tradition of replicating our own results before publishing them (especially when those results are surprising).
（太字筆者）

と自家再現で事足りると主張するのみならず統計学的手法で取り組むIoannidisらを揶揄しているかのようにも受け取れるコメントをしており、この論考に対しても「自家再現には意味がない、第三者機関による再現を重視すべきだ」という尤もな批判も含めて、やはり各所から批判的なコメントが相次いだようです。

一方で、遅々として進まない再現性問題への心理学分野からの改善の取り組みを非難する動きが若手からも出ているようで、例えばこちらの論説*2では「再現性問題に悩まされながら心理学の研究を続けるくらいならアカデミアを辞めて産業界で就職するのも良い」とまで書いています。ちなみにこの著者自身も既に心理学の研究者を辞めてTwitter社のデータサイエンティストに転じているとのことで、まさに体を張った主張と言えるかと思います。

再現性問題の構図

本特集の鼎談でも触れられていますが、再現性問題にはreproducibilityとreplicatabilityとがあり、これはそのまま「内的妥当性」「外的妥当性」の問題に分離できるとされます。鼎談の中では

ある研究の結果が同じデータ・環境のもとで「再生」できる場合には「内的妥当性」が成り立っており、また、その結果が異なるデータ・環境のもとで「再現」できる場合には「外的妥当性」が成り立っている

と表現されており、僕の理解では「そもそも実験や分析の本質的な設定が不適切である（故に同じデータ・環境でも再現できない）」ケースと、「実験や分析自体の根源的で不可避なばらつきが影響している（故に異なるデータ・環境の時に再現できないことがある）」ケースとがあると言えそうです。このため、再現性問題といった場合には原則として前者を指すことが多いようです。ただし、心理学などの分野では第三者実験による再現性が問われることがあり、どこまでを「同じデータ・環境」と捉えるかは分野によって差異があるように見受けられます*3。

では、具体的に「何」が再現性問題を引き起こしているのでしょうか？　本特集では様々なQuestionable Research Practices（QRPs：正当性に疑問符のつく研究慣行）が横行していることが原因であると指摘しており、本特集の「心理学における再現性の危機」章ではその代表例として

p-hacking: 分析結果が統計的に有意になるように操作する行為
Cherry-picking: 分析全体のうち都合の良い部分だけを切り出して報告する行為
HARKing (Hypothesizing After Results Known): 分析結果を知った上で、あたかもその結果が事前に予測されていたかのように報告する行為

の3点を挙げています。p-hackingには様々な方法がありますが、例えば「実験途中で分析を行い有意な結果が得られた時点でサンプルの追加を打ち切る」「恣意的に外れ値を選んで分析結果を有意にする」といった行為も含まれます。Cherry-pickingも様々な方法があり、ポピュラーなところでいえば「有意な結果を示した指標だけを選んで報告する」行為が当てはまります。難しいのがHARKingで、昔取った杵柄であるヒト脳機能画像実験で言えば「X脳部位の活動が元々の仮説ではA/B条件で比較するとB > Aとなるはずだったが、Xではそうならなかった一方でY脳部位ではB > AとなったのでYに関する新発見として当初の仮説を書き換えて論文にする」というようなケースが該当します。なお当該章で引用されている論文の数値的シミュレーションによれば*4、これらのQRPsを全て組み合わせると偽陽性率は約60%にまで跳ね上がる可能性があることが示されているそうです。

では何故そのような悪しきQRPsが横行するのでしょうか？　この点について当該章では「QRPsによってトップジャーナルに論文が採択されやすくなるという出版バイアスの問題がありそうである」と指摘しています。即ち、研究者の誰もが論文を載せたがるトップジャーナルになればなるほど、p < 0.05なる有意な分析結果がズラリと並んだ斬新かつ説得力ありげな論文を（編集部や査読者が）好むという傾向があり、それ故に研究者の側も必死になってQRPsを駆使してp < 0.05を量産するということです。

そのようなQRPsを抑制するための方法として、現在普及が試みられているのが仮説の導出・実験計画・分析計画を「事前登録」(pre-registration)するという仕組みです。これによって「実験の進行具合によって事後にQRPsをはたらく」ことを抑制し、加えて生データをオープンリポジトリに登録して公開することで、誰でも事前登録された手順に沿って研究結果の再現性を検証できるようになります。さらにQRPsに走るインセンティブを低減させるため、事前登録された内容次第で論文の採否を先に決めてしまうというポリシーを導入する論文誌も現れているようです。これなら、出版バイアスをも回避することができます。

最後に、本特集の最後の章で統計学者のマクリンさんが指摘されている通りで「分析手法そのもの」の問題があります。これは多くのデータ分析がNHSTを用いている一方で、実際の実験目的がこれと本質的には相性が悪い点にあるという指摘です。即ち、検定で得られるp値があくまでも「帰無仮説が正しいとしたときの確率分布のもとで、観測したデータによる統計量の値、もしくはそれより極端な統計量をとる確率」とされる一方で、大半の研究で関心があるのは対立仮説が真である確率（これはNHSTの枠組みでは全く与えられない）だからです。さらに「p値が尤度原理に反しているために同一のデータに対して一貫した推論ができない」という点も指摘されていますが、これの詳細についてはスペースの都合上割愛させていただきます（本書を是非お読みください）。

その解決策として紹介されているのが、Benjamin & Berger (2019)による以下の提案で、

有意水準を5%から0.5%に変更し、5%未満0.5%以上なら「有意(significant)」ではなく「示唆的(suggestive)」とする

p値とともにベイズファクターの上限である $(-ep\mathrm{log}(p))^{-1}$ を報告する

事前オッズとベイズファクターを求め、事後オッズを計算する。ベイズファクターの代わりに上記の上限で事後オッズを計算しても可

というようにベイズファクター（ベイズ因子）を積極的に活用することを求めています。ベイズファクターはその定義上「帰無仮説と対立仮説のどちらがより確からしいか」を定量的に示すことができるという点で、帰無仮説についての情報しか持ち合わせないNHSTのp値よりも優れていると言えます。

なお、後述するIoannidisのメタアナリシスでも指摘されるように「p = 0.05付近のp値を報告する研究の多くで検定力が低い」傾向が強い一方、Open Science Collaborationの再現実験プロジェクトでも「p < 0.005などより低い閾値を設定した研究の再現性は高い」と報告されていることもあり、この点を踏まえてBenjamin et al. (2018)では手軽な改善策として「有意性の閾値を0.05ではなく0.005にすべきである」と提案しています。

データで見る再現性問題

再現性問題の数値的なデータという点では、Open Science Collaborationが最初に報告した「再現率4割程度」という数字が最も有名なのではないかと思われます。一方で、Ioannidisの一連の論文を初めとするメタアナリシス的なアプローチからも、様々な側面から見たデータが得られているようです。

このブログでも以前論文紹介の形で取り上げたことがありますが、例えば2017年のIoannidisのメタアナリシスでは主要な認知神経科学分野の論文誌に掲載された論文が偽陽性を報告している確率は「50%以上」と推定しています。これは「あくまでも一般的な当該分野の研究が内在する不確定性をもとにした」数字だと断り書きが付されていますが、Open Science Collaborationの再現率4割とそれほど大きな差はありません。

また、同じIoannidisのメタアナリシスでは「インパクトファクター(Impact Factor: IF)の高い論文誌ほど掲載された論文中で報告される統計分析結果の検定力が低い」という傾向が明らかにされています*5。これは言い換えると、トップジャーナルになればなるほど偽陽性が報告されている可能性が高いということになります。

さらに、先述した通り同じメタアナリシスでは「p = 0.05より僅かに低いゾーンに報告されるp値が集中する」傾向が強いと報告されています。これはいわゆる大相撲の八百長疑惑における「7勝7敗の力士」問題と同じで、当落線上の分析結果に対してQRPsが行われる傾向があることを暗示しているといって良いでしょう。

個人的には、個々の研究の再現性だけを論っていても見えてこないことが全体の傾向を精査することで見えてくるという点で、メタアナリシス的手法による再現性問題の検証には大きな意味があると思っています。

かつて研究の現場で目撃した再現性問題の実態

3年前の回顧録記事にも書いたように、僕はかつてヒト認知神経科学（心理学）分野の研究者でした。これはある意味で再現性問題の当事者そのものだったということでもあり、それ故にどうしても再現できなかった先行研究の例*6や、実際に現場で目撃したQRPsの事例も数多くあります。目ぼしいものだけでも、以下のような事例が挙げられます。

予定した人数の被験者を集めて実験したが分析結果が有意にならなかったので、有意になるまで人数を増やして実験し続ける
大人数の被験者を集めて全員に実験を行い、そもそも「都合の良い結果を残した」被験者のデータだけを採用する
大人数の被験者を「予備実験」の名目で集めて全員に予備実験を行った上で、「都合の良い結果を残した」被験者だけを選抜して「本実験」に回す
被験者を実験のために招くも、朝から晩までMRI装置の中に拘束してひたすら同じfMRI実験を繰り返し続け、「都合の良い結果」が得られるまで解放しない
「naiveな被験者」と論文中ではうたっているが、実際には事前に被験者に「どのような結果が期待されているか」がしつこく説明されている
実際にはn名の被験者で実験しているが、サンプルサイズnの分析では有意な結果が得られず、そこで1人につきmセッション実験しているのを良いことに、データ分析の際にサンプルサイズn×mとして分析する

1番目の事例は再現性問題の話で最初に出てくる例なので論を俟たないでしょう。事前にサンプルサイズを設計しておかないのは典型的なp-hackingです。また2-4番目の事例に共通するのは「研究計画で想定したような実験課題への反応行動を（居眠りしたり集中力を欠くことなく）正しく行えているかどうか」を金科玉条として、都合の良いデータだけを抜き出してくるp-hackingもしくはcherry-pickingです。

5番目の事例はどちらかというと「サンプルに対する操作（改竄）」なのではないかと思うのですが、事前に都合の良いサンプルを増やそうとしているという点ではcherry-pickingなのかもしれません。6番目の事例は正直に論文中で申告したら査読でrejectされる可能性の高い話で、これを知らん顔で無申告で通す*7ということはサンプルサイズの改竄行為であり、一種のp-hackingと言えるでしょう。

しかし、これらのQRPsについて当事者たる研究者たちが罪の意識や後ろめたさを感じているかというと、そうでもないことが少なくないようです。それはやはり自然科学実験に遍くつきものの「ノイズ」「ばらつき」を排したいがために「データの質」にこだわるというゴールデンスタンダードが多くの研究分野でまかり通っているせいもあるのでしょう。極端なケースでは、「人類普遍の脳機能を調べているのだから、本来なら誰でも期待通りに反応するはずであり、期待通りに反応しない被験者はデータから削除して構わない」と嘯くPIに出くわしたことすらあります。ここまで来ると本来の意味での「確信犯」*8という感があり、清々しくなりますね。うっかりするとQRPsとされている行為を行うことが「ノイズの少ない綺麗な科学的知見を得られるための正しい行動」とすら信じている研究者もいるのではないでしょうか。

……という感じで偉そうなことを書いていますが、恥ずかしながらこの記事を書いている僕自身もまた、かつてはそれはそれは素晴らしい「再現性問題の申し子」だったと思います。ポスドクだった頃の僕の研究と言えばマニアックな実験テーマばかり手掛けていたせいで被験者の人数こそ多くはなく、データの選別はやりたくても出来ないという有り様でしたが、その代わり悪魔のようなp-hackingをこれでもかと発明し続けていたものです。

真似する人が出ると困るので字面でだらだらと書いておくと、「まずサンプル（被験体）内での関心領域ごとのp値を算出した後で、これをサンプル間をまたぐメタアナリシスとしてグループ全体での統合統計量を算出し、さらにこれを関心領域間でブートストラップ法を用いてクロスリサンプリングして経験的null分布を作り、最後にその経験的null分布に対する実測統合統計量のパーセンタイル点を出してこれが95%を超える(p < 0.05)ことを示す」というやり方でした。そして、実際にこれで査読を通しています。ただし、データサイエンティストとして統計学を使った仕事を生業にするようになった身からすると、これぞ「p < 0.05を作り出すために悪魔に魂を売った輩の所業」なんですよね……。
（太字本文ママ）

上記のように以前Quoraに書いた通りで、こんなことをしていたらそれこそ「どんな実験結果でも無理やりp < 0.05にすることが可能」ということになりかねません。今となっては、我ながら途方もない無(null)をやったなぁという感想しかないです。

ともあれ、これまで見てきたように、ここ数年は各分野で再現性問題が大きく話題となり活発に議論されてきたわけです。ところが、最近の論文によれば「2015年の大規模な追試実験で再現できなかった心理学分野の論文のうち、2015年以降も再現に『失敗』した論文は依然として『成功』した論文と同じくらいのペース*9で引用され続け、さらにそれらの『失敗』した論文を引用する際に2015年の大規模な追試実験を併せて引用した論文は3%未満に過ぎなかった」そうです。どれほど再現性問題が議論を呼んでも、その議論を受けて自身の研究に再現性を意識した対策を取り入れようとする研究者は残念ながらまだまだ少ないということなのでしょう。先述した「現場」の目撃談を鑑みるに、これは納得感のある話です。

結局のところ「自分に都合の良い結果だけを発表したい」という、それこそ人類普遍の欲求というか欲望が再現性問題の根幹にあるわけで、そこをいかにして押さえ込むかという「再発防止の仕組み」が求められているのだと個人的には考える次第です。

ビジネスシーンにも根を張る再現性問題

ところで、再現性問題を抱えるのは決して基礎研究の世界だけではありません。先日のことですが、こんな報道が巷で話題になっていました。

消費者庁によりますと、会社が調査を委託した広告代理店とマーケティングのコンサルタント会社が、もともとおよそ400人から回答を得て2位だったアンケート調査の結果を、ほかのサロンを選んだ回答者を省くなどしておよそ280人に減らして「1位」という結果に変えて会社に報告し、会社側はそれを知らずに広告を制作したとしているということです。

これは心理学分野での例同様に、れっきとしたデータの「選別」(cherry-picking)によって作為的な結論を得るQRPsである上に、その不正な結果をもとに広告を制作し出稿したがために景品表示法違反（優良誤認）に問われる事態になったものです。

良いか悪いかは別として、広告・マーケティング業界では表現や文言を「盛る」行為はいくらでも横行しています。それは、これまた良くも悪くも「根拠のない主観的な内容」だからこそ黙認されてきたという側面もあります。しかし、ひとたび消費者リサーチのような定量的な調査を行い、その結果をもとに広告・マーケティングを手掛けるならばそれは既に「主観的」ではなく、十分過ぎるくらい「客観的」であり一定の「根拠」が求められるということでもあります。

その意味で言えば、近年のデータドリブン・マーケティングの隆盛に伴い定量的なデータに基づく分析を行うこと、そしてその分析結果に基づいて意思決定したりクリエイティブを制作したりすることが増えた広告・マーケティング業界においても、学術研究分野同様に再現性問題を抑制するためのアプローチが必要になってくるということなのだろうと思っています。

本質的には「局所最適ではなく大域最適を目指すインセンティブとなる」評価基準が必要

ここまで再現性問題について様々に考察してきましたが、個人的に強く思うのはやはり「自分にとって都合の良い分析結果が欲しい」という人類普遍の欲求というか欲望こそが再現性問題の最大の要因なのではないか、ということです。既に見てきたように、例えば事前登録なりNHSTの新たな方法論なりを導入するという解決策が提案されてきているわけですが、人類普遍の欲望の前ではなかなか難しいのではないでしょうか。

例えば、事前登録の導入で想定される帰結として「有意な結果にならなかった」という研究論文が採択されるようになる、またそういったnegative resultsを歓迎する論文誌が登場する、というものがあります。ただ、これも現在の「新規性ある有意な結果だけが尊ばれる」という価値観全体が変革されない限り、「ただ単に失敗に終わった研究のお焚き上げ先」に堕してしまう可能性が否定できません。この試みを建設的なものにするために、そもそも論として「negative resultsの捉え方」自体を全面的に変革する必要があると僕個人は考えています。

即ち、negative resultsを報告する論文といっても「Aという仮説を証明するためにBという実験を行ったが有意な結果にならなかった」というだけで終わらず、「Bという実験が有意な結果にならなかったということはCもしくはDという仮説が正しい可能性が高くなる」というような、その研究テーマ全体のperspectiveを刷新するようなストーリーになっているべきだと思うのです。

もっと踏み込んで言えば、自分の研究をその分野全体の大きな潮流の中の一つのパーツと位置付けて、「仮説が正しかった場合」「正しくなかった場合」のどちらであっても分野全体にどう貢献し得るかが説明できる、というストーリーであって然るべきだと思うんですよね。それは分野全体の未来を見据えた「大域最適」を目指す努力であるべきで、「自分の研究が論文としてacceptさえされればOK」というような個人の利益に囚われた「局所最適」に陥るべきではないはずなのです。そして、「大域最適」を目指して分野全体の未来の方向性を示せる優れた研究にこそ、高い評価が与えられるべきだと考えます。ここまでやってこそ「事前登録」「negative resultsを受け入れる論文誌」は有意義なものになるのではないでしょうか。そして、各分野でpositive / negative resultsどちらであっても分け隔てなく「大域最適」に着目して評価するような潮流が生まれれば、自然と再現性問題は解消されていくのではないかという期待があります。

しかしながら、少なくとも観測範囲における再現性問題を抱える諸分野においては、未だもって「新規性ある『有意』な知見こそが全てでありそれを自分が論文にして採択されるのが至上命題」「再現性なんかどうでも良い」と言わんばかりの研究態度が横行しているように見えます。それは、「論文が」「良い論文誌に」載らなければ競争的研究資金もテニュアの職位も手に入らないという現在の研究環境では、避けようのないことなのかもしれません。けれども、そういう不毛な局所最適（個人の利益）を大量に集めたところで、分野全体の大域最適（学術体系としての信頼性）は得られないのではないでしょうか。今後もそれらの諸分野における再現性問題と、それに伴うそれらの分野への信頼の低下は、悪化の一途を辿るのではないかというのが僕の個人的な観測です。

そしてこれは、先述したように潜在的な再現性問題を抱える広告・マーケティング分野で現在働く我が身にとっては（そしてかつて渦中の分野の研究者だった身としては）、断じて対岸の火事ではありません。分野全体の社会からの信頼を保つためにも、個々人・個々の組織が保身のために行うような局所最適は可能な限りその芽を摘み、分野全体の大域最適を目指す不断の努力が必要なのでしょう。

ビジネスの世界なのでどうしても同業他社とは競争・競合という関係になりがちですが、その中にあっても同じようなデータ分析を手掛ける専門職同士で再現性問題に関する議論の場を持ち、会社や組織をまたいで広告・マーケティング分野の信頼性を担保するような努力をしていければ、と願う次第です。というわけで、特に広告・マーケティング分野でデータ分析に携わっていて、再現性問題に興味がおありの方からこの記事への反応をいただければ有難いです。よろしくお願いいたします。

*1:例えば：Why is the scientific replication crisis centered on psychology? | Statistical Modeling, Causal Inference, and Social Science

*2:全文がPsyArXivで読めます：https://psyarxiv.com/jqw35

*3:鼎談の中では「学生を対象にした」実験と「社会人を対象にした」実験とで結果が再現しないケースは許容されても、「同じ大学の別々の群の学生を対象にした」実験で結果が再現しないケースでは内的妥当性に問題があると看做すという話が出てきます

*4:Simmons, Nelson & Simonsohn (2011)

*5:インパクトファクターは定義としてはあくまでも個々の論文誌に掲載された論文全体の平均的な被引用数の多さを表すものに過ぎないが、これが高い雑誌に論文が載れば被引用数が多くなると期待されることから、事実上の論文誌の「研究者が論文を載せたくなる人気度」として扱われることが多い。また高IF誌に論文を載せた研究者が高く評価されることから、過去に出版した論文のIFを合計して「生涯獲得IF」なる指標として評価基準にするなどの非本質的な利用のされ方も多く、近年批判の対象となっている

*6:3年前の回顧録でも触れた話

*7:ただし論文中の統計量には自由度が添字で書かれているので査読時に注意深く読めば分かるはず

*8:文化庁 | 文化庁月報 | 連載「言葉のQ&A」

*9:5-9%減ではあるようだが