毎年、何千もの医学論文が却下されています。最も多い査読者コメントの一つはこうです:
「統計手法の選択が不適切であり、結論の信頼性を損なっている。」
その一文の背後には、通常3つの非常に具体的なミスがあります。
ミス1:偏ったデータを平均値 ± SDで報告する
こんなことを書いたことはありませんか?
「入院期間は8.3 ± 12.7日でした。」
平均8.3、標準偏差12.7。SDが平均より大きい——これはほぼ確実に右歪み分布を示しています。
入院期間、医療費、生存時間——これらの変数はゼロという自然な下限を持ち、長い右の裾を持ちます。平均で説明するのは、半分の学生が億万長者の隣に座っていたクラスの平均収入を述べるようなものです:技術的には正確ですが、完全に誤解を招きます。
代わりにすること:
- 平均値 ± SDの代わりに**中央値(IQR)**として報告する
- t検定をMann-Whitney U検定(2グループ)またはKruskal-Wallis検定(複数グループ)に置き換える
多くの研究者はこのルールを理論として知っています。しかし、一般的なAIに分析の助けを求めると、AIはデータ分布について一度も尋ねることなく、デフォルトで平均値 ± SDとt検定を提示します。
ミス2:補正なしで多重比較を行う
4つの治療群を6つの対比較で比較し、それぞれにp < 0.05を閾値として使用します。
問題は:6つの検定では、少なくとも1つの偽陽性が出る確率が26%を超えるということです。
これが多重比較問題です。各検定は偽陽性のためのコイントスです。検定を多く実行するほど、実在しないものを見つける可能性が高くなります。
経験豊富な査読者はこれを即座に見抜きます。論文が大幅修正で差し戻される主な理由の一つです。
代わりにすること:
- Bonferroni補正を使用する(保守的;確認的研究に良い)
- またはFDR補正(Benjamini-Hochberg)(より高い検出力;発見的研究に適切)
ミス3:変数選択にステップワイズ回帰を使用する
「最終モデルに入る変数を選択するためにステップワイズ回帰を使用しました。」
この文章は統計的査読者にとって数十年前から赤信号です。
ステップワイズ回帰の問題点:
- 不安定な結果——別のサンプルに切り替えると、選択された変数が完全に異なる可能性がある
- 歪んだp値——複数回のフィルタリング後、最終モデルのp値はもはや正しく解釈できない
- 過学習——モデルはデータではよく機能するが、新しい患者へのの汎化が悪い
この方法は計算上の制約から1970年代に普及しました。その制約はなくなりました。方法の欠陥は残っています。
代わりにすること:
- LASSO回帰(L1正則化;重要でない係数を自動的にゼロに縮小)
- Elastic Net(LASSOとRidgeを組み合わせ;多重共線性をより適切に処理)
- または事前の臨床的知識に基づいて変数を選択し、データ駆動の自動化ではなく
なぜAIはルールなしにこれらのエラーを発見できないのか
ChatGPTに「統計手法の選択を手伝ってください」と聞くと、通常次のものが返ってきます:
- 合理的に見えるメソッドのリスト
- 「データに応じて」や「通常推奨される」などのフレーズで修飾された
あなたが得られないもの:データが歪んでいるかどうかを尋ね、多重比較をしているかどうかを確認し、ステップワイズ回帰を推奨することを拒否するAI。
これらの確認には明示的なルールが必要です——上級バイオスタティスティシャンがメソッドセクションをレビューする際に自動的に行うようなもの。
私たちのStatistical Method AdvisorはこれらのルールをAIツールに直接組み込んでいます:
- 偏ったデータを検出 → デフォルトでノンパラメトリック法を推奨
- 多重比較にフラグを立てる → 補正戦略を促す
- ステップワイズ回帰を禁止 → LASSOまたはElastic Netにリダイレクト
データの説明を入力してください。査読者が差し戻さない統計プランを取得してください。
クイックリファレンス
| ミス | 正しい代替手段 |
|---|---|
| 偏ったデータに平均値 ± SD | 中央値(IQR) |
| 補正なしの多重比較 | BonferroniまたはFDR |
| ステップワイズ回帰 | LASSO / Elastic Net |
統計手法自体は複雑ではありません——しかし、締め切りのプレッシャーの下で全てのルールを念頭に置いておくことは難しい。専門的なAI研究ツールがそのチェックリストを自動化します。
