매년 수천 편의 의학 논문이 거절됩니다. 가장 흔한 심사자 의견 중 하나는 이렇습니다:
"통계 방법 선택이 부적절하여 결론의 신뢰성이 손상됩니다."
그 문장 뒤에는 대개 세 가지 매우 구체적인 실수가 있습니다.
실수 1: 편포된 데이터를 평균 ± 표준편차로 보고하기
이런 내용을 쓴 적 있으신가요?
"입원 기간은 8.3 ± 12.7일이었습니다."
평균 8.3, 표준편차 12.7. 표준편차가 평균보다 크다—이것은 거의 항상 우편포 분포를 나타냅니다.
입원 기간, 의료 비용, 생존 시간—이런 변수들은 자연적으로 하한선이 0이고 긴 우측 꼬리를 가집니다. 평균으로 설명하는 것은 학생 절반이 억만장자 옆에 앉은 교실의 평균 소득을 말하는 것과 같습니다: 기술적으로는 정확하지만, 완전히 오해를 불러일으킵니다.
대신 해야 할 것:
- 평균 ± 표준편차 대신 **중앙값(IQR)**으로 보고하기
- t검정을 Mann-Whitney U(두 그룹) 또는 Kruskal-Wallis(여러 그룹)로 교체하기
많은 연구자들이 이 규칙을 이론적으로 알고 있습니다. 하지만 분석에 도움을 받으려고 범용 AI에게 물어보면, AI는 데이터 분포에 대해 한 번도 묻지 않고 기본적으로 평균 ± 표준편차와 t검정을 제시합니다.
실수 2: 보정 없이 다중 비교 수행하기
네 가지 치료군을 여섯 가지 쌍별 검정으로 비교하며, 각각 p < 0.05를 기준으로 사용합니다.
문제는: 여섯 가지 검정으로 적어도 하나의 가양성이 발생할 확률이 26%를 초과한다는 것입니다.
이것이 다중 비교 문제입니다. 각 검정은 가양성을 위한 동전 던지기입니다. 더 많은 검정을 실행할수록 실제로 존재하지 않는 것을 발견할 가능성이 높아집니다.
경험 많은 심사자들은 이것을 즉시 발견합니다. 논문이 대폭 수정으로 반려되는 주요 이유 중 하나입니다.
대신 해야 할 것:
- Bonferroni 교정 사용하기 (보수적; 확증적 연구에 적합)
- 또는 FDR 교정(Benjamini-Hochberg) (더 높은 검정력; 발견적 연구에 더 좋음)
실수 3: 변수 선택에 단계적 회귀 사용하기
"최종 모델에 어떤 변수가 포함될지 선택하기 위해 단계적 회귀를 사용했습니다."
이 문장은 수십 년 동안 통계 심사자들에게 위험 신호였습니다.
단계적 회귀의 문제점:
- 불안정한 결과 — 다른 표본으로 바꾸면 선택된 변수가 완전히 달라질 수 있음
- 왜곡된 p값 — 여러 번의 필터링 후 최종 모델의 p값은 더 이상 올바르게 해석될 수 없음
- 과적합 — 모델은 데이터에서 잘 작동하지만 새로운 환자에게는 일반화가 잘 되지 않음
이 방법은 계산 제약으로 인해 1970년대에 보편화되었습니다. 그 제약은 사라졌습니다. 방법의 결함은 남아 있습니다.
대신 해야 할 것:
- LASSO 회귀 (L1 정규화; 자동으로 중요하지 않은 계수를 0으로 축소)
- Elastic Net (LASSO와 Ridge를 결합; 다중공선성을 더 잘 처리)
- 또는 데이터 기반 자동화가 아닌 사전 임상 지식을 기반으로 변수 선택하기
AI가 규칙 없이 이런 오류를 발견할 수 없는 이유
ChatGPT에게 "통계 방법 선택을 도와줘"라고 물으면 일반적으로 받게 되는 것:
- 합리적으로 보이는 방법 목록
- "데이터에 따라" 또는 "일반적으로 권장"과 같은 구절로 수식된
받을 수 없는 것: 데이터가 편포되어 있는지 묻고, 다중 비교를 하는지 확인하고, 단계적 회귀를 추천하기를 거부하는 AI.
이러한 확인에는 명시적인 규칙이 필요합니다 — 시니어 생물통계학자가 방법 섹션을 검토할 때 자동으로 실행하는 종류의 규칙.
우리의 Statistical Method Advisor는 이러한 규칙을 AI 도구에 직접 내장합니다:
- 편포된 데이터 감지 → 기본적으로 비모수적 방법 추천
- 다중 비교에 플래그 → 교정 전략 요청
- 단계적 회귀 금지 → LASSO 또는 Elastic Net으로 리다이렉트
데이터 설명을 입력하세요. 심사자들이 반려하지 않을 통계 계획을 받으세요.
빠른 참조
| 실수 | 올바른 대안 |
|---|---|
| 편포된 데이터에 평균 ± 표준편차 | 중앙값(IQR) |
| 보정 없는 다중 비교 | Bonferroni 또는 FDR |
| 단계적 회귀 | LASSO / Elastic Net |
통계 방법 자체는 복잡하지 않습니다—하지만 마감 압박 하에 모든 규칙을 염두에 두는 것은 어렵습니다. 전문 AI 연구 도구가 그 체크리스트를 자동화합니다.
