你打开 ChatGPT,输入了一个问题:
"我的研究有很多缺失数据,怎么处理?"
AI 回复了五六段话,讲了均值插补、多重插补、完整案例分析……每种方法都提了,每种方法都没讲清楚。你看完之后,还是不知道自己的数据该用哪种方法。
这不是 AI 不够聪明,而是你问的方式,从一开始就注定了这个结果。
临时提问的三个致命缺陷
缺陷一:AI 不知道你是谁
"怎么处理缺失数据"这个问题,高中生可以问,数据科学家可以问,临床研究者也可以问。但三类人需要的答案完全不同。
当你没有告诉 AI 你的背景,它只能给出一个最"安全"的通用答案——面面俱到,但对你毫无帮助。
反例:同样的问题,加上角色设定之后会完全不同:
"你是一位有 10 年临床研究经验的生物统计学家,我是一名刚开始做队列研究的住院医师……"
AI 立刻知道该用什么语气、什么深度来回答你。
缺陷二:AI 不了解你的具体情况
医学研究的缺失数据问题,答案取决于太多细节:
- 缺失的是什么变量?连续型还是二元变量?
- 缺失比例是多少?5% 还是 30%?
- 缺失是随机的(MAR)还是非随机的(MNAR)?
- 你用的是什么统计软件?
这些信息你脑子里都有,但你没有告诉 AI。AI 只能用猜测填补这些空白——而它的猜测往往是错的。
结果就是:你得到了一个看起来很完整、实际上跟你的研究毫无关系的答案。
缺陷三:没有规定输出格式
同样一个问题,AI 可以回复成:
- 一篇科普文章
- 一个操作步骤列表
- 一段可以直接放进 Methods 的段落
- 一个比较各方法优劣的表格
你想要哪种?你没说,AI 就自己决定了——通常是它认为最"自然"的方式,而不是你真正能用的方式。
一个真实的对比
下面是两种提问方式,问的是同一件事:PICO 研究问题的构建。
方式 A(临时提问):
"帮我写一个 PICO 研究问题,关于 2 型糖尿病的药物治疗。"
AI 给出的,通常是一个通用的示例,跟你实际的研究没有任何关联。
方式 B(结构化提问):
"你是一位临床流行病学专家,擅长指导住院医师设计观察性研究。
我正在设计一项回顾性队列研究,研究对象是 18-65 岁在社区医院就诊的 2 型糖尿病患者。我想比较 SGLT-2 抑制剂和 DPP-4 抑制剂对主要心血管事件(MACE)的影响,随访时间 3 年,已排除基线心衰患者。
请帮我:
- 构建完整的 PICO 框架(每项单独列出)
- 识别研究问题中可能存在的混淆因素
- 提供 3-5 个 PubMed 检索关键词组合
输出语言:中文"
方式 B 得到的答案,是你可以直接放进开题报告的内容。
结构化提示词的三个要素
好的医学科研提示词,都包含三个核心部分:
| 要素 | 作用 | 示例 |
|---|---|---|
| 角色设定 | 告诉 AI 用什么专业背景来回答 | "你是一位有临床试验经验的生物统计学家" |
| 研究背景 | 提供足够的上下文,让 AI 理解你的具体情况 | 研究设计、样本、变量、已知条件 |
| 输出规格 | 规定回答的结构和格式 | "按 PICO 格式分点列出,附 MeSH 检索词" |
三个要素缺一不可。缺少角色,答案太通用;缺少背景,答案跟你的研究无关;缺少输出规格,答案格式你没法直接用。
为什么"自己写"很难坚持
道理都懂,但实际操作时,大多数研究者坚持不下去:
- 每次从头写太费时间:写一个好的结构化提示词,本身就要花 10-15 分钟
- 不知道该提供哪些背景信息:不同的科研任务,需要的上下文完全不同
- 容易遗漏关键约束:比如忘记告诉 AI "不要使用逐步回归",结果 AI 给出了一个统计学界已经不推荐的方法
- 不知道专业领域的"防错规则":比如对二元变量不能做均值插补,这个坑只有踩过才知道
这些问题,靠临时提问是无法解决的。
更好的做法
针对医学科研每个阶段的常见任务,都有经过优化的结构化提示词模板。这些模板已经内置了:
- 合适的角色设定和专业背景
- 覆盖该任务的关键信息采集问题
- 防止 AI 产生常见错误的约束规则
- 标准化的输出格式
你需要做的,只是填写你的研究信息——研究设计、变量、样本——然后把生成的提示词复制到任意 AI 工具中。
从文献调研、PICO 构建、统计方法选择,到论文润色、摘要生成,每个阶段都有对应的模板。
免费模板直接可用,无需注册。
