如何阅读补充剂研究:资金、终点、样本量和效应大小(2026)
一本实用的科学素养指南,教你如何阅读补充剂研究。研究层级、替代终点与硬终点、行业资金偏见、p-hacking、亚组陷阱,以及效应大小与统计显著性之间的关系。
大多数补充剂的营销都引用研究,而这些研究大多并不支持其声明。 在“某项研究显示”和“证据支持”之间的差距,就是补充剂行业的生存之地。学习如何阅读研究只需不到一个小时的时间,但收益却是永久的。你需要了解五个关键点:研究在证据层级中的位置、测量的终点、参与人数及研究持续时间、资金来源,以及效应大小是否具有临床意义或仅仅是统计显著性。本文将逐一讲解这些要点。
科学素养并不是科学主义。你不需要否定每一项非随机研究或拒绝每一篇行业资助的论文。你需要的是调整你的信心。单一的小规模试验,若有替代终点和行业赞助,可能会让你稍微动摇。而一项Cochrane元分析,若整合了多项高质量的RCT并发现小效应或无效应,则会对你的看法产生重大影响。
证据层级
从弱到强
| 研究类型 | 典型目的 | 常见陷阱 | 决策中的权重 |
|---|---|---|---|
| 病例报告 | 描述罕见事件或新观察 | 不具普遍性;无对照 | 仅用于生成假设 |
| 横断面研究 | 观察流行率/关联 | 无法确定时间;混杂因素 | 低 — 探索性 |
| 病例对照研究 | 回顾性比较 | 回忆偏差;选择偏差 | 低-中等 |
| 前瞻性队列研究 | 追踪群体 | 未测量的混杂因素;持续时间长 | 中等 |
| 随机对照试验(RCT) | 测试因果效应 | 样本量小;持续时间短;替代终点 | 高,若设计良好 |
| 元分析/系统评价 | 整合多项RCT | 异质性;发表偏倚 | 高 |
| Cochrane评价 | 严谨的系统评价 | 问题范围狭窄 | 针对补充剂的最高权重 |
实际意义
如果一项补充剂主要由横断面研究和几项小规模RCT支持,那么你看到的只是一个信号,而非结论。如果Cochrane评价整合了RCT并发现小效应或无效应,这将比任何相似规模的新试验更具说服力。
终点:替代终点与硬终点
定义
硬终点是具有临床意义的结果:死亡、卒中、心脏病发作、骨折、住院、疾病诊断。
替代终点是被认为能反映硬终点的生物标志物:LDL胆固醇、血压、HbA1c、骨矿密度、炎症标志物。
区别的重要性
替代终点的测量速度更快、成本更低,但并不总能转化为硬终点。医学史上充斥着那些在替代终点上取得进展却未能改善死亡率的药物(例如CAST试验中的抗心律失常药物)。补充剂试验几乎总是使用替代终点,因为硬终点需要大规模、长时间、昂贵的研究。
当补充剂广告声称“临床证明能降低LDL”时,其实是说:“在一项研究中,某个生物标志物发生了变化。”而这个生物标志物的变化是否能带来更长或更健康的生命,则是另一个问题。
样本量和研究持续时间
为什么样本量是首要关注的数字
一项20人的研究无法可靠地检测到任何效果,除了极大的效应。大多数补充剂并不会产生如此巨大的效果。样本量小的试验容易出现“赢家的诅咒”——真实但微小的效应在偶然中被高估,随后在重复试验中缩小。
功效计算
可信的研究会报告预先设定的功效计算:“我们招募了180名参与者,以便在α=0.05的情况下检测到10%的差异,功效为80%。”未报告功效计算或在查看数据后调整样本量的研究应谨慎解读。
持续时间
许多补充剂的终点需要至少8到12周才能测量。六周的皮肤弹性、软骨恢复或认知表现试验往往低估了需要更长时间才能显现的效果。相反,长时间的试验如果在早期中期分析时就开始报告结果,可能会夸大短期效果。
资金和利益冲突
行业资助的研究偏向积极结果
Lesser等人(BMJ 2007)发现,行业资助的营养研究更可能报告对赞助方有利的结果,而独立资助的研究则较少出现这种情况。后续对制药和食品行业资助的研究反复验证了这一模式。
这并不意味着行业资助的研究是伪造的。它意味着研究设计选择、终点选择和选择性发表都会稍微倾斜研究结果。一项行业资助的积极试验对你的看法影响应小于一项同样规模的独立试验。
利益冲突披露
信誉良好的期刊要求作者披露资金来源和利益冲突。在阅读摘要之前,先查看披露部分。如果通讯作者是赞助方的付费顾问,而研究结果是积极的,那么你需要相应地调整你的看法。
P-hacking和多个终点
P-hacking的表现
一项研究测量了20个结果,其中一个偶然达到了p < 0.05。论文以此为头条,这被称为“多重比较”或“分叉路径的花园”,会导致假阳性增加。
警示信号
- 注册时列出的主要终点与发表论文中的主要终点不同(查看ClinicalTrials.gov)。
- 摘要强调了次要或亚组分析。
- 对多个比较未进行修正(Bonferroni,Benjamini-Hochberg)。
- 仅对亚组报告显著结果(例如,“在55岁以上且基础维生素D水平低的男性中”)。
亚组分析
亚组发现应被视为生成假设,而非结论,除非研究预先设定了测试该亚组并具备足够的功效。
效应大小与统计显著性
为什么“统计显著”并不足够
p值告诉你在零假设为真的情况下,观察到的数据有多不可能。它并不告诉你效应有多大或是否具有临床意义。
一项设计良好的研究,即使有5000名参与者,也能将微不足道的小效应检测为统计显著。正确的问题是:效应有多大?它重要吗?
有用的效应大小指标
- Cohen's d:两个均值之间的标准化差异。d = 0.2为小,0.5为中等,0.8为大。
- 风险比/赔率比:治疗组中某结果发生的可能性增加(或减少)多少。
- 治疗所需人数(NNT):需要多少人服用该补充剂,才能使一人受益。NNT为10是强效;NNT为500对大多数健康人来说微不足道。
- 绝对风险减少:实际的百分比变化,而非相对变化。从2%降到1%是50%的相对减少,但仅是1个百分点的绝对减少。
相对风险减少常被用于营销,因为它听起来比实际要大。
重复性
一项研究只是一个假设
无论设计多么良好,单一研究只是一个起点。重复性——理想情况下由不同研究团队在不同人群中进行——才是将发现转化为证据的关键。那些有积极单一试验但未能重复的补充剂(例如,白藜芦醇在人体中的长寿效果)应谨慎对待。
预注册
检查该试验是否已预注册(ClinicalTrials.gov,ISRCTN或期刊注册)。预注册减少了结果转换和选择性报告的机会。
提问任何补充剂研究的五个问题
- 谁资助的? 行业赞助是一个校准因素,而不是取消资格的理由。
- 样本多大? 样本量和预设的功效。
- 持续多长时间? 是否与声称的效应生物学相匹配?
- 测量什么终点? 硬结果还是替代标志物?
- 是否重复? 是否有关于这个问题的元分析或Cochrane评价?
如果你能回答这五个问题,你就能比大多数引用这些研究的营销部门更批判性地阅读大部分补充剂研究。
Nutrola与基于证据的选择
Nutrola专注于证据追踪,而非营销声明。该应用程序以每月€2.50的价格跟踪100多种营养素、补充剂摄入和生物标志物变化,且无广告,用户可以在发布的证据旁进行自己的n-of-1实验。Nutrola Daily Essentials(每月$49,实验室测试,欧盟认证,100%天然)围绕多项RCT或Cochrane级别支持的成分,而非单一试验的炒作。
Nutrola在1,340,080条评论中获得4.9星的好评。
常见问题解答
RCT总是比队列研究好吗?
对于因果问题,答案是肯定的——一项设计良好的RCT比同样规模的队列研究更具说服力。但队列研究对于长期结果(死亡率、慢性疾病)至关重要,而RCT很少测量这些。两种研究类型是互补的。
什么是临床意义的效应大小?
这取决于结果。收缩压降低3 mmHg在个体上是适度的,但在群体层面上是有意义的。在100分的睡眠评分上提高1分通常没有意义。始终询问特定结果的大小是否重要。
我应该相信行业资助的研究吗?
你可以阅读,但要给予较低的权重。行业资助的研究更可能报告有利的发现。一项行业资助的积极试验不应超过显示无效的Cochrane评价。
系统评价和元分析有什么区别?
系统评价是对文献的结构化、规范化搜索和总结。元分析定量整合多项研究的结果。Cochrane评价同时具备这两者的特点。
我如何判断某个补充剂是否有良好的证据?
从NIH膳食补充剂办公室的事实表、Cochrane评价和主要的元分析开始。补充剂公司的网站并不是证据基础;它们是选择性引用证据的销售材料。
为什么Nutrola强调阅读研究?
因为发布的证据与营销声明之间的差距是这一领域浪费资金的最大来源。教用户如何阅读研究比给他们一份批准产品清单更便宜且更持久。
医疗免责声明
本文仅供教育目的,不构成医疗建议。个人健康决策的研究解读应理想上由合格的临床医生进行。切勿仅根据单一研究开始、停止或更改补充剂或药物。
参考文献
- Lesser LI等。资金来源与营养相关科学文章结论之间的关系。PLoS Med / BMJ。
- Higgins JPT等。Cochrane系统评价手册。
- Ioannidis JPA。为什么大多数已发布的研究结果是错误的。PLoS Med。
- Chan AW等。SPIRIT 2013声明:为临床试验定义标准协议项目。Ann Intern Med。
- Schulz KF等。CONSORT 2010声明:更新的平行组随机试验报告指南。BMJ。
- Fleming TR,DeMets DL。临床试验中的替代终点:我们是否被误导?Ann Intern Med。
- Head ML等。科学中p-hacking的程度及其后果。PLoS Biol。