手机禁令能提高成绩吗?一项最严格研究的回答
🎧 听语音版 (当天合集)
Hook
如果你是一位中学教师或家长,大概率会觉得以下推理无可辩驳:学生在课堂上偷偷刷手机,注意力被短视频和社交媒体碎片化,自然学不进去;禁止手机入校,学生的注意力就会回归课堂,成绩自然会提高。这个逻辑链条如此清晰,以至于在过去几年里,美国各学区掀起了一场轰轰烈烈的"校园手机禁令运动"——仅使用Yondr锁闭式手机袋(学生入校时将手机锁进一个布质磁扣袋,放学时才能解锁)的学校就覆盖了数百万学生。推动者带着近乎道德征讨的热情,声称这是一场拯救下一代注意力的战斗。
但就在2026年5月,一项由顶尖研究者完成、迄今为止数据最全面的研究给出了一个让几乎所有人大跌眼镜的结论:手机禁令对考试成绩的影响——接近于零。
这项NBER工作论文使用了覆盖全美的大规模调查数据、GPS定位信号、标准化考试成绩、学校行政记录,以及最大的手机袋供应商的销售数据,采用交错双重差分设计(staggered difference-in-differences),评估了锁闭式手机袋的实际效果。结果发现:手机使用确实减少了——GPS数据和教师报告都证实了这一点。但学生的标准化考试成绩,在禁令实施后,平均而言,纹丝未动。
这不是第一项得出类似结论的研究,但它是迄今为止方法论最严谨、数据维度最丰富的一项。它迫使我们面对一个 uncomfortable 的问题:为什么一项"显而易见应该有效"的干预,在最严格的因果检验面前,会如此彻底地失效?
基础
要理解这项研究为什么值得认真对待,必须先理解它跟前人工作的区别。
绝大多数关于校园手机禁令的早期研究都有一个共同弱点:自我选择偏误。实施禁令的学校往往不是随机选取的——它们可能是那些学生手机成瘾更严重、教师更焦虑、家长更积极推动的学校;而不实施禁令的学校可能在学生群体、社区特征、教育理念上存在系统性差异。简单比较"有禁令的学校"和"无禁令的学校"的成绩差异,你无法知道这个差异到底是禁令造成的,还是两类学校本来就不同。
新研究的关键突破在于两个设计元素。第一,它利用了Yondr手机袋在不同学校的分阶段推广(staggered rollout)——同一所学校在采用手机袋前后的自身变化,可以作为因果推断的基础,同时用尚未采用的学校作为对照组。这就是交错双重差分的核心逻辑:你不是简单比较"A校 vs B校",而是在控制时间趋势的前提下,比较"A校采用手机袋后相对于未采用时的变化"与"同一时期B校(未采用)的变化"之间的差异。
第二,研究使用了多维度、高分辨率的因变量测量,而不是单一的考试成绩。GPS定位数据可以客观测量学生在校期间的手机使用频率(通过应用活动记录);教师问卷调查学生课堂注意力;行政记录提供出勤率和纪律处分数据;标准化考试成绩提供学术成就指标。这种多维度测量的设计哲学是:即使禁令对考试成绩没有影响,它可能通过其他渠道产生效果——比如改善课堂纪律、提高出勤率、减少网络霸凌。如果这些中间变量都没有变化,那"零结果"就更加可信;如果某些渠道确实发生了变化但学业成绩没变,那就能帮助定位问题出在哪里。
理解这套方法论的重要性在于:它让我们可以将注意力从"这个研究有没有发现效果"转向"ex post(事后观测)的失效模式究竟意味着什么"。如果手机真的像禁令支持者声称的那样严重损害学习,那么在学校里实际有效禁止了手机使用之后,效果应该体现在某个可观测的维度上。而这项研究告诉我们:除了短期混乱,几乎什么都没变。
核心
研究的发现可以概括为一句话:禁令实现了它的直接目标(减少手机使用),但没能实现它的最终目标(改善教育结果)。
具体来看各项结果:
手机使用:GPS数据和教师报告一致显示,锁闭式手机袋确实大幅减少了学生在校期间的手机使用。这意味着干预本身得到了有效执行——它不是"政策出台了但没人遵守"的失败,而是"严格执行了但效果不如预期"的意外。这也排除了一个常见的辩护:禁令没效果是因为执行不力。
考试成绩:总体效应接近于零,且置信区间很窄,表明即使存在一个微小的正面或负面效应,它也不具备教育意义上的显著性。拆分来看有一个微妙的模式:高中在数学科目上出现了小幅正面效应,而初中出现了小幅负面效应。研究者对此没有给出确切解释,但一个合理推测是:高中生面临更强的学业压力(大学申请),手机干扰的边际影响更大;初中生则可能因为手机本身承担了社交缓冲和情绪调节功能,突然剥夺反而引发了适应成本。
纪律处分:禁令实施的第一年,纪律处分事件增加了。这个发现很反直觉,但如果把手机禁令理解为一种剧烈的制度变迁,就不难理解:学生需要时间适应新规则,教师需要时间建立新的管理流程,冲突在过渡期会集中爆发。好消息是,这个效应在后续年份消失了——制度一旦稳定下来,摩擦成本也随之消退。
主观幸福感:这是最值得深思的发现。禁令实施的第一年,学生的自我报告主观幸福感(subjective well-being)下降了——这不难理解,毕竟手机被剥夺了。但从第二年开始,幸福感的效应转为正向。也就是说,在经历了一段痛苦的适应期之后,学生实际上更快乐了——可能是因为社交回归了面对面的模式,可能是因为校园生活中的注意力碎片化真的缓解了,也可能是因为制度一旦被接受就不再是"压迫"而是"背景"。
出勤率、课堂注意力、网络霸凌感知:均无显著效应。
面对这样一套结果,最自然的反应是困惑:如果手机使用真的减少了,为什么学习成绩没有任何改善?
这里有一个深刻的概念张力,值得拆开来讲。"注意力"和"学习"之间的关系,远不如我们直觉以为的那样线性。 手机禁令的逻辑前提是:手机 → 注意力分散 → 学习效果下降。这个链条的第一个箭头(手机 → 注意力分散)确实成立。但第二个箭头(注意力分散 → 学习效果下降)在一个复杂的教育系统中,可能被太多其他因素中介和消解。
一个学生即便不看手机,也不一定在学习。他的注意力可以漂移到窗外的鸟、邻桌的对话、或者纯粹的内心世界中。手机是一个注意力竞争源,但把它移除后,其他竞争源并不会自动消失。换句话说,手机可能是"注意力不足"的症状,而不是病因。 如果一个学生对课堂内容本身缺乏内在动机,他拿出手机是因为无聊,那么没收手机之后,他的无聊并不会转化为学习——它只是换了一种表现形式。
这就引出了一个更深层的问题:教育干预的"理论链条"(theory of change)往往太长、太脆弱。手机禁令的ex ante(事前预期)逻辑可以写成:禁止手机 → 减少课堂注意力分散 → 教师教学效率提高 → 学生知识吸收增加 → 考试成绩提升。这个链条的每一环都有损耗。第一环(禁令到减少使用)效率较高,因为它是物理性和强制性的。但从第二环开始,每一步都依赖大量未经检验的行为假设:注意力分散减少后,残余注意力是否足以产生有效的认知加工?教学效率提高后,不同学生是否会均等受益?知识吸收增加后,是否能成功转化为标准化考试的表现?每一个"是"都需要证据,而每多一个环节,效应的衰减都会加剧。
这并非说手机禁令毫无价值。幸福感在第二年改善这一发现,如果被后续研究重复验证,可能意味着禁令的真正收益不在学业领域,而在心理健康和社会关系领域——只不过这些收益需要经历一个痛苦的过渡期才能显现。但如果你推行禁令的主要理由是"提高成绩",那这项研究表明,你的信念基础可能并不牢固。
这事实上指向了一个更普遍的现象:道德征讨(moral crusade)在教育政策中的角色。 Tyler Cowen在总结这项研究时写道:"想要以那种方式办一所学校,这没问题——但不要期待巨大的教育收益,如果有的话。关于这一点的证据正在积累,但许多人似乎无法接受这些结果。无论如何,这不值得一场重大的道德征讨。"
什么是道德征讨?它是一种将某种行为(这里是学生使用手机)定义为道德问题的社会动员——不仅仅是"不利的"或"低效的",而是"坏的"、"腐蚀性的"、"应该被根除的"。道德征讨的特征是:结果的确定性被提前锁定,不再对经验证据保持开放。 当一项政策的支持者将反对者视为道德上有缺陷或认知上有盲区时,政策的因果效应已经不再是讨论的核心——它已经变成了身份和价值观的象征。
而教育领域尤其容易产生道德征讨,因为教育的对象是孩子,任何干预都可以被框架为"为了下一代"。这是一个几乎无法反驳的道德高地。但也正因为如此,教育政策比许多其他领域更需要严格的因果推断——不是因为道德不重要,而是因为良好意图与实际效果之间的鸿沟,在教育干预的历史上屡见不鲜。
留白
这项研究留下了一个方法论上的悬而未决的问题:"零结果"在社会科学中应该被赋予怎样的证据权重?
标准做法是,零结果容易被解释为"没有发现效应"而非"证明了没有效应"——两者在统计哲学上有本质区别。但这并非一个不可逾越的障碍。当样本量足够大、测量足够精确、研究设计足够干净时,一个紧致分布在零附近的置信区间,确实可以告诉我们"如果存在一个教育上有意义的效应,它大概率不会超过X"。这项研究的置信区间足够窄,足以排除中等程度以上的正面或负面效应。这意味着,即使你坚持认为"不能证明没有效应是严格成立的",你也必须接受"如果有效应,它太小了,不值得动用这么大的社会资源去追求"。
另一个值得持续追踪的问题是:幸福感的长期改善能否被后续研究复现? 如果答案是肯定的,那么手机禁令的正当性可能需要从"学业收益"框架转移到"心理健康收益"框架——但这又涉及另一层价值判断:学校到底应该为学生的幸福感负责到多大程度?这已经超出了因果推断的范畴,进入了教育哲学的领地。
如果你对这个话题有兴趣进一步深入,以下几个入口可能有用:首先是这项研究的NBER工作论文原文,它提供了完整的方法论细节和稳健性检验;其次是教育经济学中关于"干预链条衰减"的经典文献——James Heckman等人关于早期干预和非认知技能的研究虽然不是直接关于手机禁令的,但提供了一套理解"为什么看似合理的教育干预常常失效"的理论框架;最后,如果你对"道德征讨"这个概念本身好奇,可以追溯到社会学中的道德恐慌(moral panic)理论——Stanley Cohen 1972年的经典著作《Folk Devils and Moral Panics》是这一传统的奠基之作,虽然它讨论的是完全不同的社会现象(英国六十年代的青年亚文化),但它提供了一套分析"社会为何会对某些行为产生不成比例的道德焦虑"的概念工具。
有一个问题值得悬置:如果手机禁令对学业成绩的效果是零,那为什么它在教育界和公众舆论中获得了如此多的支持?支持者的热情是否本身就是一种信号——它指向的不是手机和学习之间的因果关系,而是成人与青少年之间关于"什么是好的生活"的更深层冲突?这个问题没有简单的因果答案,但它指向了教育政策中一个永恒的紧张关系:我们到底是在优化我们声称要优化的变量,还是在用政策的语言表达一种文化焦虑?