你如何让学习更难,反而学得更好?
🎧 听语音版 (当天合集)
Hook
想象一个你正在复习的场景。你翻开笔记,重读了一整章,每句话都熟悉、顺畅、舒适——你的大脑对你说:“嗯,我懂了,这些我都记得。”但第二天考试,那个你以为懂的概念,像只滑溜溜的鱼,明明在脑子里触碰到了,却怎么都抓不出来。
这种感觉几乎是普遍的。大量学习者——包括你——的直觉告诉你们:越轻松流畅的学习体验,意味着学得越好。因此,当你们面对两种复习策略时——一种是舒服地重读笔记,另一种是痛苦地在无提示的情况下尝试回忆——你们几乎总是选择前者。更糟的是,当你们选择重读后,流畅感会进一步强化你们的自信,形成一种“学得很好”的强烈主观感受。但客观的记忆测试常常给这自信泼冷水。
这不仅仅是关于复习方法的技术性问题,而是一个关于“学习”本身意味着什么的深刻悖论。认知心理学家 Robert Bjork 和 Elizabeth Bjork 在近三十年的研究里,系统性地摧毁了“学习应该轻松”的直觉,并提出了一个反直觉的理论框架:desirable difficulty(理想困难)。
它的核心命题异常简洁:在学习过程中引入特定的困难——这些困难让当下的表现变差、让学习者感觉更挫败——但能显著增强长期记忆和知识迁移能力。 不是所有困难都有益;只有那些触发更深层认知加工、而非简单增加任务负荷的困难,才是 “desirable” 的。
这个理论不是心灵鸡汤式的“吃苦就是好”,而是有严格的认知机制支撑:它植根于 Bjork memory model 的核心区分——retrieval strength 和 storage strength 的分离,并预测了多种具体的学习策略的效果差异。要真正理解“理想困难”为什么有效,你必须理解这种分离,以及它如何颠覆了关于学习效率的整个话语体系。
基础
首先,解决一个最容易产生的误解:desirable difficulty 的“理想”究竟指什么?
"Desirable" 并不意味着“主观愉悦”或“道德上的善”,而是指“在特定目标函数下具有正面价值”。这里的目标函数是:长期保留与广泛迁移。因此,一个困难是 desirable 的,当且仅当:
- 它在学习阶段制造阻力,降低了当下的表现(因此学习者会感觉“学不会”);
- 但它提高了远期记忆测试中的表现,且提高了新情境中应用知识的能力;
- 这种困难对于不同水平的学习者来说是“可克服的”——如果困难大到让学习者完全无法处理信息,它就是 undesirable(例如,给初学者看无翻译的古希腊原文)。
这引出一个关键区分:学习过程中的表现(acquisition performance)与学习(learning)是两个根本不同的概念。你重读课本时感觉“懂了”,是一种当下流畅性带来的表现幻象;你试图在没有提示的情况下回忆概念却翻车,那一刻的挫败感反而是学习正在发生的信号——这被 Bjork 的同事 Robert A. Bjork 称为“学习的悖论”(the paradox of learning)。
为什么会这样?为了理解这个悖论,你必须进入 Bjork memory model 的基础区分:retrieval strength vs. storage strength。
这是 Elizabeth Bjork 和 Robert Bjork 在 1992 年的一篇经典论文中提出的二元模型。任何记忆表征都有两个独立的强度维度:
- Storage strength(存储强度):指记忆痕迹在大脑中的“驻留程度”,即记忆的稳固性、持久性。它是一个缓慢累积的变量:每当你成功地从记忆中提取一个表征,它的存储强度就增加——不会减少。存储强度是无上限的。
- Retrieval strength(提取强度):指表征在某一时刻的可访问性,即你“现在”能回忆起来有多么容易/快。它是一个快速波动的变量:当前的提取强度很高,但在短暂的间隔后会急剧衰减;但同时,它也能被重复提取快速刷新。
这两者之间的关系是非线性且不对称的:当 retrieval strength 高时,提取很容易,但对 storage strength 的增量贡献很小;当 retrieval strength 低时,提取很费力,但如果成功了,它对 storage strength 的增量贡献极大。
正是这个数学性质支撑了“理想困难”的整个逻辑。重读笔记,是将 retrieval strength 维持在高点但不挑战 storage strength 的行为——你感觉“在学”,但大脑实际上没有进行将脆弱记忆重新稳固化的深层加工。而闭上书,在没有提示的情况下努力回忆(这就是 low retrieval strength 的提取),如果成功了,这个提取会给予 storage strength 一个骤增,并且这个增加是持久的。
你感受到的那个挫败感,不是学习的退步,而是 retrieval strength 的暂时衰退——而正是这种暂时衰退,创造了一次对 storage strength 进行“深层加固”的机会。这就像肌肉训练:不是在舒适而轻松的挥动中增长,而是在努力举重、承受微撕裂后的恢复中增长——尽管那一刻你感觉无力。
核心
如果“低提取强度的费力提取”是 desirable difficulty 的核心机制,那么哪些学习策略系统性地制造了这种困难?Bjork 及其团队识别并实验检验了至少四种主要的理想困难策略。每一种都引发强烈的元认知错觉——学习者主观上认为“没学到”,客观上却学得更好。
1. Spaced practice(间隔练习)vs. massed practice(集中练习)
这是被最广泛研究和最清晰验证的理想困难。集中练习指的是在单一长时间段内重复学习同一内容——也就是你考试前通宵的死记硬背(德语 Bulimielernen,暴食式学习,形象地描述了“塞进去、吐出来、全部忘掉”的循环)。间隔练习则是将学习时间分布到多个时间段,让遗忘在间隔中发生——然后要求大脑在 retrieval strength 已经衰退的条件下进行提取。
数百项研究一致显示:间隔练习对长期记忆的促进显著优于集中练习。但同时,学习者在间隔练习后的即时测试中表现得比集中练习后更差——也因此他们强烈倾向于认为集中练习“更有效”。这是一个教科书级的元认知错觉:当下流畅性误导了关于长期效果的判断。
更迷惑的是,间隔效应的大小受两个参数交互调控:间隔长度和最终测试的延迟。研究发现,最佳的间隔是最终测试延迟的 10-20%。也就是说,如果你 10 天后考试,1-2 天的间隔最佳;如果你一年后需要回忆,间隔可以拉到两三个月。这个比例规则被称作“间隔的黄金比例”,它在数学上之所以成立,正是因为间隔制造了 retrieval strength 的适度衰退,而这个衰退量在时间上与遗忘曲线同步。
2. Interleaving(交错练习)vs. blocking(分块练习)
分块练习是传统教学的标准模式:先集中讲完 A 类型的所有题,再讲 B 类型,再讲 C。交错练习则是在同一练习阶段中混合不同题型:A1, B1, C1, A2, B2, C2...
一个经典的研究来自 Kornell 与 Bjork 在 2008 年对美术史教学的实验。学生被要求学习不同画家的作品风格。分块组:先看画家 A 的 6 幅画,再看画家 B 的 6 幅画。交错组:A1, B1, A2, B2...混编观看。在随后的测试中,学习者需要判断新画作属于哪位画家。交错组准确率显著更高——但它产生了相反的主观判断:约 80% 的交错组学生认为自己学得不如分块组好,而实际上几乎所有交错的学生的客观成绩都更优。
这里的困难机制是什么?在分块条件下,当你连续看同一画家的作品时,你的大脑不需要主动区分“什么使 A 区别于 B”——因为每一幅已知画作都告诉你“这是 A”。你的 retrieval strength 高而轻松。而在交错条件下,每一幅画都在试探你对不同风格差异的敏感度:你必须主动检索“A 的特征”而非“这幅画的这组特征碰巧跟上一幅一样”。这种高强度的对比性提取,极大地增强了风格判断的知识结构,即增加了 storage strength。但这提取过程费力,在当下让你感到更不确定——而这个“不确定”恰恰是深度学习发生的标志。
3. Generation effect(生成效应)
生成效应指的是:当学习者自己生成一项信息,而不是被动地从外部接收该信息时,对该信息的记忆更牢固。具体来说,如果你尝试在毫无提示的情况下回忆一个概念的定义,成功了,这个定义被记住的概率显著高于你重读定义三次。甚至在你失败——你生成错了——你也可能学得更好,前提是立刻得到反馈纠正。为什么?因为失败的尝试预激活了与目标概念相关的语义网络,使得后续反馈的编码具有更丰富的上下文,进而加深 Storage Strength 的增长。
一个经典的实验设置是词汇配对任务:给被试呈现单词对“椅子—桌子”,在生成条件下,被试只看到“椅子—?”,尝试生成“桌子”;在阅读条件下,被试完整地看到“椅子—桌子”。在 48 小时后的回忆测试中,生成组回忆率高 20-30 个百分点——并且这一优势在延迟更长时间后依然保持。
生成效应是“理想困难”的一个纯粹形态:它系统性制造了一个信息缺口,强迫大脑在缺口上进行高代价的检索操作——而代价对 storage strength 是关键性的。
4. 降低反馈的即时性
这可能在直觉上最违背教学常识。传统教学理论主张反馈应该在错误发生的瞬间立即提供,以避免“错误被巩固”。但 Bjork 的研究显示:如果反馈被延迟——比如在一天后、或在一组练习完成后才统一提供——学习者对正确信息的记忆更牢固,前提是正确信息最终被有效传达了。延迟期间的等待不是空转;它是不确定性在维持的时段,是大脑继续加工任务空间的过程,强化了对正确答案的“准备状态”,从而在反馈到来时产生更大的编码深度。
但问题再次出现:学习者强烈偏好即时反馈,并对延迟反馈下他们的不佳表现感到沮丧——又一次,元认知系统低估了挫折中的认知增益。
所有这些策略分享一个共同结构:当下的表现下降,伴随主观不适;长期的记忆与迁移提升。这并非巧合。Bjork 模型对此给出了统一的解释:任何降低 retrieval strength 但在随后的成功提取中增加 storage strength 的过程中,都会产生“表现—学习”分离。 学习是对记忆进行破坏性重构的过程;如果你感觉太完整、太流畅,那大概是因为你的记忆根本没有面对需要重构的不稳定状态。
这引出一个更哲学性的点:关于元认知错觉的深度机制。为什么人类如此系统性、顽固地错误判断自己的学习状态?一个可能的解释来自进化压力:在祖先环境中,当下的提取容易性是一个可靠的启发式(heuristic)——如果你能轻松回忆一个信息,它通常意味着你对它很熟悉,且它在近期有用。但人工的学习情境——尤其是教育系统和技能训练——需要的不是近期的提取,而是遥远的提取,以及跨情境的迁移。这个时间尺度的转换,使远古 heuristic 变成了现代认知陷阱。这个 heuristic 有一个拉丁修辞学的古老根脉:Ceteris paribus(其他条件均等),轻松学是学得好的标志——但在现代认知科学揭示的 retrieval-storage 动力学中,其他条件并不均等。
留白
desirable difficulty 理论颠覆了“学习应该轻松”的直觉,但它也打开了一系列未解的问题——其中一些指向了当代教育争论的隐秘核心。
第一个问题是:“困难”量的调控边界在哪里? Bjork 模型假设 storage strength 随 retrieval difficulty 单调递增,但这只能在“成功提取”的前提条件下成立。对于一个第一次接触新知识的学习者,如果没有任何脚手架(scaffolding),生成效应的困难可能大到让他们直接放弃,达到 undesirable 的极限。那么,什么样的 scaffold 恰好使困难处于“可克服但费力”的最优区间?这是一个开放的应用问题——而且因人而异,因知识域而异。没有人有通用公式。
第二个问题是:机构化教育如何系统性扼杀理想困难? 标准化测试的时间压力、教师被评价指标驱动的行为、以及学生被流畅体验喂养的即时反馈需求,三者形成了一种结构惯性,使得分块、重读、即时反馈等“反理想困难”策略成为制度性的默认选择。这是否暗示:现代教育体系的许多病理——高遗忘率、低迁移能力——不是偶然的副产品,而是结构必然?如果是,那么改变单个教师的教学策略是不够的;需要重新设计整个评价体系。
第三个问题是概念史上的一个意外连接:为什么 Bjork 在提出 "desirable difficulty" 时避开了认知心理学中已有的“认知负荷理论”——特别是 Sweller 的 Einstellung effect(心理定势效应)——尽管两者在数学结构上存在潜在的对应关系?这是领域之间的概念壁垒,还是深层理论上的不相容?这个问题目前没有定论。
如果你想继续追踪 desirable difficulty 的研究:
- Bjork, R. A., & Bjork, E. L. (1992). 原始模型论文:A new theory of disuse and an old theory of stimulus fluctuation. 这篇是 retrieval-strength vs. storage-strength 的首次完整表述,必读。
- Soderstrom, N. C., & Bjork, R. A. (2015). Learning versus performance: An integrative review. 这篇综述将“表现—学习”分离推广到整个学习科学,可作为理论框架入口。
- Yan, V. X., & Bjork, R. A. (2022). 关于 learner 如何抗拒 desirable difficulty 的综述:The tyranny of fluency。是理解为什么理想困难难以推广的社会心理分析。
一个开放问题:desirable difficulty 是否只适用于陈述性记忆(知道“什么”),还是也适用于程序性记忆(知道“如何做”)? 如果是后者,它对体育、音乐、编程等技能训练的启示是什么?这个问题在 2024-2025 年的运动技能学习文献中刚开始被系统性探索。