从普遍语法到神经网络习得模型:语言究竟是天赋还是训练
一个让我困惑很久的问题
我儿子两岁半的时候,有一天突然说出了一句他从未听过的话:「爸爸的手机掉到沙发下面了。」
这句话的信息量远超一个两岁半孩子"应该"掌握的语言能力——「的」表示所属关系,「掉到」是动词补语结构,「下面」是方位词,整句话有主语、谓语、状语,语序完全正确。他没有上过任何语法课,没有人教过他「主谓宾」,但他就是说出来了,而且说得对。
作为一个工程师,这件事让我感到困惑。如果把语言习得看成一个学习任务,那么一个两岁的「模型」——训练数据极其有限、算力极其低下、没有任何监督信号告诉他语法规则——怎么可能在这么短的时间内学会如此复杂的结构?
这个困惑不是我独有的。整个 20 世纪语言学最核心的争论,说白了就是在吵这一件事:语言能力到底是先天预装的,还是后天学出来的?
乔姆斯基的回答:脑子里有答案
1957 年,语言学家诺姆·乔姆斯基给出了一个极其优雅的解释:人类大脑天生内置了一套「普遍语法」(Universal Grammar),儿童不是在「学习」语言,而是在用有限的输入「激活」这套预装的语法模板。
这个理论的魅力在于它一招解决了两个难题。第一,为什么儿童学语言这么快?——因为他们不是从零开始,大部分结构是预装的,输入只是触发器。第二,为什么全世界的语言尽管表面差异巨大,底层却有那么多共性?——因为它们都是同一套普遍语法的不同「参数配置」。
用软件的类比来说,乔姆斯基认为大脑出厂就预装了一个语法引擎,不同语言只是不同的配置文件。儿童习得语言的过程,不是写代码,而是改配置。
这个理论在语言学界统治了半个世纪。它不仅提供了一个简洁的解释框架,还让语言学看起来更像「硬科学」——有形式化的规则系统、有可推导的预测、有数学般的优雅。
但优雅不等于正确。
模板论的裂缝
过去二十年,来自多个学科的证据正在动摇普遍语法的根基。
田野语言学的反例。 普遍语法的一个核心主张是递归——句子可以无限嵌套——是人类语言的普遍属性。但语言学家丹尼尔·埃弗里特在亚马逊流域的皮拉罕语中发现,这种语言几乎不使用递归嵌套结构。他们不说「我看见那个吃了鱼的男人」,而是用短句并列:「那个男人吃了鱼。我看见那个男人。」面对这样的反例,普遍语法的辩护策略通常是将其归为「特例」或者重新定义递归的范围——但一个需要不断缩小自己定义才能避免被证伪的理论,在方法论上已经出了问题。
神经科学的挑战。 如果大脑真的预装了语法模板,那么应该存在一个相对固定的「语法区域」或「语法回路」。但神经影像研究揭示的图景完全不同:语言处理涉及大脑的广泛区域,而且这些区域的参与方式随着学习经验显著变化。更重要的是,大脑在语言学习过程中展现出惊人的可塑性——白质通路的髓鞘化程度、灰质厚度、功能连接模式,都会因为语言输入而重塑。这更像是一个通用网络在被训练,而不是一个预装模块在被激活。
发展心理学的时间线。 如果语法是预装的,只需要输入来触发,那么习得过程应该是相对突然的——参数一旦设定,语法就应该完整涌现。但实际观察到的儿童语言发展是渐进的、充满系统性错误的。英语儿童会说 "I goed" 而不是 "I went",这说明他们在主动抽象规则(过去式加 -ed),而不是在使用预装的模板。如果模板已经告诉他们 "go" 的过去式是 "went",为什么还会犯这种错误?
这些证据不是说乔姆斯基全错了——他对行为主义「刺激-反应」模型的批判完全正确,儿童确实不是在机械模仿。但他给出的替代答案——预装模板——可能跳过了真正有趣的问题。
一个工程师的直觉:这不就是预训练 vs 从头训练吗
有一天我在看大语言模型的训练过程,突然意识到一件事:儿童学语言快,也许不是因为预装了答案,而是因为他们的学习条件太好了。
想想深度学习中的几个基本事实:
一个全新初始化的神经网络,所有权重接近随机,没有任何先验知识。但如果你给它海量数据、合理的架构、足够的训练时间,它可以从零学会极其复杂的语言结构——GPT 系列模型已经证明了这一点。没有人给 GPT 预装语法模板,它就是从统计共现中「长出了」语法。
再想想迁移学习中的常见问题:一个在英语上预训练好的模型,微调到中文时经常出现「母语干扰」——英语的词序习惯、搭配模式会「泄漏」到中文输出中。训练得越久的模型,这种干扰越顽固。
这两个现象放在一起,恰好对应了语言习得中最需要解释的两个事实:儿童学第一语言极快,成人学第二语言极慢。
如果不用「预装模板」来解释,还有什么解释?
神经网络习得模型:一个替代假说
我认为可以用一个更简单、更有解释力的框架来理解语言习得:资源-可塑性-干扰模型。
核心假设只有三条:
第一,大脑是一个可塑的通用神经网络,不预装特定领域的知识。 它的初始状态不是白板(行为主义的错误),但也不是预装了语法的专用芯片(乔姆斯基的假设)。它更像是一个有着特定架构偏置的通用学习系统——就像 Transformer 的架构本身不包含任何语言知识,但它的注意力机制天然适合处理序列中的长距离依赖。人类大脑的架构偏置可能包括:对时序模式的敏感性、对社交信号的优先处理、层级化表征的倾向。这些偏置让语言学习更容易,但它们是通用的学习先验,不是特定的语法模板。
第二,可塑性随年龄递减,第一语言享有「独占写入」优势。 新生儿的神经网络处于可塑性巅峰——突触生成速率极高,连接的建立和修剪都极为迅速。第一语言的输入在几乎没有竞争的网络上写入,就像在一块干净的硬盘上安装操作系统——没有碎片、没有冲突、没有需要兼容的旧系统。而且这个写入过程是全天候的:清醒时的每一次对话、每一个指令、每一次互动,都在强化同一套模式。写入的密度和一致性,远超任何课堂学习。
第三,第二语言的学习困难来自寻址成本和干扰,而非模板缺失。 成人学第二语言时,网络已经被第一语言深度占用。新语言的写入面临两个问题:一是寻址成本——新的语音范畴、语序规则、形态变化需要在已有网络中找到安放位置,这比在空白网络上写入困难得多;二是干扰——母语的模式会主动「入侵」新语言的处理过程,就像一个训练好的模型在微调时出现的灾难性遗忘问题的镜像。不是旧知识被覆盖,而是旧知识阻碍了新知识的巩固。
这个框架的预测是可检验的:
在等量输入条件下,单语儿童的第一语言习得速度应该快于双语儿童——因为后者的网络资源在两种输入间竞争。实际观察与此一致:双语儿童在每种语言上的早期词汇量通常略低于同龄单语儿童,尽管总词汇量相当。
高强度沉浸式二语训练应该在脑影像上留下可测量的白质和功能连接变化。近年来的纵向研究确实发现,密集语言训练可以在几周内改变白质通路的微观结构。
交互式输入应该显著优于被动暴露。这一点在儿童和成人的研究中都得到了证实——看 100 小时外语电视剧的效果远不如 10 小时的对话练习,因为互动提供了更强的误差信号和注意引导。
这个视角改变了什么
用「资源-可塑性-干扰」框架替代「预装模板」框架,不只是学术上的争论,它改变了我们理解语言的方式。
对「关键期」的重新理解。 传统解释说关键期之后语法模板就「关闭」了,所以成人学不好外语。资源模型的解释更朴素:不是窗口关闭了,而是网络被占满了,新写入的成本急剧上升。这意味着关键期不是一个开关,而是一个渐变的成本曲线——这与实际观察更吻合。事实上,有些成人可以在特定条件下(极高的动机、沉浸式环境、大量互动)达到近母语水平,这在「模板关闭」假说下很难解释,但在「成本上升」框架下完全说得通。
对语言与文字关系的重新审视。 口语是语言习得的起点,但文字系统的发明从根本上改变了语言的能力边界。口语受限于工作记忆的容量——你能说出的句子复杂度有上限,因为你的大脑必须实时维持整个句子的结构。文字把这个限制打破了:你可以在纸上写出比你能说出的复杂得多的句子,因为外部符号承担了工作记忆的负载。法典、科学论文、数学证明——这些语言的高级形态,没有文字系统是不可能存在的。语言的「天花板」不是由大脑的语法模板决定的,而是由外部符号系统的支撑能力决定的。
对 AI 语言模型的启示。 大语言模型的成功,从侧面为「无模板」假说提供了存在性证明。GPT 系列模型没有被预装任何语法规则,它从海量文本的统计模式中自发习得了语法、语义甚至一定程度的推理能力。当然,人脑和 Transformer 的架构完全不同,不能做简单类比。但至少这说明:从统计学习中涌现出语法结构,是一条可行的路径。 你不需要预装答案,只需要一个足够好的学习架构和足够丰富的输入。
我们不知道的比知道的多
写到这里,我应该诚实地说:这个「资源-可塑性-干扰」模型远不是一个完整的理论。它没有解释人类语言习得中的很多精细现象,比如为什么某些语法结构比另一些更早被习得,为什么不同语言的儿童在习得时间线上有微妙但系统的差异,以及「架构偏置」究竟包含什么、如何进化而来。
普遍语法的吸引力在于它的完备性——它提供了一个大一统的解释。而替代理论目前还是一堆碎片:使用-认知语言学、神经可塑性研究、统计学习理论、深度学习的经验类比。这些碎片拼在一起指向同一个方向,但还没有凝聚成一个同样完整的框架。
但我宁愿持有一个不完整但可检验的假说,也不愿接受一个优雅但不可证伪的理论。科学理论的价值不在于它能解释多少已知事实——事后解释总是容易的——而在于它能生产多少可以被打败的预言。一个声称「语法是天生的」的理论,面对任何反例都可以说「这不在核心语法的范围内」,这种自我免疫的弹性让它在科学意义上越来越不可靠。
也许未来的答案既不是纯粹的「天生」也不是纯粹的「学习」,而是一种我们现在还无法精确描述的中间状态——大脑的架构确实为语言学习提供了独特的先验优势,但这种优势不是一套具体的语法规则,而是一组让语言学习异常高效的计算原则。
就像 Transformer 架构本身不包含语言知识,但注意力机制让它天然适合处理语言——人脑可能也是如此。不是预装了答案,而是预装了特别擅长找到答案的搜索策略。
这个区分听起来微妙,但含义完全不同。前者意味着答案已经确定,学习只是查表;后者意味着答案是开放的,学习是真正的探索。我倾向于相信后者——不只是因为证据指向那个方向,也因为它描绘了一个更有趣的关于人类心智的故事。