浅浅谈人类儿童是如何学习自然语言的

图灵汇官网

人类儿童是如何学习自然语言的,以及这些研究进展如何影响自然语言处理(NLP)和深度学习,这些都是值得探讨的话题。尽管我的知识有限,但我会尽力提供一个简洁且易于理解的概述。

乔姆斯基认为,婴儿从出生时几乎不懂语言,到能够掌握如此复杂和精细的语言,这是非常神奇的事情。他认为这不仅仅是后天学习的结果,而是大脑中存在着某种“先天结构”。这里的“先天结构”并非传统意义上的语法,而是一种“学习倾向”,即婴儿天生具备的一种能够帮助他们更快掌握自然语言的倾向。

通过统计语言学的研究,我们可以找到一些支持乔姆斯基观点的证据。例如,许多语言都采用主谓宾(SVO)的句型结构,如汉语中的“她爱着他”和“我想吃饭”。也有一些语言采用主宾谓(SOV)的句型,比如韩语中的“她他爱着”和“我饭想吃”。然而,极少有语言(不到1%)采用宾主谓(OSV)的句型,如“饭我想吃”。

此外,在修饰名词时,大多数语言倾向于将量词和形容词放在名词前面,而不是后面,例如“两根黄色的香蕉”。这种情况在绝大多数语言中都有体现,而仅有极少数语言(不足4%)采用相反的顺序,如“黄色的香蕉两根”。

这些现象表明,尽管人类似乎有强烈的倾向去定义语言和语法,但绝大多数语言的语法还是遵循一定的模式。不过,这也并不意味着人类只能学习特定类型的语法,事实上,人类具有学习任何类型语法的能力,这说明所谓的“先天结构”并不是一成不变的。

从机器学习的角度来看,这些先天倾向可以被视为一种“先验概率”。关于人类学习语言是基于语法还是基于统计规律,一直存在争议。然而,从实际证据来看,人们在语音识别和词语切分方面的学习确实是基于统计规律。

此外,成人与儿童交流时使用的语言——即“面向婴儿的言语”——包含了大量的情感和语气变化,这些变化实际上起到了“标注”的作用,帮助儿童更快地理解和学习语言。从机器学习的角度看,这种“面向婴儿的言语”可以视为一种半监督学习方式。一些研究还指出,成人学习外语往往无法达到儿童的水平,这可能是因为他们无法获得与儿童相同的高质量输入,而非仅仅因为大脑的限制。

尽管目前的证据表明,人类语言并没有统一的语法结构,但确实存在一些普遍的限制和倾向,这些限制和倾向源于大脑的计算能力和工作方式。例如,听觉皮层的处理窗口决定了语言的音节长度,而工作记忆的限制则影响了句子长度。这些限制和倾向在儿童学习语言的过程中起到了关键作用。

在学习过程中,婴儿通过不断接触和模仿“面向婴儿的言语”,逐渐形成了一套规则体系。在这个过程中,儿童可能会出现过度泛化的现象,即他们会在某些规则上进行过度应用,例如在学会使用“-ed”作为过去式的标志后,会把这种规则应用到所有单词上,从而说出“我昨天去公园了”这样的错误句子。然而,随着时间的推移,这些错误会逐渐被纠正,通过接触更多的语言材料和例外情况,儿童最终能够掌握更复杂的语言结构。

以上这些过程为自然语言处理和深度学习模型提供了宝贵的参考,使我们能够更好地模拟和理解人类语言的学习过程。

本文来源: 图灵汇 文章作者: 边群星