浅浅谈人类儿童是如何学习自然语言的

投稿
APP
微信扫一扫获取更多

浅浅谈人类儿童是如何学习自然语言的

边群星

2018-08-19 21:10:03

图灵汇官网

人类儿童是如何学习自然语言的，以及这些研究进展如何影响自然语言处理（NLP）和深度学习，这些都是值得探讨的话题。尽管我的知识有限，但我会尽力提供一个简洁且易于理解的概述。

乔姆斯基认为，婴儿从出生时几乎不懂语言，到能够掌握如此复杂和精细的语言，这是非常神奇的事情。他认为这不仅仅是后天学习的结果，而是大脑中存在着某种“先天结构”。这里的“先天结构”并非传统意义上的语法，而是一种“学习倾向”，即婴儿天生具备的一种能够帮助他们更快掌握自然语言的倾向。

通过统计语言学的研究，我们可以找到一些支持乔姆斯基观点的证据。例如，许多语言都采用主谓宾（SVO）的句型结构，如汉语中的“她爱着他”和“我想吃饭”。也有一些语言采用主宾谓（SOV）的句型，比如韩语中的“她他爱着”和“我饭想吃”。然而，极少有语言（不到1%）采用宾主谓（OSV）的句型，如“饭我想吃”。

此外，在修饰名词时，大多数语言倾向于将量词和形容词放在名词前面，而不是后面，例如“两根黄色的香蕉”。这种情况在绝大多数语言中都有体现，而仅有极少数语言（不足4%）采用相反的顺序，如“黄色的香蕉两根”。

这些现象表明，尽管人类似乎有强烈的倾向去定义语言和语法，但绝大多数语言的语法还是遵循一定的模式。不过，这也并不意味着人类只能学习特定类型的语法，事实上，人类具有学习任何类型语法的能力，这说明所谓的“先天结构”并不是一成不变的。

从机器学习的角度来看，这些先天倾向可以被视为一种“先验概率”。关于人类学习语言是基于语法还是基于统计规律，一直存在争议。然而，从实际证据来看，人们在语音识别和词语切分方面的学习确实是基于统计规律。

此外，成人与儿童交流时使用的语言——即“面向婴儿的言语”——包含了大量的情感和语气变化，这些变化实际上起到了“标注”的作用，帮助儿童更快地理解和学习语言。从机器学习的角度看，这种“面向婴儿的言语”可以视为一种半监督学习方式。一些研究还指出，成人学习外语往往无法达到儿童的水平，这可能是因为他们无法获得与儿童相同的高质量输入，而非仅仅因为大脑的限制。

尽管目前的证据表明，人类语言并没有统一的语法结构，但确实存在一些普遍的限制和倾向，这些限制和倾向源于大脑的计算能力和工作方式。例如，听觉皮层的处理窗口决定了语言的音节长度，而工作记忆的限制则影响了句子长度。这些限制和倾向在儿童学习语言的过程中起到了关键作用。

在学习过程中，婴儿通过不断接触和模仿“面向婴儿的言语”，逐渐形成了一套规则体系。在这个过程中，儿童可能会出现过度泛化的现象，即他们会在某些规则上进行过度应用，例如在学会使用“-ed”作为过去式的标志后，会把这种规则应用到所有单词上，从而说出“我昨天去公园了”这样的错误句子。然而，随着时间的推移，这些错误会逐渐被纠正，通过接触更多的语言材料和例外情况，儿童最终能够掌握更复杂的语言结构。

以上这些过程为自然语言处理和深度学习模型提供了宝贵的参考，使我们能够更好地模拟和理解人类语言的学习过程。