语言学概论两个最大的语系的区别

爱浅情深 2024-06-08 16:11:48
最佳回答
摘要:本文采用“以小人之心度君子之腹”的套路,主要基于高中所学知识,对语言学的基础知识,即语言文字的出现和发展、特点和变化进行了总结,并提取了一些自然语言处理的背景知识,以加深对nlp的理解。1. 引言自然语言处理(natural laguage processing, nlp)是人工智能领域最火热的方向之一,大家在里面投入了大量的人财物,完成了不少有意义的工作,比如效果良好的翻译工具、实用的智能个人助理、越来越善解人意的推荐系统等等。作为这方面的工程师,我似乎在算法的**大海中迷失了。为什么这么说呢?nlp这门学科的目标是实现机器和人的无障碍交流,并为此融合了语言学、计算机科学、数学等学科的理论和方法——而我,咔咔学了这几年,几乎没有语言学方面的积累,几乎没有意识到语言学和nlp中的联系。最近,我仔细看了叶蜚声和徐通锵的《语言学纲要》,并基于本人在nlp方面(不多的)积累进行了简单思考,最后以博客的形式记录下来。2. 从自然、意识、语言、口语到书面语——这是历史的进程我们常说提升生产力是历史进程的最终方向。这个不仅适用于我们的经济社会发展,也适用于语言的出现和发展。2.1. 意识是自然的主观映像自然,可以粗暴地理解为整个宇宙,文雅的叫法是客观世界。我们人类有一定的能力,可以观察、记忆甚至解释一些事物——结果就是我们的大脑中存储了这些事物的外貌、温度等等信息,就是我们的意识,也叫做主观映像。当然,我们还有利用事物的意识、改造事物的意识等等。比如说,我们的祖先遭遇如图2-1所示的巨大物体后,一定会害怕、担心被干掉,这时候祖先就得记住这个东西、下次遇到要快速响应。图2‑1 现代人叫亚洲象2.2. 语言是表达意识的工具很久很久以前,动物们用声音、图形、动态图像等等原始信号来表示主观映像。听着声音,祖先们就可以判断脚下的树枝是不是要被压断了;看看同伴的眼神,就知道他是不是要给你挠头;闻闻气味,就知道小宝宝是不是又拉了。从上帝视角来看,这种方案有一个重大缺陷:可以支持个体思考,但是无法支持同伴之间的快速交流。如果同伴之间不能传递信息,就无法传递历经艰险得到的知识。不知道的自然选择的结果,还是祖先们有意识决定的,后来,祖先们开始主要用嘴、喉咙发出的声音来传递信息,比如(扯淡)用一个音素“wen”代表蜜蜂、同伴说这个就得赶紧跑。声音这种信息载体有一个特点,就是解放了四肢,允许大家一边跑一边叫。使用声音沟通时,祖先们可以进行带有“即时战略”特点的活动,比如在不影响逃跑速度的情况下告诉同伴们逃跑队形和集合地点。事后诸葛亮一下:使用声音沟通,提升了生产力,是生物挑选信息交流方式进程的最佳结果。不知道是自然选择的导致的,还是祖先们勤加练习的结果,后来,祖先们可以发出越来越多的声音,以满足越来越强的认知能力所带来的越来越大的表达需求。这一时期,祖先们还发现,一段声音和另一段声音可以组合,形成一段更长的声音、表示另一种意思——这样,他们就可以用非常少的声音素材,描述非常多的事物。举例来说,如果我们可以发n种声音,一段包含k个音素的声音,可以表示种事物(要是加上我们现在使用的音调机制,那就更多了)。用于表示一个事物的音素组合,就是后人称为“词语”的东西。不知道是自然选择的导致的,还是祖先们有约定的结果,后来,祖先们把词语搭配的形式和规则固定下来,形成了我们现在称为语法的东西。语法的存在,让语言更有规律,编码、解码和学习的成本更低,更有利于大家的交流,也就能进一步提升祖先们的生产力。到这个时候,祖先们称得上是文武双全、天下无敌,可以用复杂的队形和策略去狩猎,如图2-2。图2‑2 某地岩画在自然选择的作用下、在祖先们的个人奋斗下,语言和我们的意识相互依存、相互促进,发展成了今天这个样子。2.3. 口语是语言的天然存在形式如前所述,声音这种信息载体,由于相对于图像等有着巨大的优势,最终成为我们交流信息的主要形式。对应地,我们的主要通过口语来进行沟通活动。因此,口语成为语言的天然存在形式。2.4. 书面语是提升意识、语言传播能力的工具当然,相比声音,图像形式的信息也有独特的优势:可以跨越时间和空间进行传播。石头上的刻痕、木棍上的绳结,可以把信息传递给子子孙孙或者远在天边的另外一个部落。单凭声音,祖先们无法做到这一点——声音转瞬即逝,编码、解码容易出错,个体寿命有限等等,都限制了以口语形式存在的信息。于是,祖先们利用各种方案表示语言,包括在石头上画画、绳子打结、种树等等。在使用这些方案的过程中,图形这种形式,由于生成和理解比较便捷,逐渐胜出、成为主流的语言表示方案,并逐渐发展成象形文字。文字的出现,很好的解决了社群规模越来越大的情况下,信息交流的迫切需求,进一步提升了祖先们的生存和生产能力。3. 语言和文字的若干特点对现代人来说,语言和文字是密不可分的,二者都是用来对客观世界进行编码的符号体系。语言用声音来编码意识,而文字通过编码语言来编码意识。3.1. 语言是一套离散的编码系统语言是一套离散的系统,我们用以对客观世界进行尽量近似的刻画。声音、图像等原始信号是连续的,可以非常精准地反映实际情况,而语言只能用“帮”“真棒”这样的离散取值来描述世界。另外,由于能力所限,我们只能用语言描述客观世界的一小部分。因此,语言所记录的,是对客观世界原始特征进行采样和编码的结果。理论上,句子是可以无限长的,因此可以表达非常非常精确的意思。因此,语言与现实世界的关系,有点像我们对函数的多项式展开操作时,多项式与函数的关系。3.2. 语言符号的层级性“我是**人”这句话,有多个层级。两个或者多个词语构成词组;多个词组构成短语;多个短语又构成了句子。因此,句子的结构具有层次性。图3‑1 句子的结构我们在做文本理解或信息抽取的时候,可以根据场景的特点选择合适的粒度。3.3. 规则可以描述大部分语言现象词语的搭配、短语的组合等等,大部分可以用类似“主+谓+宾”的规则来描述。我们写一些正则表达式就可以解析或者生成合法的句子。但是,总有一些语言现象不符合主流规则,比如“我们要自卫”这句话,按照现在主流的语序应该是“我们要卫自”。“自x”这种句式是古汉语的语法在现代汉语中的留存。现代汉语中不符合主流句法的现象还有很多。语法和语义共同决定了一个句子的形态。因此,我们在解析句子或者生成句子的时候,既要考虑句法的合理性,又要考虑语义的合理性。比如说,“十獒创世纪”这句话,语法上没啥毛病,不过因为不符合事实(我就不展开来批判了),仍然是一个非法的句子。因此,我们在对语言建模的时候,实际上需要把客观世界的相关知识融合进来,才能更好地刻画语言。语法和语义共同制约的存在,决定了句子中所有的元素两两之间,多多少少存在一定的联系。注意力机制特别适合用来刻画这种复杂关系,也催生了transformer、bert、gpt等经典的语言模型。图3‑2 獒吹经典口号3.4. 语言和文字的关系文字是语言的编码,可以看做是语言的图形化版本。我们使用文字对语言编码,进而实现对意识的编码,最终实现意识跨越时间和空间的传播。老子、孙子等人的意识片段,通过文字一直流传到了今天,不断地在后人的脑海里活跃着。当然,文字在发展的过程中,逐渐出现了相对语言的独立性,比如**人创造了书法这种艺术形式。古人在传承和学习文化典籍的时候,为了让后人也能看懂,规定书面语的语法不能变。结果随着时间的推移,人们的口语与书面语区别越来越大、学习古文的代价也越来越高。到了**战争以后,人们终于不得不求变,废掉古文、提倡白话文。这时候,书面语又跟上了口语的脚步。通常来说,nlp任务的直接处理对象是包含了文字的文本片段,毫无疑问,里面蕴含了人们的意图、情感等等。我们用词袋模型、词嵌入向量等等,刻画的不是那个字符串,而是文字所代表的意图和情感。3.5. 表意文字和表音文字的关系祖先们把图画发展成了象形文字,比如我国商朝时期的甲骨文、古苏美尔人创造的楔形文字等两河流域并传到今天、形成各种表意文字,比如成熟期的汉字、楔形文字。由于汉语文化圈后来在所在地区一直是文化、生产力等方面的先进代表,文化的载体——汉语和汉字受到了统治者们的推崇,并被秦始皇等人定为**标准语言,传承至今。随着词汇规模的扩大,人们逐渐发现掌握语言变得越来越困难。一些民族为了减少或控制文字符号的数量,采用了一种新的策略,即用文字符号表示读音。这类语言的文字被成为表音文字,代表是英语。表音文字的特点是字符数量较少、易于学习,有利于语言的推广。我们曾经试图将汉字拉丁化,以降低汉语的学习难度、尽快提升广大人民的文化水平。不过呢,**党比较给力,通过推广简体字,很好的完成了扫盲任务。以王选为代表的科学家们,也用科学技术维护了汉字的生存空间。而拉丁版的中文就成了我们现在的拼音,用来记录和表达汉字的标准读音。表意文字和表音文字各有所长,可见的未来里,都将继续存在。4. 语言会变化语言的变化是持续发生的,因此,我们的nlp系统需要经常进行相应的更新。4.1. 语言变化的动力语言出现和发展的根本动力,是我们为了获得生存优势,在一定成本下尽量多地传递信息的本能和意识。这也是我们提升生产力的需要。语言发生变化的动力或者说原因非常多:(1)先人们在生存和生产的过程中,不可避免会与其他群体发生接触,或多或少会进行交流(当然交流友好程度的取值范围是[和平,战争])。交流就意味着思维方式、表达方式等等方面的相互学习,就会导致语言的变化。我在边疆 20210311
汇率兑换计算器

类似问答
  • 去日本读语言学校准备留考,东京新宿区好的语言学校推荐一下?
    • 2024-06-08 18:30:27
    • 提问者: 未知
    不知道你是否有参加高考 高考多少分 如果高考400分以上的话 可以选择 优尼塔斯日本语 优尼塔斯位于新宿区...留日13年/语言学校测评/升学指导/解决留学疑难问题v:computer1123 ...
  • 【论文】英语和法语的区别
    • 2024-06-08 21:04:13
    • 提问者: 未知
    主要是发音部分,自学起来比较吃力,法语的发音本身就比较难。我用的是《从零开始学法语》这套软件,是从网上用**的,有2个多g吧,这套软件还不错,适合于一点基础没有...
  • 大学英语b级和大学英语**是一个概念吗?
    • 2024-06-08 05:08:34
    • 提问者: 未知
    **考试为高职高专学生应该达到的标准要求,英语b级考试略低于**考试,是过渡性的要求。原“大学英语**考试”相当于“高等学校英语应用能力**考试”,原“大学英语二级考试”相当于“高等学校英语应用能力b级考试”。考生自主决定参加**或b级考试。**难度高于b级、低于大学英语四级;b级是英语基础较薄弱的大专生考的,难度相当于初三至高中的英语水平,低于**。网络统考大学英语ab备考建议:建议使用钉题库a...
  • 北京美国英语语言学院的真实情况
    • 2024-06-08 20:26:40
    • 提问者: 未知
    我是那个学校毕业的 上学的时候也参与过招生提成是1200一个学生除非你很想学很愿意学,再去那个学校。里面的老师都是外面的大学高薪聘请来的。北京没几所差大学,老师都是好老师。我那时候的翻译老师就是翻译指环王的作者。老师都有很牛的来历。你要真想学,能学到真材实料。但事实情况是,很多学生上到一半就走了。学风不太好~只有一小部分学生是想学习的,我当时上的是外贸英语。我们系500个学生考张英语卷子,前50名...
  • 有关语言的歇后语,谚语
    • 2024-06-08 01:10:15
    • 提问者: 未知
    烂袜子改背心 —— 小人得志(之)八月十五桂花香 —— 花好月圆黄鼠狼等食 —— 见机(鸡)行事黄忠叫阵 —— 不服老龙须菜炒韭菜 —— 乱七八糟白骨精开口 —— 不讲人话孔明大摆空城计 —— 化险为夷**戴眼镜 —— 装饰正月十五云遮月 —— 不露脸唐僧跑进和尚店 —— 同吃一碗斋饭孔明草船借箭 —— 有借无还戏台上结婚 —— 不是真夫妻猪八戒吃猪啼 —— 自残骨肉炭火盆扛肩上 —— 恼(脑)火...
  • 汉语汉字真的是很难学的语言文字吗?
    • 2024-06-08 21:18:22
    • 提问者: 未知
    越古老越庞大的语言文字,要照顾包容的地方太多,历史包袱越重,可丢掉垃圾越多,越古老的民族,其思维越重视历史传承而不创新,最终被历史包袱耗死,中华民族太古老了,...
  • 加拿大元钞票上为什么使用英语和法语两种语言?
    • 2024-06-08 19:26:54
    • 提问者: 未知
    加拿大居**要是英、法**的后裔,分别是英语区和法语区,因此钞票上均使用英语和法语两种文字。
  • 神秘与奥秘两个词语的区别
    • 2024-06-08 00:06:55
    • 提问者: 未知
    探索秘、宇宙的奥秘、生命的奥秘、数学的奥秘、哲学的奥秘、语言的奥秘【不传之妙】:传:传达,表达;妙:奥妙。指以言语、笔墨都难以表达的奥妙。【不可思议】:原有神秘奥妙的意思。现多指无法想象,难以理解。【不可言宣】:言:言语;宣:发表,表达。指不是言语所能表达的(用在说事物的奥妙、味道)。【此中三昧】:三昧:佛教用语,梵文音译词,意思是“正定”,即屏绝杂念,使心神平静,是佛门修养之法。比喻这里面的奥妙...
  • 世界上**的语言是那种语言
    • 2024-06-08 22:47:13
    • 提问者: 未知
    计算机语言。
  • 法语、德语、意语、西语,哪个最好学?
    • 2024-06-08 17:06:07
    • 提问者: 未知
    法语、德语、意语、西语,哪个最好学?对学小语种的同学来说,英语就像是一个好单纯好不做作的前任。等遇上了小语种,才晓得英语的好。一提到法德西意这些小语种,大部:-西语,德语,法语,哪个
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。