黑椒青年
当前位置:首页 - 人生 >

冯志伟先生:语言学家在自然语言处理研究中大有可为 | 序《语言探秘》

2019-10-02来源:途牛旅游

? ? ?李斌博士的新着《语言探秘》于2018年12月由南京师范大学出版社出版,冯志伟先生不仅饶有兴趣地“探索”了这份语言的奥秘,还为本书作序。特转发冯志伟先生为李斌博士新着而作的序言全文。


?

? ??冯志伟,1939年4月15日生,云南省昆明市人,中国语言学家,教育部语言文字应用研究所研究员,研究方向为计算语言学和应用语言学。冯先生是我国语言学界跨学科奇才,懂得汉、英、德、法、俄、日等多种语言,其学术研究领域横跨了语言学科、自动化学科、计算机学科、汉语学科和外语学科,用中外文发表的论文已将近500篇。他曾在法国研制开发过世界上第一个汉语到多种外语的机器翻译系统,而后在德国建立世界上第一个中文术语数据库。在德国大学任教时他对汉字的数学结构感兴趣,用德文发表过《汉字的历史和现状》。在韩国大学执教期间,他出版了译着《自然语言处理综论》。冯先生是汉语拼音推广和应用的重要贡献者,被国家语委选定主持ISO7098的修订工作,后来又被ISO组织任命为ISO7098国际修订组的组长,使得我国在国际标准的修订中取得了主动权。


?序言

我怀着极大的兴趣通读了李斌博士的新着《语言探秘》。语言确实充满了奥秘,值得我们深入地探索。

丹麦哥本哈根学派的叶尔姆斯列夫(L.Hjelmslev)在他的《语言理论导论》一书中,曾经这样赞美语言:“语言是人类社会基本的和最不可少的基础。……在我们的意识的第一次觉醒之前,语言就是我们的回声,它反映我们思想的第一次温柔的喃语,从日常活动一直到最细腻、最甜蜜的时刻,它寸步不离地伴随着我们。……语言不是伴随人的外部现象。它十分紧密地跟人的理智联系在一起。它是个人和部族继承下来的财富。”他又说,“语言,即人的话语,是永不枯竭的、方面众多的巨大宝库。语言不可与人分割开来,它伴随着人的一切活动。语言是人们用来构造思想、感情、情绪、抱负、意志和行为的工具,是用来影响别人和受别人影响的工具,是人类社会的最根本、最深刻的基础,同时语言又是每个人的最根本、不可缺少的维持者,是寂寞中的安慰。在十分苦恼时,诗人和思想家是使用独白来解决思维矛盾的。在我们有意识之前,语言就已经在我们耳边回荡,准备环抱我们最初思想的嫩芽,并伴随我们的一生。不论是平常最简单的活动,还是最崇高的事业,或者私人生活,人们一分一秒也离不开语言。是语言赋予我们记忆,我们又借助于记忆而获得温暖和力量。然而,语言不是外来的伴侣,语言深深地藏在我们的脑海之中,它是个人和家族继承下来的无穷记忆,是有提醒和警告作用的清醒的心智。而且,言语是个人性格的明显标志,不论是何种性格;它又是家族和民族的显性标记,是崇高人性的特殊标志。”他还说,“语言在个人、家庭、民族、人类及生活本身中扎根如此之深,以至使我们忍不住提出这样的问题:语言是否不仅是现象的反映,而且也是这些现象的体现——也就是产生出这些现象的种子。”[1]

语言如此美妙,如此有用,按理说,每一个学习和使用语言的人都应当对语言学兴趣怏然。???????

可是,现在大学里的语言学课程却不太受学生的欢迎,不少学生都觉得语言学是一门索然无味的课程。李斌博士的这本《语言探秘》,没有按大学教材的方式来写,而是通过语言学家林贵思博士和小狗罗奇的对话,一步一步地把读者引入语言的殿堂,饶有趣味地揭示出语言的奥秘。如果学习语言学课程的读者同时也读一读这本《语言探秘》,将会引起你对于语言学习和研究的兴趣,不会再有索然无味的感觉,而会激起你学习和研究语言的热情。



本书共有五个部分。

第一部分“语言的发展”讲述了词汇的发展和语法的发展,特别是介绍了苏美尔文字、古埃及文字、玛雅文字,其中的许多古文字照片都是作者在国内外的博物馆看到后亲自拍照的,拓展了我们的眼界。

第二部分“信息时代的语言研究”讲述了在信息时代语言符号的电子化表达方式、语言与大脑的关系,特别是解释了语言的经济性原理和霍夫曼编码方法。

第三部分“语言与信息论”讲述了香农的信道理论,介绍了图灵测试和齐夫定律,并分析了活字印刷的原理。

第四部分“语言的描写方法”讲述现代语义学的原理,分别介绍了谓词逻辑、比喻、借代和语义选择限制等语义形式描写方法。

第五部分“语言信息处理”讲述了计算机汉字输入的原理,分别介绍了搜索引擎、自动分词、机器翻译等语言信息处理的技术。

李斌博士是学语言学出身的,文科背景,几年来,他不断地进行更新知识的再学习,又到美国进修计算机科学,逐渐改变了他自己原来的知识结构,成为了兼通语言学和计算机科学的新一代语言学家,他的这本《语言探秘》,是他近年来在研究实践中对于语言的奥秘深入思考的产物。


李斌在《语言探秘》这本书中还给我们讲述了一个很有意思的故事。他介绍说,在1988年的一次自然语言处理评测讨论会上,美国着名语音识别专家贾里尼克(F. Jelinek)在报告他的语音识别系统研究工作时说了一段很尖刻的话,贾里尼克说,“每开除一个语言学家,我的系统性能就提高一些。” 贾里尼克对于参加语音识别系统研究的语言学家,采取了嗤之以鼻的蔑视态度。

我是研究自然语言处理的,当然也很关注贾里尼克的研究,拜读过他的论文。他曾经使用隐马尔可夫模型(Hidden Markov Model)等统计方法来研究英语的语音识别,有效地降低了误识率,大大地提高了正确率,一举把英语语音识别达到了实用的水平,他也因此而成为美国工程院院士。我非常钦佩贾里尼克的杰出成就,可是,贾里尼克为什么会说出这样的话呢?

对此,李斌在书中做了这样的分析,他指出,“传统语言学家由于不太了解计算机的算法模型,他们提出的很多解决方案反而拖后了开发的进程,降低了系统的性能。”因此,贾里尼克才说出这样尖刻的话。

我同意李斌的意见,有的传统语言学家确实不太了解计算机的算法模型,他们对语音识别系统和其他的自然语言处理系统提出的很多解决方案只是他们一厢情愿的想法,而他们往往误认为他们的方案很有用,可是实际上是不可能在计算机上实现的,一旦采用他们的方案,必定会拖了语音识别和其他的自然语言处理研制的后腿,降低了系统的性能,造成了欲益反损的严重后果。因此,这样的语言学家遭到贾里尼克的奚落,也就不足为奇了。

我认为,贾里尼克在他的报告中奚落的是那些不懂计算机算法而且又不愿意更新知识的语言学家,如果语言学家也学习计算机的算法,与时俱进,更新知识,把计算机算法与语言学规则结合起来,就不至于受到贾里尼克的奚落。



就在贾里尼克发表奚落语言学家的言论5年之后,1993年7月在日本神户召开了第四届机器翻译高层会议,英国着名学者哈钦斯(J. Hutchins)在会议的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法。这种建立在大规模真实文本处理基础上的机器翻译要使用统计技术,叫做统计机器翻译(statistical machine translation,SMT)。统计机器翻译是机器翻译研究史上的一场革命,它会把自然语言处理推向一个崭新的阶段。哈钦斯在他的报告中并没有奚落语言学家,而是号召语言学家学习语料库的方法,更新自己的知识。

在统计机器翻译的研究中,由于有语言学家参与语料库的加工,有效地提高了语料库的质量,由于有语言学家在统计方法中导入了可计算的短语规则和句法规则,克服了数据稀疏的缺陷。在参与统计机器翻译研制的过程中,不少语言学家努力地学习计算机算法的理论和技术,不断地进行更新知识的再学习,成为了兼通语言学和计算机科学的语言学家。

语言学家更新知识之后,贾里尼克也改变了对于语言学家的成见,他在2004年发表了一次演讲,演讲的题目是“我的一些最好的朋友是语言学家”,他在演讲的最后说:“物理学家研究物理现象,语言学家研究语言现象。工程师要学会利用物理学家的真知灼见,而我们则要学会利用语言学家的真知灼见”。可见贾里尼克在16年前奚落的并不是所有的语言学家,而是那些固步自封并且不愿意更新知识的语言学家,我们不应当苛责贾里尼克。为了适应信息时代语言学研究的新发展,语言学家有必要进行更新知识的再学习,努力完善自己的知识结构,这应当是信息时代的语言学家责无旁贷的任务



目前,基于多层神经网络的、以大数据作为输入的深度学习(deep learning)方法引入到机器翻译中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习,使用多层神经网络的方法。这种多层神经网络是非线性的,可以重复利用中间层的计算单元,减少参数,计算机从海量的大数据中可以自动地产生模型的特征和算法。

词向量(word vector)是多层神经网络的一种重要方法,词向量把单词映射为一个固定维度的向量,不同的词向量构成词向量语义空间,在这个词向量语义空间中,语义相似的单词距离会比较近。美国机器学习研究者米克罗夫(T. Mikolov)发现,如果用“意大利”这个单词的属性向量减去“罗马”这个单词的属性向量,再加上“巴黎”这个单词的属性向量,就能得到“法国”这个单词或者相近单词的属性向量。类似地,如果用“国王”的属性向量减去“男人”的属性向量,再加上“女人”的属性向量,就能得到“王后”的属性向量。词向量的计算结果竟然与人们对于语言词汇的直觉很接近,这非常令人振奋的结果,因为米克罗夫事先并没有刻意地做这样的安排。但是,其中的奥秘究竟如何,还有待我们进一步探索。

2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,统计机器翻译又进一步发展成了神经机器翻译(neural machine translation, NMT),口语神经机器翻译正确率已经超过了 90%,针对日常口语的神经机器翻译基本上已经可以付诸实用了。

然而,在这种神经机器翻译中,语言之间的翻译细节还是一个黑箱(black box),尽管翻译的结果不错,研制者对于其中的语言处理机制仍然是不清楚的,在语言学理论上还难以做出科学的解释。探测这个黑箱的奥秘,当然需要语言学家的参与。

在自然语言处理中,类似的语言奥秘数不胜数,需要我们进一步探索,语言学家在自然语言处理的研究中是大有可为的。

李斌的《语言探秘》一书给我们揭示了语言的很多奥秘,语言中还有大量的奥秘等待我们去发现,去研究,去解释。希望读者在阅读了本书之后,积极地投身到语言探秘的研究工作中去,为语言学的新发展贡献出你们的聪明才智。

?????????????????????????????????????? 冯志伟

2017年10月于德国海德堡


[1] L.? Hjelmslev, Prolegomena to a Theory of Language, 1节, 1953.




作者:李斌??

出版社:南京师范大学出版社? ?

出版时间:2018年12月?


作者简介

李斌,男,1981年生,南京师范大学文学院语言科技系副教授、硕导,南京师范大学校级学科带头人培养对象。1999~2003年就读于南京师范大学文学院汉语言文学(文科基地)专业,获学士学位。2006年、2009年,继续在文学院攻读研究生,分获计算语言学方向硕士和博士学位。后留校任教,讲授中文信息处理概论、数据结构、数理逻辑、人工智能、数据库编程等研究生和本科课程。2010~2013年南京大学计算机科学与技术系在职博士后,2015年赴美国Brandeis大学计算机系访学一年。研究领域包括词法分析、认知语义计算、语料库技术、语法理论等方面。主持完成国家社会科学基金青年项目1项,国家博士后基金1项,参与完成国家自然科学基金、国家社会科学基金、211工程项目等多个研究项目。目前主持教育部项目1项,出版专着《动宾搭配的语义分析和计算》和《词语认知属性的知识库构建和应用》2部,在国内外期刊和重要会议上发表论文四十多篇,其中被SCI、A&HCI、EI、CSSCI、CSCD索引20多篇,3篇被《人大复印资料》和中国社会科学网转载。

转载文章地址:http://www.sdhyfz.com/rensheng/45836.html
(本文来自黑椒青年整合文章:http://www.sdhyfz.com)未经允许,不得转载!
标签:
网站简介 联系我们 网站申明 网站地图

版权所有:www.sdhyfz.com ?2017 黑椒青年

黑椒青年提供的所有内容均是网络转载或网友提供,本站仅提供内容展示服务,不承认任何法律责任。