用户名: 密码: 验证码:
汉语短语歧义结构受限消歧策略探讨
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文以汉语自然语言处理中的汉语短语歧义结构为主要研究对象,在短语本位语法体系下,引入歧义格式概念和潜在歧义论,对常见的短语歧义结构进行了较为系统的总结和类型标记。并在此基础上,重新对歧义结构作了面向自然语言处理的分类。
     在上述准备基础上,文章在全文核心部分对短语结构的定界歧义和结构关系歧义从句法角度、语义、受限规则汉语的规则消歧策略的应用进行了论述,而且结合具体实例,尝试性的给出了部分限制条件、及具体的应用思路和步骤。首先对两种典型歧义结构的句法限制条件进行分析,指出其必要的歧义消除要素;其次对语义限制在结构消歧中的利弊亦进行论述;另外,文章亦对规则汉语在结构消歧中的应用思路进行探讨,提出了运用基于规则汉语的写作器对目标文本进行歧义控制的思想,尤其重要的是,文章在消歧策略部分提出歧义结构的自我消歧能力这一观点,深化和发展了目前对结构歧义的研究,并对此特点在今后自然语言处理系统中消歧问题进行了大胆的设想和建议。文章认为绝大部分歧义结构并非处于绝对歧义状态,对应于不同类例关系,不同的组成成分在同一结构下有可能产生不同的结果,即意义和形式有可能统一。对此主张,文章给出了例证。并认为随着将来大规模真实文本库的完善及计算机处理能力增强,该特点可应用于结构消歧本身。
     本研究有助于中文大规模语料库的建立与汉语短语歧义结构的系统研究,并对受限规则汉语研究有指导意义。文章中的自我消歧观点为短语歧义结构消歧研究提供了另一种思路。
Having introduced the. concept of ambiguous structure and Potential Ambiguity theory, in this paper the author reclassified and re-generalized ambiguous structures based on the Chinese Phrase-Based Grammar, and then further discussed the applications of disambiguating approaches from several aspects of syntactic restraints, application of semantic knowledge and Controlled Chinese. With support of some instances, we presented a set of restraining rules to disambiguate particular structures in correspondence to different approaches from the aspect of rule restraining, and creatively provided suggestions and assumptions to disambiguate ambiguous structures in future NLP systems. Most of all, we found it a notable characteristic that almost every ambiguous structure under some circumstance can be self-disambiguated.
    This study, no doubt, will be suggestive to Chinese large scale corpus construction and the systematic study of Chinese ambiguous phrase structures and it can be referential to constitute reasonable regulations for Controlled Chinese study to help to establish a closer corresponding connection between the forms of phrases and their senses. Especially, the idea of self-disambiguating ability and the opinion on how to make use of their self-disambiguating ability to disambiguate them in future NLP will no doubt be good new weapons for people to fight against ambiguities in future disambiguating study.
引文
Abney, S. P. (1997). "Stochastic. Attribute-Value Grammars." Computational Linguistics, 23(4): 597-618.
    Alshawi, H. and Carter D. (1994). "Training and Scaling Preference Functions for Disambiguation." Computational Linguistics, 20(4): 635-648.
    Brent, M. (1993), "From Grammar to Lexicon: unsupervised Learning of Lexical Syntax." Computational Linguistics, 19(2): 263-311.
    Chiang, Tung-Hui, and Lin, Yi-Chung (1995). "Robust Learning, Smoothing, and Parameter Tying on Syntactic Ambiguity Resolution." Computational Linguistics, 21(3): 320-349.
    Fillmore, C. J. (1982). "Frame Semantics." Linguistic Society of Korea (ed.), Linguistics in the Morning Calm. Seoul: Hanshin Publishing Co., pp. 111-137.
    Gan, Kok-Wee et al. (1996). "A Statistically Emergent Approach for Language Processing: Application to. Modeling Context Effects in Ambiguous Chinese Word Boundary Perception." Computational Linguistics, 22(4): 531-553.
    Heinecke, J. and Juregen K. (1998). "Eliminative Parsing with Graded Constraints." In Proceedings of Coling'98, 526-530.
    Hindle, D. and Rooth, M. (1993). "Structural Ambiguity and Lexical Relations." Computational Linguistics, 19(1): 103-120.
    Huang, Chu-Ren; Chen Keh-Jiann; and Gao Zhao-Ming (1998). "Noun Class Extraction from a Corpus-based Collocation Dictionary: an Integration of Computational and Qualitative Approaches." Quantitative and Computational Studies on the Chinese Language, Benjamin K. T'sou et al. eds., 339-352.
    Liu, Qun and Yu, Shiwen. (1998). "Discussion on the Difficulties of Chinese-English Machine Translation." ICCIP'98 Submission.
    Jenson, K.; George E. H.; and Stephen D. R. eds. (1993). "Natural language processing: the PLNLP approach." Boston: Kluwer Academic Publishers, pp. 60-230.
    Tou, J. T. (1998). "An Intelligent Full-text Chinese-English Translation System." Information Sciences, 125(2000): 1-18.
    LaPolla, R. J. "Pragmatic relations and word order in Chinese." In Word Order
    
    in Discourse, ed. Pamela Downing, Michael Noonam. Philadelphia: John Benjamins Publishing Company, 1995.
    Justeson, J. and Katz, S. (1995). "Principled. Discriminating Adjective Senses with Modified Nouns." Computational Linguistics, 21(1): 1-119.
    Schank, R. (1975). "Conceptual Information Processing." New York: Elsevier Science Inc..
    Su, Keh-Yih; Chiang, Tung-Hui; and Chang, Jing-Shin (1996). "An Overview of Corpus-based Statistics-oriented Techniques for Natural Language Processing." Computational Linguistics and Chinese Language Processing, Taiwau, 1(1):101-157.
    Vijay-Shanker, K. and Weir, D. (1993). "Parsing Some Constrained Grammar Formalisms." Computational Linguistics, 19(4): 591-600.
    曹敏 (1990),计算机自动分析量词短语的方法及规则,《中文信息学报》,第1期。
    陈力为、袁琦 (1995),《中文信息处理应用平台工程》,电子工业出版社,北京。
    陈小荷 (1998),从自动句法分析角度看汉语词类问题,98现代汉语语法学国际学术会议论文,北京。
    戴浩一、薛凤生 (1994),《功能主义与汉语语法》,北京语言学院出版社,北京。
    董振东 (2003),Ontology & HowNet,会议论文,哈尔滨。
    范继淹 (1979),“的”字短语代替名词的语义规则,《中国语文通讯》,第3期,45-50页。
    冯柳平 (1998),机器翻译中的歧义性问题,《桂林电子工业大学学报》,第4期,43-45页。
    冯志伟 (1992a),中文信息处理与汉语研究,商务印书馆,北京。
    冯志伟 (1992b),计算语言学对理论语言学的挑战,《语言文字应用》,第1期,84-97页。
    冯志伟 (1995a),论歧义结构的潜在性,《中文信息学报》,第4期,14-32页。
    冯志伟 (1995b),《自然语言机器翻译新论》,语文出版社,北京。
    冯志伟 (1996),《自然语言的计算机处理》,167-237页,上海外语教育出版社,上海。
    胡景凡、周锡令 (2000),受限汉语与汉英机器翻译系统,《计算机工程与应用》,第11期,81-83页。
    李子云 (1991),《汉语句法规则》,安徽教育出版社,安徽。
    林杏光 (1994),《现代汉语述语动词机器词典》,北京语言学院出版社,北京。
    刘群 (1997),《一个汉英机器翻译系统的计算模型与语言模型》,吴泉
    
    源、钱跃良主编《智能计算机接口与应用进展》,电子工业出版社,北京。
    刘颖 (2002),规则与统计结合进行汉英机器翻译消歧,《计算机应用》,第5期,28-30页。
    陆俭明 (1993),《八十年代中国语法研究》,商务印书馆,北京。
    陆俭明 (1996),“名词+动词”词语串浅析,《中国语文》,第3期。
    卢素琴 (2001),谈歧义结构,《池州师专学报》,第4期,69-71页。
    吕叔湘 (1979),《汉语语法分析问题》,商务印书馆,北京。
    吕叔湘 (1984),歧义类例,《中国语文》,第5期,321-327页。
    马希文 (1989),以计算语言学为背景看语法问题,《国外语言学》,第3期。
    邵敬敏 (1994),《歧义分化方法探讨》,载《九十年代的语法思考》,北京语言学院出版社 1994年版。沈阳(1994)《现代汉语空语类研究》,山东教育出版社 1994年版。
    孙茂松、黄昌宁 (1989),汉语中的兼类词、同形词类组及其处理策略,《中文信息学报》,第4期。
    王惠 (2003),机器翻译中基于语法、语义知识库的汉语词义消歧研究,《广西师范大学学报》,第1期,86-89页。
    翁富良,王野翊 (1998),《计算语言学导论》,中国社会科学出版社,北京。
    吴立德 (1997),《大规模中文文本处理》,复旦大学出版社,上海。
    喻连生 (1998),短语歧义现象,《黄冈师专学报》,第1期,69-72页。
    俞士汶等 (1994),《机器翻译译文质量评价的实践与分析》,发表在中文电脑国际会议ICCC'94(新加坡)论文集。
    俞士汶 (1995),关于受限的规则汉语的设想,《语文现代化论从》(王均主编),193—205页,山东教育出版社,山东。
    俞士汶等 (1998),《现代汉语语法信息词典详解》,清华大学出版社,北京。
    俞士汶 (1999),自然语言理解与语法研究,《语法研究入门》(马庆株主编),240-251,商务印书馆,北京。
    袁煜 (2004),受限汉语在机器翻译中的应用,《语言与文学研究》,第1期,第197页。
    袁毓林 (1998),《语言的认知研究和计算分析》,74—126页,北京大学出版社,北京。
    詹卫东 (1995),面向中文信息处理的现代汉语短语结构规则研究,北京大学博士学位论文,第2页
    詹卫东等 (1997a),面向自然语言处理的现代汉语词组本位语法体系,《语言文字应用》,第4期,100-105。
    
    
    詹卫东 (1997b),《词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题》,全国第四届计算语言学联合学术会议论文集(JSCL'97),北京。
    詹卫东 (1997c),《PP〈被〉+VP1+VP2格式歧义的自动消解》,《中国语文》,第6期。
    詹卫东 (1997d),《从计算机的角度看汉语短语结构歧义》,第十届北美中国语言学会议论文。
    詹卫东 (1999),汉语短语结构定界歧义类型分析及分布统计,《中文信息学报》,第3期。
    张宝胜 (2002),配价语法和“对+N+的+X”短语的歧义问题,《河南大学学报》,第5期,124-127页。
    张国宪 (1998),语言单位的有标记与无标记现象,《句法结构中的语义研究》(邵敬敏主编),北京语言文化大学出版社,北京。
    张伟 (1998),受限汉语辅助写作系统的构想,《计算机世界报》,1998年4月13日,第13期D版技术专题。
    赵铁军 (2000),《机器翻译原理》,哈尔滨:哈尔滨工业大学出版社,第204—240页
    赵元任 (1959),汉语中的歧义现象,袁毓林编《中国现代语言学的开拓和发展》,169-191页,清华大学出版社,北京。
    周强等 (1997),《汉语树库的构建》,《中文信息学报》,第4期,42-51页。
    周强、俞士汶 (1996),汉语短语标注标记集的确定,《中文信息学报》,第4期,1-11页。
    朱德熙 (1980),汉语句法中的歧义现象,《中国语文》,第2期,169-190页。
    朱德熙 (1985),《语法答问》,109—136页,商务印书馆,北京。
    朱德熙 (1999),《朱德熙文集第一卷》,商务印书馆,北京。
    邹崇理 (1995),《逻辑、语言和蒙太格语法》,社会科学文献出版社,北京。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700