基于语料库的数字化辞书编纂平台
来源:中国科技成果 2007年第17期
由教育部语言文字应用研究所承担完成的“基丁语料库的数字化辞书编纂平台研制”是国家863计划“中文信息处理基础应用研究”课题的子课题。子课题是以国家语言文字工作委员会大规模现代汉语语料库为基础,以语义计算理论为核心,以数字化典范辞书为出发点,利用语言信息处理计算机技术等,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台,突破传统的辞书编纂概念,建立一种新型的辞书编纂模式。
在辞书编纂的过程中,计算机自动化处理是提高效率、保证质量的一个重要环节。目前,辞书编纂的计算机辅助软件主要停留在提供查洵检索、排序排版的水平上,或者是将手工步骤简单电子化,计算机在辞书编纂系统中的作用并未充分发挥出来。利用大规模语料库、辞书数据库等资源,结合语言处理技术,依托知识获取语义计算等理论方法,计算机辅助辞书编纂可以达到新的高度。数字化辞书编纂平台将提供从内容到形式、从编辑到出版的多样化的辞书编纂工具,并提倡和建立辞书编纂的新理念、新模式。
子课题主要研究内容是:辞书编纂的新模式研究、数字化辞书生成系统、辞书雷同检查和冲突检测技术、语料库在辞书编纂中的应用、语言处理技术应用于辞书编纂等等。
⒈ 基于语义计算理论的数字化辞书生成系统
数字化辞书生成是利用现有辞书资源和大规模语料库资源,以语义计算理论为核心,利用语言处理技术,根据不同的用户对象、领域、辞书规模等信息,按照用户可定义的辞书模板,重组生成新的辞书框架,并在此基础上通过语料库更新原有的释义和例证,为编纂人员提供新辞书的基本内容。语料库是真实语言文字的集合,基于语料库的辞书编纂更强调辞书内容、释义、例证的真实性,拉近辞书内容与用户的距离,使得辞书编纂更贴近用户需要。语料库可以提供情景、语用等丰富信息,以此为出发点可以构建基于情景语义的新模式的辞书。辞书自动生成系统是本课题的核心,主要内容有:(1)语义计算理论:语义计算理论是建立辞书概念语义网络的主要理论方法;(2)辞书的形式化,主要包括:通过通用XML模板将辞书形式化;建立不司概念间的一致性;辞书体例的归一化;(3)辞书概念关联网络:辞书概念形式化;概念关系:同义、同形、反义、近义、类义、对义、上下位、从属、相关、双关、联想等;辞书概念关联检索;(4)概念重组和更新:重组概念;重新定义概念的释义;更新概念的释义和例证。
⒉ 辞书雷同检查和冲突检测技术
辞书的雷同检查是以经典辞书(或指定辞书)为基础,检查其他辞书与其在词表、概念释义、例证等的相似程度,高度相似则视为雷同。辞书的雷同检查技术可作为辞书市场“打假”的有效工具。雷同检查需要通过语法语义上的相等、同义,近义等判别的浯言处理技术来支持。辞书的冲突检测是对多辞书进行概念定义、释义方面的语义计算比较,不同辞书同一概念间存在矛盾或者同一辞书内部概念存在矛盾则视为冲突。辞书冲突检查将为提高辞书质量提供有效帮助。语义计算是实现辞书冲突检测的理论基础。辞书雷同检查和冲突检测技术的主要内容有:(1)辞书概念关联:概念形式的归一化;建立不同辞书概念间的联系(2)形式和内容的相似性比较;(3)近义、同义和反义判断。
辞书检查还包括编辑错误检查、排版错误检查、体例格式检查等等。
⒊ 辞书的规范性检查
以国家已经发布的语言文字标准为基础,检查辞书中是否存在与规范标准不一致或有冲突的内容。规范性检查试图提高辞书的整体质量水平。
子课题所研发的加工工具和操作平台,及所研发的各类资源库具有自主知识产权,并具有很好的应用前景。
|