用信息化手段进行语言文字研究- 学术交流

用信息化手段进行语言文字研究

2008-07-27 16:36来源：【字体：大中小】【打印】【关闭】

    随着中文数字化产品的不断问世，表明中文数字化技术日渐成熟，用信息化手段研究语言文字的时代已经到来。
    相对于信息技术的发展而言，语言文字工作者的研究手段则显得相对落后，制约着其研究和发展的进程。究其主要原因在于：资源的数字化远远跟不上时代的发展脉搏，满足不了学者所需。目前为止，仍有相当数量的关于语言文字方面的史料、资源等都是以纸张形式存在，即便有电子形式，也不成体系。学者要进行学术研究、撰写论著，还只能凭借自己大脑中贮存的有限信息为线索，到浩瀚的书海中搜寻，而且由于研究手段的陈旧，研究成果往往不便重复利用，造成很大的人力、资源的浪费，制约着研究的进程。据了解，多数学者都把80%、甚至更多的时间、经历用于资料搜集，而且尚无把握查全；只有不到20%的时间、经历是真正用于思考、研究。这不仅浪费了大量宝贵的时间和精力，也会由于个人知识的空白而漏掉了某些有价值的资源，这种本末倒置的现状必须改变。利用信息化手段进行研究工作，不仅可以提高研究工作效率，而且对信息挖掘的深度和广度也是过去手工办法无法比拟的。我们要充分地运用信息化手段，让更多的人成为学者，让学者更专注于研究，这样才能多出成果、快出成果、出好成果。使语言文字的研究工作迈上一个新台阶。
    对语言文字的研究来说，信息化的前提就是要数字化。纵观近十年的数字化历程，笔者认为以下几点值得重视：

一、什么是数字化？
    数字化不是纸张载体版本的翻版。扫描在很多情况下是必要的，但扫描不是数字化，因为图像文字代替不了编码文字，不能实现全文检索。真正的数字化是将纸张内容转为编码文字并使之与多种有效的检索、处理工具相结合，做到足不出户、字字可查、句句可检、图图可视、由此及彼、由表及里，获取所需资料。这才是真正的数字化。

二、什么样的编码标准适合中文数字化?
    由于历史的原因，导致了今天这个“万码奔腾”的局面。其中最主要汉字编码标准有BIG5、ISO 10646、UNICODE、CJK、GB2312、GBK、GB13000、GB18030等等、等等，再加上一些自造的编码，一时间让人们不知所措。
    笔者认为，做数字化之前，先弄清楚这些编码及其之间的相互关系非常重要。故此花点篇幅作一简单介绍。
    ISO 10646是国际编码标准，该标准旨在囊括世界上所有文种。CJK特指其中的中、日、韩统一编码的汉字部分。目前CJK由三部分构成：CJK 20902汉字、CJK Extension A 6582汉字和CJK Extension B 47211汉字。也就是说，到目前为止ISO 10646已编码汉字达七万字之多。其中，前两部分在基本多文种平面（BMP）编码，第三部分是在第二辅助平面编码。UNICODE 是工业标准，它是由IT企业集团制定的，总体上，他的内容与ISO 10646完全相同，也可以简单地说是对ISO 10646的俗称。GB13000是等同采用ISO 10646的国家标准。CJK 20902汉字部分，既包容了GB2312，同时也包容了台湾的工业标准Big5。
    BIG5是台湾的工业标准，编码汉字13061字，在Windows NT 5.0之前，俗称的繁体平台普遍采用此编码标准。GB2312、GB18030、GB13000.1均为国家标准，而GBK是国家规范。GB2312编码汉字6763字，是在Windows 95出现以前，国内信息处理普遍采用的编码标准。GBK是在保持GB2312原貌的基础上，将其字汇扩充至ISO 10646中的CJK 20902汉字，同时也就包容了台湾的工业标准Big5中的全部汉字，没有体系结构的变化。而GB18030则不然，它是在GBK的基础上做进一步扩充，不但把CJK Extension A 的6582汉字扩充进去，而且还改变了GBK的体系结构。GBK是在Windows 95开始至Windows NT 5.0之前这一段时间内被业界广泛采用的编码规范。GB18030至今未见实现。尽管GB2312、BIG5、GBK在某种程度上依然尚存，但ISO 10646（GB 13000/Unicode）已日渐成为主流编码，这是一个不争的事实。
    由于语言文字研究领域对文字量的特殊需求，经常会有人投其所好，推荐什么所谓的大字库，切忌慎用。凡属这样的字库，多半是自造编码，与通用的编码标准不兼容，只能在它自己特定的环境下显现、输出，通常的文件存储形式为Word或文本，检索、排序等等都存在着相当大的问题，而且不能与外界进行交换。因此，自造编码体系是绝对不可取的。
    作为一名从事十几年国际编码标准的制定者、近十年的数字化历程的见证者，笔者认为：对语言文字领域而言，数字化产品的开发应该建立在国际标准ISO 10646（GB 13000/ Unicode）的基础上，坚持走国际化道路，这样的产品才更有生命力。也只有这样，才能促进相互间、乃至国际间的学术交流。

三、国际标准ISO 10646（GB 13000/Unicode）的优势何在？
    国际标准ISO/IEC 10646-1:2000（包含CJK和CJK Extension A 汉字27484），已于2000年10月5日正式出版。其内容与工业标准Unicode3.0是完全等同的（也已出版）；而ISO/IEC 10646-2:2000（包含CJK Extension B汉字42711）已于2001年10月正式颁布。预计2003年11月前后国际标准ISO/IEC 10646：2003将正式出版，与其相应的工业标准Unicode4.0也出版在即。目前正在研究中的CJK Extension C1含有24000字左右，不日也将正式进入国际标准ISO 10646。
    我们说到ISO 10646/Unicode，首先指的是它的体系结构，其次才是它的字汇量。
    选择ISO 10646/Unicode作为文字平台，一、是由语言文字资源的丰富内容决定的：只有ISO 10646/Unicode广阔的代码空间才能全面地、准确地、合理地表征数以亿计的汉字内容。二、是由汉字的字际关联特性决定的：只有ISO 10646/Unicode的体系结构才可能方便地实现在一个代码体系内的汉字关联，这样才能完成数字化的使命。不但是简-繁、正-异等常见的关联，中-日也可关联，关联类型更宽泛。三、是多文种并存的需求所决定的：中国本身就是一个多文种国家，再加之国际间的文化交流，日、俄、汉、蒙、藏、彝、朝等多文种并存现象不可避免，只有ISO 10646/Unicode的体系结构才可能更好地解决多文种并存问题。四、是由交换的需要所决定的：只有ISO 10646/Unicode的体系结构才可能实现数字化资源的通用性，才能够打破字符集的壁垒，让两岸四地乃至全球都能实现汉字的无障碍交换，全球交互操作。五、是技术实现和开发成本所决定的：只有ISO 10646/Unicode的体系结构才有可能实现SDSB（一套数据、一套软件在多种平台上运行），这样才能使软件大大简化，降低开发、维护、培训成本。六、是数据稳定性的需要：只有ISO 10646/Unicode才能做到“一码”走遍天下。

四、采用国际标准ISO 10646应该注意哪些问题？
    选择ISO 10646并不意味着字符集愈大愈好。一切都应从内容的实际需要出发。实际上，ISO 10646本身就是允许子集的，国际标准化组织IRG目前正在进行国际基本子集的研制工作，不日即将问世。工程的实践已经清楚地表明：
    像《四库全书》这样7亿汉字的古籍巨著，CJK的20902汉字已经可以解决99.4%的问题（不包括小学类字头），如果再加上CJK Extension A便可以解决99.9%的问题。即便像《四部丛刊》这样被圈内誉为版本比较好、没有做过规范化整理的古籍，CJK的20902汉字竟可以解决其1亿汉字的98.1%的问题（不包括小学类字头），如果再加上CJK Extension A便可以解决99%的问题。
    像《中华文化通志》百卷本1300万字的当代巨著， CJK的20902汉字可以解决99.97%的问题。像《人民日报》这样内容宽泛的现代出版物，以其1998年一年的2,694万数据为例，GB 2312的6763汉字就可以解决99.993%的问题，其中“镕”和“珮”两个字在0.7%%外字中的占有率竟高达93%；如果采用CJK的20902汉字，外字仅出现6字次，所占比例微乎其微。
    至于CJK Extension B和即将颁布的CJK Extension C1，主要适用于进一步支持类似《康熙》字典和《汉语大字典》这样大规模字、辞书的电子印刷和电子出版。采用ISO 10646 / Unicode，特别是采用CJK和CJK Extension A，目前的条件已经成熟，从平台、浏览器、编辑器、程序语言、字库、输入法、数据库管理系统都已经支持Unicode，只是一些人还不太了解这个事实罢了。然而，对于CJK Extension B，目前的条件尚不成熟，决策之前，必须审慎再审慎、斟酌再斟酌，权衡利弊，一定要考虑清楚是否真的需要？原因在于这是涉及到体系结构的大事情。
    另外，必须弄清楚Code Page与ISO 10646的关系。GB2312、GBK、GB18030、BIG5等等都是Code Page，GBK是GB2312和Big5等的超集，GB18030是GBK等所有Code Page的超集，它是迄今为止最大的Code Page，也是最没有生命力的Code Page，理论上存在，现实中死亡。GBK对于从GB 2312向ISO 10646过渡起了重要的作用，这在WINDOWS 95上就有所体现：WINDOWS 95的内核已经Unicode化，正是由于这一点，WINDOWS 95上所有GBK字库都可以完全不加修改地作为Unicode字库用于WINDOWS NT平台；只要将WINDOWS 95上输入法码表存成Unicode形式，就可以用于WINDOWS NT平台。但它毕竟还是Code Page，它不是ISO 10646 “一码走遍天下”的体系结构。停留在GBK，或者去发展GB18030都是自寻死路，不可能实现SDSB全球化的数字化产品的开发。
    特别需要注意的是，ISO 10646 / Unicode也有多种变换形式，UTF-8和UTF-16。新近又增加了UTF-32。从数字化的发展来看，最好直接使用UCS-2而不要涉及这些变换形式，以免造成今后转换的负担。UTF-8看来已经落后；而UTF-16（Surrogate）还不够成熟。UTF-32正处在发展当中。
    对于字种需求量大的用户，主要是字、辞书用户，请特别注意UTF-32的发展动向，这有可能是这些用户未来的一个良好出路。

五、哪些成熟的技术适合中文数字化？
    平    台：Windows NT 4.0以上版本、Windows XP、Windows 2000
    数据库：Sybase, Oracle, SQL Server
    编程语言：VC、VB、Java以及新近推出的.NET
    文献内容标识语言：XML
    浏览器：IE 4.x 或以上版本
    字    库：标准的TrueType字库都是基于ISO 10646 /Unicode的，但需要注意的是：字符容量超过64K尚存在技术问题。
    适用工具：
    ☆  基于UNICODE的OCR自动识别技术，可以实现手写体和印刷体的图文数码转换，并可以实现无纸化的联机校对。
    ☆  基于UNICODE的全文检索技术，可以实现跨篇章的全文检索，并将汉字关联纳入其中。
    ☆  基于UNICODE的输入工具
    ☆  SDSB全球版技术：一套数据、一套软件可用于多文种视窗平台。

责任编辑：【纠错】【打印】【关闭】