根据中国互联网信息中心(cnnic)的第29次统计报告,截止到2011年12月底,我国网民数量达到5.13亿,中国网民数量第一次超越美国,跃居世界第一位。根据2009年7月22日市场预测机构forrester的报告,到2013年世界网民要达到22亿,到时将有17%的网络人口来自中国,43%的网络人口位于亚洲。1989年瑞士高能物理实验室的研究员timsberners-lee创立了世界上第一个互联网(world wide web,简称www)。2000年前后tims berners-lee等人又提出语义互联网(semantic web,简称sw)的构想(tim berners-lee,james hendlerand oralassiia2001)。近年来这个领域的商业软件开发和研究活动非常活跃。这表明语义互联网时代离我们已经不远了。
为了应对这个新的信息时代的到来,尽快推广和实现网络中文文本的词式文本是当务之急。我们确实有必要重视这个问题,要在这个领域做好语言学上的准备,要及时推进汉语书面表现格式的进步。这是因为词是语言中最基本的符号,是语言表达意义最重要的基石。比词低一个级别的语素不一定能够自由表达意义,比词的级别高的句子以及同级别的扩展单位词组,它们的数量又特别庞大。只有词能够保证在自由表达意义的前提下数量最少。
按照词的单位写出词的界线叫做“词式书写”(彭泽润,李葆嘉主编2009:249)。考虑到印刷和电脑处理出来的文本不能叫做书写,本文把“词式书写”叫做“词式文本”。我们不使用“分词文本”的说法,因为“分词”作为语言学的术语是多义的,它的英语翻译有participle和segmentation两个意思。即使从segmentation的意义理解,也是指“把词从句子中切分出来”,而不是“把词进一步切碎”。
在互联网时代,网上的海量文本是信息处理的主要对象和资源,机器翻译、搜索引擎、问答系统和信息抽取等自然语言处理的应用课题无不直接依赖于句子的句法分析结果。所以一个国家的自动句法分析精度的高低直接反映了这个国家信息处理能力的强弱。
任何语言的句法分析都把句子中的词做为分析的基本单位,汉语也不例外。然而母语是汉语的两岸百姓之间对词的认同率只有76%(sproatetal.,1996)。搞汉语信息处理的同行之间对词的认同率也不到90%(xueetal.,2005)。造成这种局面的直接原因是我们的汉语历来使用字式文本,而不是像世界上大多数语言那样使用词式文本。因此如果要对汉语文本进行句法分析,第一步就必须把字式文本转换成词式文本,就是把一个个词从句子中分离出来,这个过程一般叫做“分词”。不言而喻,字式文本的汉语书面语的表现现状使得汉语文本的句法分析跟西方语言相比从一开始就更困难,因而分析精度也更低。
根据chenand kit(2011)的报告,在宾州中文树库(ctb5.1)和宾州英文树库(ptb3.0)测试集的句子上用伯克利句法分析器(berkeley parser)(petrovand klen,2007)进行两种语言的短语结构语法分析,如果输入句子是经过词性标注的,那么汉语和英语的分析精度(f值)分别为88.35%和89.88%,两者相差1.53个百分点。除了两种语言之间的差异之外,ptb训练集的规模比ctb大一倍左右,也是一个不容忽视的原因。但是,如果输入句子的词性是由伯克利句法分析器自动生成的,那么汉语和英语句法分析精度(f值)分别是83.22%和89.87%,两者相差的距离一下子拉大到6.65个百分点。这里值得注意的是,自动词性标注的正确率:英语是97.30%,汉语是95.33%,两者相差1.97个百分点;可是自动词性标注对句法分析精度的影响:英文只有0.01%,而中文却高达5.13%。上述实验还揭示,词性标注的正确率可以进一步划分成对测试集已知词和未知词(就是没有在训练集上观察到的词形或者词性)的两种标注正确率:对英语来说它们分别是97.93%和76.13%,汉语是96.91%和59.23%。这些数据说明,汉语未知词的词性标注正确率比英文低了16.9个百分点,这大概是自动词性标注拖累汉语句法分析精度的一个重要原因。汉语的词几乎没有西方语言那样的体现词性的语法形态变化,专有名称的词也没有第一字母大写等书写上的形态标记,这些都是汉语未知词词性标注正确率低下的原因。如果我们再把汉语自动分词的错误率考虑进来,那么汉语句法分析的精度将跌落到80%以下,同英语相比的差距进一步扩大到10个百分点以上。汉语在做信息处理前多做一个自动分词程序,而且必然会带来一定错误率。汉语要多做一个程序的根本原因是汉语的文本还没有实现词式文本。以上实验数据说明,要让互联网上汉语文本的分析精度能够同英语和其他西方语言并驾齐驱,就必须从实现汉语词式文本入手,从根本上减小汉语文本信息处理的损耗。
吕叔湘(1979:65)说过,由于形态标记少,“汉语里语法范畴主要依靠大小语言单位互相结合的次序和层次来表达。”可见,做为一种语法手段,层次在汉语中承担的表达功能超过在其他语言中承担的表达功能。在书面上区分词是表达最基本的层次单位的手段,在汉语中能够传达很丰富的信息。
阅读汉语拼音词式文本比阅读有声调但是不区分词的汉语拼音文本容易得多。这似乎说明区分词在语言交际中提供的信息比声调多,在提高阅读效率方面有巨大的潜力(陆丙甫2008)。
如果不充份发挥词的作用,就难以提高书面语言的信息效率。2006年周有光给彭泽润的研究成果题词:“词式书写就是分词连写,这是书写方法的进步,在出版物上应用方便阅读,在电脑上应用方便传输,值得大家来研究尝试。”(彭泽润2007:扉页)马庆株说:“词是汉语语法的基本单位之一,是造句基本的备用单位。它是汉语客观存在的,不是主观想像的,也不是从境外进口的。比如,小孩学会了说话,就掌握了词。可是,等到上小学,一念书,就跟着一个字一个字地读音节,汉字的字抹煞了词与词之间的界限。我国的语文教学不是发展学生的语文能力,而是把孩子已经发展起来的语文能力拉回到刚刚学说话的时候的水平。”“注音识字,提前读写”的语文教学实验取得喜人的成功,与在教学中重视词和字的区别,重视词的教学和词理论的应用很有关系。(彭泽润2007:2)
有人怀疑汉语的基本单位是词,甚至明确认为汉语的基本单位是“字”。但是我们可以从汉语及其方言的事实中看出词的确切存在(王立2006;彭泽润2006)。有人质疑汉语词式文本造成浪费等,彭泽润、马庆株(2007)做了科学的回应。有人蔑视词式文本,彭泽润、李开拓、关彦庆(2008)也做了诚恳的回应。我们的语言学理论教材,也对词和非词的性质、结构等产生认识错觉,彭泽润、邱盼盼、曹家鹏(2014)做了分析。