中文信息处理技术专栏

中文信息处理技术专栏


首页  中文信息处理技术专栏

  • 汉字编码、输入系统和码本
  • 时间: 2017-06-14    阅读数: 13
  • 汉字编码法

    计算机传入我国后,在其中输入、输出和存储汉字是用户必然的需求。计算机的键盘从英文打字机键盘发展而来,用户可以方便地利用键盘输入英文,却无法直接输入中文。针对这一问题,我国的学者和计算机工作者进行了长期的研究与开发工作,到目前为止已经基本解决了汉字的输入问题。

    目前,计算机中汉字的输入方法可以分为自然输入和键盘编码输入两大类。其中自然输入包括手写输入和语音输入,虽然自然输入更加简单,但是手写输入速度慢,语音识别需要相对安静的环境。可以预见:在相当长的一段时间内,键盘编码输入还是最主流的输入方法。键盘编码输入汉字具有如下两个优点,第一,它无需添加任何外部硬件设备,手写输入通常要添加手写笔,语音输入需要麦克风和声卡结合使用,而键盘编码输入只要基于计算机的键盘;第二,输入速度快、准确率高,手写输入的速度通常较低,语音输入的准确率不太高,而且容易受到外界声音的干扰。

    汉字编码法可以主要分成:流水码、音码、形码和音形码(形音码)。流水码也被称为无理码,它通常没有重码,但是用户如果要使用该输入法输入汉字,记忆量极大。例如“区位码输入法”就是一种流水码,几乎没有用户能够记住所有汉字的区位码。音码是目前比较常见的编码法,通常基于汉语拼音方案,或者对拼音方案进行一些变革与改良。例如:“全拼”就是完全基于汉语拼音,“双拼”就是为了减少输入时的击键数而作的变革。因为我国目前大多数计算机用户在中小学阶段接受过良好的汉语拼音教育,所以比较容易学习与使用该类编码法。但是由于数万个汉字只有一千多个发音,所以音码类的编码法的重码比较高,直接导致用户需要经常在候选字词中选择字词,因此降低了输入速度。形码类的输入法从汉字的形状出发,通常重码低、输入速度快,但是它们往往记忆量较大、用户学习时间长。音形码从汉字的音和形两个角度出发,有的以音为主,有的以形为主。因为结合了汉字的两部分信息,这样重码往往更加低,但是用户在输入时既要考虑音也要考虑形,考虑时间变长,所以用户学习和使用都相对困难。

    汉字输入系统

    汉字输入系统通常由硬件与软件两部分组成。例如:汉字语音识别输入系统,它包括:声卡、麦克风和识别软件部分。显然,软件部分应该是一个汉字输入系统中的主体部分,所以目前通常我们所说的“汉字输入系统”就是指汉字输入系统的软件部分。

    一个汉字输入系统主要完成三方面的任务:第一、接受用户输入;第二、将输入码转换为候选字词的机内码;第三、将汉字或词组的机内码传递给应用程序。其中第一、第三与具体汉字编码无关,而第二的过程和不同的汉字编码是密切相关的。

    对用户而言,Windows中汉字输入系统通常有三个窗口,第一个是输入法状态条窗口,第二个是输入码编辑窗口,第三个是候选字词列表窗口。另外为了便于用户有选择地使用输入法的功能,通常还提供输入法功能选项的设置界面。图1显示了纵横汉字输入法的三个相关窗口,图4.2是纵横汉字输入法的功能选项配置窗口。

    1 纵横汉字输入法的三个窗口

    汉字输入系统码本

    汉字输入系统的主要作用是把用户输入的输入码转换为对应字词的机内码。有些汉字编码输入系统根据用户的输入码就可以直接计算出候选字词的机内码,例如“区位输入法”和“内码输入法”。但是大多数的汉字编码输入系统需要通过查询一个存储了从输入码到字词机内码映射关系的对照表,才能得出候选字词,该对照表通常称为该汉字输入系统的码本。

    汉字输入系统与操作系统结合紧密,它属于系统软件,不仅需要考虑效率,还要尽量少占用系统资源。如果汉字输入系统码本采用数据库形式存储,不仅使得输入系统依赖于一个特定的数据库引擎,还将影响汉字输入系统的发布与实际使用。此外,为了节约内存空间,在进程之间共享数据,汉字输入系统的码本往往不是以数据库的形式存在,需要为汉字输入系统码本设计一些便于检索的码本结构。

    2 纵横汉字输入法的选项设置窗口

    目前,汉字输入系统的码本主要有三种结构:定长结构、变长结构和索引结构。定长结构特别适用于重码少、且每个输入码候选字词分布平均的编码法。对定长码本按照输入码排序后,在查找的时候可以使用二分查找,效率很高。如果不同输入码候选字词分布不均匀,重码多,或者不同输入码的候选字词条存储长度区别很大,此时可是使用变长结构的码本,变长结构的码本在存储上可以节约空间,但是不便于快速检索。索引结构的码本兼有定长结构便于快速检索和变长结构节约存储的优点,可以高效检索,而且能够节约存储空间,所以被广泛使用。


地址:苏州市十梓街1号 苏州大学纵横研究所联系电话:0512-65243192电子邮箱:ckc@suda.edu.cn

Copyright © 苏州大学纵横汉字信息技术研究所 2017