RE:中文输入法的发展趋势
作者:srfzone 标签:成语 | 阅读次数:107 |
![]() ![]() ![]() |
| ![]() ![]() ![]() |
理想输入法探讨
一、探讨理想输入法的意义 汉字编码的最大误区是把输入法仅仅看成是一种技术。基础知识与专业技术的区别:一是基础性即是否处于知识底层;二是应用领域,应用领域特别广的知识一定要纳入基础知识中。书写是文明的基础,而现代社会打字取代书写是必然趋势,当然应归为最基础的教学内容。既然如此,就要求输入法与现有的教学内容相兼容,即需要找一个规范的输入法,一个与文字教学相联系的输入法,并且设法不增加学习负担,甚至相反减少学习负担。显然寻找最佳输入法已超出了本身技术上的意义。 二、理想输入法的标准 1、编码应一开始就要站得高看得远,不能只从技术上着想,只想到快和方便。必需与文字教学有紧密地关系。但我认为不必盲目适应现有的教学状况,五笔码和二笔码是公认难学的码,为何推广力度那么大,普及程度远比其它码高呢?原因是教育界认为它们与现有的以笔划为基础的文字教学相兼容。显然要打破这种不合理的垄断,就必需强力要求文字教学以字根为基础。在贾码问答中,我已详细说了以字根为基础的教学取代以笔划为基础的教学的好处。 2、码元最好只用字母键。码元数越少,重码率越高。码元数高于26的输入法,必然用符号键或数字键作码元,在输入汉字的同时,不但不易输入数字或标点符号,而且记忆量大又繁杂,用数字键时,手指伸缩幅度大易疲劳,又对盲打的准确性有影响。 3、码长最好为4。五笔码的最大贡献正是在于开创了字根和四码输入法,现大多数键盘输入法都是四码输入法,这是因为以下的看法几乎已成为共识:要想输入快,则码长必需短,因此大于四码的设想常排除在外。小于四码的输入法,目前只有一个,即三码输入法。该码有深厚的理论功底,应加以研究。但三码能容纳的字词数太少(用30个码元最多二万七千个),显然这对认识到以输入词为主输入法的编码人员来说,也是排除在外的设想。再说,那么小的空间,受束缚大,很难自由编码,难以照顾其它各种因素,特别是与文字教学相结合的因素。 4、选码原则:①易辨认,即无须判断,直接输入。五笔码和二笔码等以笔划为序的码,先要判别笔划顺序才能找到码。这对初学者太难了。②易输入,手感好。有些码已考虑到了利用汉字本身的对称性编码。这样的输入法,手感好,打字流畅。③数量较少。这样记忆量少,也便于初期学习。④码在键盘上分布均匀。这样可以降低重码率。 5、规则尽可能少。有些码规则太繁,让人望而生畏。如规定了键名字、成字字根字、合体字等不同的输入方法,规定了各种拆字原则,规定了复杂的识别码取码方法,以及词组取码规则等等。让规则最少最简单是理想输入法研究课题之一。不过词组取码规则一般公认以下规则是最合理的:二字词,取每字的前两码,三字词,取前两字第一码+后一字前两码,四字和四字以上的词,取前三码的第一码+末字的第一码。其中三字词这样取是因为考虑到用户打字时,一下不能辨别词的字长。 6、因为汉字输入属于基础技能,则应尽可能降低要求。降低语音要求,以便方言严重、拼音不准的人使用。另外尽可能兼顾到“音打”和“形打”的互补作用,当读不出音时“形打”,当想不出字形时“音打”。 7、科学地选择和安排简码字。二级简码字(能用两个码键加空格键输入的汉字)和三级简码(能用三个码键加空格键输入的汉字)越多越好,如码元为25,则二级简码最多可达625个,三级简码可达15625个。理想输入法应尽量接近这些字数字并且让常用字分布在简码上。要做到这一点,关键是怎样选择字根以及其代码。 8、词组的数量大些好。打字总是以打词为主。理想输入法应包含所有常用词、成语和常用俗语。但词组太多会增加重码,因此需要兼顾。另外应备有专业词库和实时造词功能。 9、理想输入法应是易学难精的。既要让所有人都能方便地打出字来,又要让高水平的用户快速地打出各种字符。这方面,已有一些码考虑到了。如郑码和我的贾码。 三、现有各类输入法的优缺点 纯音码有两个优点:一是,汉字输入语音结合最佳,即使一下想不出来的字,只要会说一般就能打出。二是容易入门,最受初学者的欢迎。但不要认为纯音码本质上就容易学,纯音码易学的原因是中小学的识字基础。没有中小学的多年训练,纯音码则与形码一样难学。纯音码的缺点有以下几点:一是大部分人语音水平不高,语音不准给汉字输入带来一定的难度,但这问题不大,许多音码已考虑到这一点,设置南方音和模糊音降低语音要求;二是纯音码“看打”不方便。一个字不认识,读不出来则无法输入。不过这不是一个大问题。三是重码率高,这是来自音码自身的弱点,一个无法克服的弱点。一个汉字只有一个音节,因而不管其拼音有多长(最长的有6个字母),一般总只有两个信息即声母和韵母,因此编码工作者想到了用双拼来减少击键次数,提高效率。但这种用增加学习负担换来的效率实在有限,原因是该双码空间远小于262=676,有些如V、I、U、A、O、R代码使用频率极低,而另一些如Z、C、S、L、T、Y代码使用频率又太高,汉字分布极不均匀。因此不但单字的同码现象严重,词组的同码现象也非常多,故在各种编码中成为效率最低的一种。目前效率较高的纯音码是智能整句双拼输入,但在很多情况下输入完句子后都得回头来修改,且无法解决单字输入效率低的问题。因此纯音码不可能成为理想的汉字输入法。 纯形码的优势是:一、一旦学会,多难的生僻字都能顺利地输入,不受用户的文化水平限制,即使要输入的汉字读不准或不会读也能输入,它不受方言的影响,这对汉字输入国际化也是有利的。二、通过发明者的精心设计,重码率可做得非常地低,满足汉字的快速输入。三、可以充分利用对称、旋转、拓扑等等把汉字的特点表现出来。其缺点是学习和使用难度较大。不过是什么原因使得一些形码学习起来让人生畏呢?需要我们来认真分析一下。 1. 纯形码主要有两种:一是以笔划排序为主,如五笔码、字原码、部首码、笔划中文输入法等。此类码与现有的文字教学吻合,因此常受教育界人士重视。但现有的文字教学本身就不太科学。一方面笔划太小,每字的笔划数较多;另一方面笔划是无意义的(而字根很多是有意义的图形)。因此人们对笔画的感知速度较慢,人们可一眼就看出某字有几个部件组成,但却不能一下子知道它的笔画组成。思维负担重,费时较多。更要命的是完全能按照标准规范的书写顺序写出国标6763个汉字的人可能不多,笔划顺序不清,则打不出字来。这类码不可能成为理想输入法。二是以字母近形替代的码。这类码很有特色,如:表形码、三维天然码、对称码等等。下面我们重点要讨论的形码就是此类码。还有一种特殊的形码,如对角码,虽不是按笔划排序的,但它和五笔字型码类似,是双信息码,是由两种信息组合而成的代码,用起来非常费脑筋,先考虑寻找第一个信息,再考虑寻找第二个信息,最后再考虑由这两个信息组合而成的代码。 按部件意义归类编排的输入法(如:王林快码、农民码)很少,此方法对帮助记忆也有一定的帮助。但很多部件没有意义,记忆这些没有意义的部件就困难了。这类码当然不能成为理想输入法。 2. 汉字部件的数量多,仅偏旁部首(称形傍)就有近两百个,还有大量声傍(据说汉字90%以上)还未统计过。此外还有一些固定形状的部件。形码不可能把汉字的各种部件都作为字根处理,这样就有个选字根的问题,不同的码选的字根是不同的,因而拆字的方法也有不同,这给教学带来了麻烦,学什么码就要学这套字根集,学这套拆字方法。因此想成为理想输入法必须统一字根和统一拆字方法。 3. 由于字根的数量多,所以许多形码用到了数字键,这就增加了盲打的难度。若只用字母键,把所有形状相近的的字根放在同一个字母上,各字母代码上的部件数量就不一样,那样做重码就会增多。并且怎样才算形状相近各人看法不一样。牵强附会东拉西扯的结合影响学习记忆形码。 4. 各字根部件的使用频率高低悬殊,含有频率高的字根的代码部件少,含有频率低的字根的代码部件就多,因而各代码部件多少不一。就是同一个字根,它们在前后代码中的使用频率也不一样,如“扌、艹、氵”等字根,在前面的使用频率非常高,而在后面的使用频率却非常地低。可见形码要做到合理分布是不容易。 5. 现在的文字教学常要求学生分清每个字那部分是部首那部分是非部首,这对理解汉字的构成是很有帮助的。但并不应该上升到非掌握不可的地步,尤其不该用于编码。有些形码规定先取部首部件一个代码,再取非部首部件两个代码。这样似乎与汉字特点教学结合紧密。但问题首先是部首部件的位置不固定,或左或右,或上或下,或外或内,与书写顺序不一致;其次有些汉字中部首部件不明显看出来,看起来好象没有部首,有时两个部件又都是部首,不知道以哪个为主。因此编码与文字教学相结合,不能消极地去适应现有的并不合理的文字教学。 6. 许多形码都有拆字原则,如:五笔码以“取大优先,兼顾直观,能散不连,能连不交。”为拆字原则,但“取大优先”和“兼顾直观”有矛盾,不知以哪个为标准;如,“天”拆成“一”和“大”,还是拆成“二”和“人”,“主”拆成“丶”和“王”,还是拆成“亠”和“土”。可见拆字原则难以执行。 综上所述,纯形码要成为理想输入法也是非常困难的。 音形码的编码思路是充分发挥音码的优点而用形码作补充克服音码的缺点。音码的方便是利用了用户的拼音基础,音码打字速度慢,打词速度接近形码,因此要用字根码来加快单字的输入。常见的有两种:1、音码只用声母代码(1音3形或1音2形);2、音码用声韵双拼(2音2形)。声音在前,则根据一般的多字词的输入规则(三字词:1+1+2;四字以上词:1+1+1+1),就几乎与音码一样输入声音。若字根码的选择全用其声,则除了拆字外,几乎与音码一样只用了已学过的拼音知识。遗憾的是不少部件没有读音或不易知道读音,再者不少字根至今还没有标准规范的读音,记忆这些字根就变得困难。另外各部件使用频率高低悬殊,按部件读音首字母编排归类是一种自然的分布,人为更改的成分少了,同码现象必然很多。双拼前置式音形码与只用声母的音形码相比,因表音完整取码较为流畅,输入词组不用形码,音形码使用比例悬殊,不会产生音形同想增加大脑思维负担的缺点;但同纯音码相比较,因为第三、四码附加上形码的信息,因信息量大致使单字同码现象大为减少,提高了单字输入的效率,但也是因为采用了附加的形码,因而加大了学习难度,给用户的印象是既要学记双拼键位,又要学记形码字根及拆字方法,其它方面的弱点同纯音码一样:码位空间利用率不够高,难输生僻字,词组同码现象非常多,词库数量有一定的限制,词库数量少,就不能把单字输入为主的方式转变成以词组输入为主方式,就不能大幅度提高汉字输入的总体效率。因此音形码成为理想的输入法有一定的难度。 形音码是以形为主以音为辅的输入法。其优点是:充分发挥形码的长处,即输入字根重码率低,无须知道每个字的读音;成字字根取其音,用字的音作识别码,克服了形码中一些字根码和识别码难记的缺点。其弱点是:一是需拆字,拆字难的问题,与识字教育有关,不以字根为基础的识字教育,当然不会拆字;二是不会写或能读却一时想不出的字打不出来,这一点不如音码。适合于看打,不太适合于想打。尽管如此,本人认为这类输入法好学、快速、易与识字教学相结合,很可能会成为最佳输入法。贾快码正是一种向这方向努力的码。 综合码是为了进一步降低学习难度而碥的输入法。典型的如邓世强的万能码,既可以拼音输入又可以五笔输入还可以英文输入等等。这种不以某种规则为主的输入法是以牺牲速度换来方便的。不可能成为最佳输入法。但这对速度要求不高的用户来说却是一个良好的选择。因为用户既可以在不会读音的情况下用字根输入,又可以在只知读音想不出字形时用拼音输入。贾慢码充分利用了这一点,并在拆字上增加了宽容度,这样虽然在速度上慢一点,但真正让用户根据象形取形,象字取声,不会拆打拼音。其实用价值还在于引导一般用户字根代码,熟悉字的拆分,完成向快速输入的过渡。 综上所述,理想输入法就是要解决输入方便与输入速度这对矛盾。 走出“易学的打不快,打得快的不易学”的格局。只追求速度不可能是最好的输入法,用户千万不能被广告所迷惑,想想,如果您击键的速度是每秒钟击6键,60秒360键,算两键输入一个汉字也只能输入180个汉字,每分钟输入二、三百个汉字,甚至四、五百个汉字是不切实际的。光图方便则对自己要求太低了,文字工作是所有工作的基础,怎能轻视它呢?除了速度、方便外,突出汉字的象形特点绝对不能忽视,编码工作要有一定的认识高度,要把它与基础教学和文字国际化联系起来,充分考虑了这些因素,编码工作才有实质的进展。 |