老哥学习网 - www.lg9.cn 2024年05月24日 00:43 星期五
当前位置 首页 >心情日记 >

[文字输入处理软件初探]文字输入软件

发布时间:2019-03-17 06:25:33 浏览数:

  【摘 要】作为输入编码的后处理,各种类型输入软件智能化的共同目标是由软件来识别和选定重码字词与缩短平均码长并促使编码简化和规范化。   【关键词】计算机应用;汉字库;自然语言理解;模板匹配
  一、前言
  中文信息学会原理事长钱伟长教授于上世纪八十年代中期推出他亲自设计的“钱码”的同时指出:“理想的输入方法还没有实现”。十多年的实践表明:从汉字编码上下功夫,要得到一个易学、易用兼备的“理想的输入方法”,着实艰难,就像人们很难将蒸汽机车的热效率大幅度提高而不得不换成内燃机车、电气机车。
  计算机软、硬件的发展速度以几何级数的形态增长。计算机系统资源的丰富为人们开发出实用的、算法各异的汉字输入智能软件创造了条件。各种类型输入软件智能化的共同目标是山软件来识别和选定上屏的重码字、词与缩短平均码长,促使编码简中北和规范化。
  二、汉字库发展简介
  1.GB 2312汉字编码字符集
  从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集―基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
  2.大字符集字库(又叫GBK字库)
  国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK(“国家标准扩展”的拼音缩写)字库。
  3.新标准汉字
  2000年3月,国家信息产业部和质量技术监督局在北京联合发布了《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27000多个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行。GB 18030-2000作为GBK for Unicode 3.0的更新而诞生,它带有包含所有Unicode的扩展,完全向下兼容GB 2312-1980和GBK。
  三、基于理解的智能输入软件
  1.原理
  主要利用汉语语法知识来消化同音字、词、以及化解歧义分词。通常表述为计算机能够识别和处理的一系列固定搭配、公式和自定义规则。在学科分类中属」几人工智能分支自然语言理解。这类软件是最旱出现的也是最理想化的智能输入软件。根据自动分词得到同音字、词的候选集.查找知识库得到相关的规则.再经过归约推理.得出转换结果。利用句内编辑实时修正转换错误和批量学习可以使得系统知识不断完善和充实,也就是自学习功能。
  2.典型作品
  哈尔滨工业大学王晓龙等研制的拼音语句输入系统InSun;
  北京大学朱守涛研制的智能ABC。
  3.优点从与存在的问题
  优点:(1)这一种自行构造的“语法体系”大体上能够包括最基本和较少歧义的汉语语法知识,因此系统的正确率比较稳定。(2)软件开销视知识库的规模可大可小,小型系统在CPU为486的机器上就能运行。存在的问题:逐字连续拼音整句输入时,平均码长较长,采用简化拼音输入时键选率较高。偏重整句处理,当出现转换错误时,需要使用者回头去纠正,干扰了正常的思维。当前,建立知识库时,汉语知识表达的困难;自动分词过程中切分歧义等因素对分词精度的影响;输入语句的语法不规范都使键选率的降低受到限制。最理想化的模型没有达到理想化的效果,因此人们不得不寻找不那么理想却比较实用的理论模型与方法。
  四、基于语用统计的智能输入软件
  1.原理
  主要利用语用统计的数据来消化同音字、词.以及化解歧义分词。在学科分类中属于运筹学范畴。
  使用概率统计运筹决策的方案很多。文献[5]通过统计字字相关的同现概率矩阵来完成汉语语用统计库结构.这个矩阵的大小是固定不变的.只与字符集的大小有关。文献[5]作者通过搜索了500万字语料给出了一个3673 X 3673的同现概率矩阵。文献[4]是基于几理解和基于语用统计相结合的设计。该设计根据分词后的输入语句查找知识库.用句法、词法、语义和自定义的规则作为制约对文章进行解析推理.当存在同音词时。采用最优评价法来确定最佳选择作为转换结果。同音词的评价值需要考虑词性、同现概率、近期使用状况等因素。具有最优评价值的选择即为转换结果。当具有最优评价值的第一选择而非日标选择时,可选用次优选择或用手工方式进行修正,候补修正或人工修正均被记录,作为下次转换时修改计算评价值因素的依据,也就是自学习功能。
  2.典型作品
  蔡榕先生设计的最优评价函数法拼音汉字转换系统;
  蒋先生设计的Autoway;
  清华大学人工智能实验室夏莹等研制的智能输入软件。
  3.优点与存在的问题
  (1)优点
  1)对于己经进行过语用统计或者具有相同类型的领域,系统的转换正确率比较高,或者说语用统计具有偏向性。对每一个用户而言,在使用过程中,语用统计库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型。
  2)软件开销较小,在CPU为486的机器上就能运行。
  (2)存在的问题
  1)作为一个整体的同现概率矩阵,不能做到模块化、积木化。偏重整句处理,当出现转换错误时,需要使用者回头去纠正,干扰了正常的思维。
  2)当前,自动分词的准确度只能达到98%左右,键选率的降低受到限制。
  五、结束语
  上世纪八十年代我国学者提出的“从开发人脑到开发电脑”、“字为基础、词为主导、智能处理”,只是指明了汉字输入技术的发展方向。时至今日,己有近十种输入法采用了智能化处理重码的技术。这些智能输入软件中有的采用人工智能理论,有的依据概率统计方法,有的依靠自动控制技术,多数软件设计两种方法。效果较好的青月亮软件更是在模糊控制的框架内使用了语法规则和动态语用统计。如果像当年“万马奔腾”一样,智能化软件也形成“百花齐放、百家争鸣”的局而,则钱伟长教授要求的易学、易用的理想的输入方法的实现为期己经不远了。
  
  参考文献:
  [1]俞士汶.中文输入中语法分析技术的应用[J].中文信息学报,1988(3).
  [2]王晓龙等.语句级汉字输入技术[J].中文信息学报,1996(12).
  [3]章森等.语句拼音汉字转换的智能处理机制分析[J].中文信息学报,1998(2).
  [4]蔡榕.最优拼音汉字一次输入变换法及拼音汉字转换系统的实现[C].第三届中文信息处理国际会议论文集,1992.10.
  
  作者简介:崔罗罗,男,现就读于西安外事学院工学院电子信息工程专业。

推荐访问:初探 处理软件 输入 文字

相关文章:

Top