当前位置: 首页 > 专利查询>曲声波专利>正文

语言文字信息处理与交换设备制造技术

技术编号:2893332 阅读:348 留言:0更新日期:2012-04-11 18:40
一种语言文字信息处理或交换用的计算机设备,适用于各种语言文字的处理。本设备采用字词兼容代码处理信息,配有特殊结构的词库存储器组。本发明专利技术与现有计算机信息处理系统有良好的兼容性,能使计算机系统和数据通讯网络的语言文字信息处理和交换能力成倍提高,不仅能用于微型计算机系统和电讯网络的智能终端设备,也能使大、中、小型计算机信息处理系统的效率成倍提高。(*该技术在2009年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种专门用于语言文字信息处理的计算机设备。该设备也可以作为信息交换网络或大、中、小型计算机信息处理系统的智能终端。目前,计算机语言文字信息处理系统的计算机设备都是基于字符处理,在计算机内部直接处理的最小单元是字符-拼音文字的字母或东方文字的汉字等。这种处理方法的不足之处是没有照顾到人类语言是以词汇为最小语义单位这一事实。按字符处理语言文字信息,存在着效率低、计算机机时与存储空间开销大的缺点,还给文献的自动标引、计算机检索和机器翻译增加了困难。针对上述问题,本专利技术人在《16bit信息处理词汇代码编码标准的探讨》(《中文信息处理标准化国际研讨会论文集》46-54页,1989年3月,中国标准出版社)一文中提出了字符词汇兼容编码的方案。本专利技术的目的是设计一种使用这种字词兼容码进行语言文字信息处理的计算机设备,提高计算机信息处理的效率,减少计算机信息处理的机时和存储空间开销,减少信息交换的通讯线路占用时间,节约通讯费用。本专利技术是通过下述技术方案实现的1、在普通计算机中设置一套词库存储器组,其用途是建立起词汇代码与字符代码之间的对应关系,用于计算机的输入输出过程。词库存储器组的结构是这样的,词库的地址码对应于词汇代码,按该地址存储的内容,是组成相应词的各字符的代码。为了便于检索,词库中的词按其第一个字的字符代码排序,第一个字相同的词,则按词的使用频度排序。在输入过程中,本专利技术的设备把输入的字符串与词库中存储的词相互比较,根据命中的词汇在词库中的地址确定该词汇的代码,用该词汇的代码代替原来的一串字符代码。只有少量单字词和词库中未存储的非常用词,才使用单个字符的代码。所有被处理的语言文字信息,在计算机内部和交换网络中,都用这种以词汇代码为主的字词兼容代码的形式存储和处理。直到需要显示或打印时,才利用词库把词汇代码转换成字符代码。2、在使用词汇代码时,词汇代码集的存储是必须解决的问题。词库中必须包含长度不等的词汇,这给代码集的存储带来了麻烦。以汉语为例,“专利技术”一词有两个汉字,在词库中要占4个字节,“中华人民共和国”一词由7个汉字组成,要占14个字节。一种常用的存储方法是按最长的词预留存储空间,然后用计算的办法由词的代码求得该词在词库中的物理地址。这种方法的缺点是词库要占相当大的存储地址空间,并且使词库的检索速度大大降低。本专利技术针对这一问题设计了一种采用双重地址低位片选控制的词库存储器结构,使全部字词代码集的65536种代码在系统中仅占128K字节的存储地址空间。所谓双重地址,是指本专利技术的词库中的每个词都可以从两个不同的地址进行检索,这两个地址分别称之为系统地址和词库地址。现有计算机系统的存储器通常由多片存储器芯片组成,利用高位地址线选取当前读写的存储器芯片。本专利技术中的词库存储器的特征之一是利用词库地址的低位地址线进行片选控制,同一条词中的各个单字符是分别从不同的存储器组中读出的,因此称之为低位片选控制结构。3、一种更好的方案是采用定长存储器多层次存取结构词库,把一些超长词或组合词压缩在较短的存储空间中。仍以汉语为例,“中华人民共和国”这个词可由“中华”、“人民”和“共和国”三个基本词组合而成,在词库中存储这三个基本词的代码,只需要6个字节的存储空间。对于拼音文字、多层次存取结构是以音节分段为基础的。例如,英语中的“翻译”一词“trans-la-tion”,共有11个字母,用普通ASCⅡ码存储要占11个字节,用按音节分段的多层次存取的方法,只需要6个字节。在本专利技术的词库中,各种不同长度的词都压缩在定长的存储器组内,利用堆栈操作的办法在词库读取过程中层层展开,把词汇代码还原为基本字符代码,因而称之为定长存储器多层次存取结构词库。4、本专利技术所说的信息处理设备,既可以是独立的专用文字信息处理设备(如电脑打字机)或计算机系统的智能终端,也可以按照微型计算机或大、中、小型计算机的标准总线设计成插板式结构,插入主机构成语言文字信息处理系统。本专利技术与现有技术相比有如下优点(1)本专利技术的设备,可以使信息处理和交换从基本字符处理发展为词汇处理,属于信息处理技术和设备的升级换代产品。由于任何语言文字都是用若干字符构成一条词汇,字符代码转换为词汇代码实现了大幅度的信息压缩,可以大大减少计算机信息处理占用的存储空间。以《中华人民共和国专利法》第二十二条为例,该条共有245个字符(包括标点符号和分段标记符号等),用现有技术的方法存储在计算机中需要占用490个字节的存储空间。如果采用本专利技术的设备处理这段文字,使用字词兼容代码存储这段文字,只需要274个字节的存储空间,约可节约存储空间44%。拼音文字采用本专利技术的设备处理存储,可以节约更多的存储空间。一段800个字符的英语文章,用本专利技术的设备处理只需要320个字节的存储空间,比直接用ASCⅡ码存储约可节约60%的存储空间。因此,使用本专利技术的设备,只需要增加几千元的成本,用十几块集成电路组装成一块插板,就可以使计算机的语言文字信息处理能力成倍提高。由于计算机系统中存储器(内存和外存)占系统硬件成本的80%以上,节约存储空间是计算机系统的最大节约。据统计,在各种信息系统中,文字型信息占90%以上。尤其是在计算机信息检索、机器翻译等涉及大量语言文字信息处理的系统中,采用本专利技术的设备明显优于现有的按字符处理的设备。(2)正如分时操作系统可以大大提高计算机系统的使用效率一样,本专利技术的设备是利用输入、显示、打印等低速外部设备工作过程中的等待时间对信息进行预处理,减少主机所需处理和交换的信息量,从而在计算机或通讯线路处理速度不变的情况下,大大提高计算机系统信息处理和交换的能力。例如。一些大型联机情报检索系统经常要从上百万字的文献中查找需要的信息,各国的新闻机构每天要播发大量的电讯稿,用本专利技术的设备处理后,文献检索所占用的计算机时间和电讯传输占用通讯线路的时间平均节约50%左右。其经济效益是十分显著的。(3)本专利技术中的词库存储器组采用双重地址低位片选控制结构,不仅减少了词库占用的存储地址空间,还使词库检索的速度提高2-8倍。(4)本专利技术的设备具备实现字词兼容代码与国家标准字符代码互相转换的功能,因而可以用两种不同的代码体系输入、输出、实现与现有计算机语言文字信息处理系统兼容,便于逐步扩充,具有良好的外部设备适应能力,可以与各种大、中、小型和微型计算机交换信息。附图的图面说明如下附图说明图1是本专利技术设备的一个实施例电路框图。图2是词库存储器组双重地址低位片选控制结构的接线示意图。图3是定长存储器多层次取结构词库的读取程序流程图。本专利技术的技术方案还可以结合以下的实施例和附图进行说明。图1是本专利技术信息处理设备的一个实施例电路框图,图中省略了与现有计算机相同的输入输出接口电路、总线仲裁控制电路和系统存储器部件等。词库CPU(1)是本设备的中央处理机,它可以是任何型号的字长16位以上的微机CPU芯片,例如,INTEL8086系列。如果本设备设计为插板结构,作为普通计算机的扩充板,词库CPU(1)也可采用专用输入输出处理器,例如,INTEL8089。如果本设备仅用作信息交换的智能终端,词库CPU(1)还可采用16位单片微处理机,例如,INTEL8096系列。本设备的词库由词库存储器组(2)和片本文档来自技高网...

【技术保护点】
一种用于语言文字信息处理或交换用的计算机设备,适用于各种语言文字信息的处理或交换。该设备包括普通计算机的输入、输出装置、中央处理机和存储器等部分,其特征在于全部处理过程采用以词处理为主的字词兼容代码,并且在存储器中设置了存放字词兼容代码的词库存储器组。

【技术特征摘要】

【专利技术属性】
技术研发人员:曲声波
申请(专利权)人:曲声波
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1