数据检索装置制造方法及图纸

技术编号:2892556 阅读:235 留言:0更新日期:2012-04-11 18:40
根据对应标记的设定,首先校对是否有对应于检索码的数据,通过与该标志有关的地址以最小的检索范围从辞典进行检索。通过检索部14把从输入部11输入的检索码的前部分作为检索关键字从对应部16检出对应于检索码的对应块。再利用上述检索码前部分的后续部分对检出的对应块的对应标记进行校对,如果为1意味着存在对应数据,通过该标记的对应地址和该地址的后续地址,从辞典18读出该范围的数据。通过检出装置17检出与检索码相符的对应数据。(*该技术在2012年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种能够高速检出对应于语言翻译装置、文字处理机、台式排版系统等的输入、变换系统的信息的数据检索装置。数据检索装置的实用性与数据的记忆空间和检索速度有关。已往,作为对于大容量辞典的记忆方式和检索方式,如日本特开昭62-197822号中所记载的方法。该实施例的系统框图示于图4(a)。主索引、分索引、辞典本体记忆在如图4(b)的文件中,辞典本体312分成固定长度的块中,只有各块的起始关键字记忆在分索引311中。分索引也分成固定长度的块中,只有各块的起始关键字记忆在主索引310中。因为图4(b)的a11、a21、a31……全是辞典本体内的起始关键字串,故记忆在分索引中。分索引的起始关键字a11、b11、…x11同样也记忆在主索引中。把主索引文件310读入主索引区域307中,应该检索的字符串、与主索引文件的关键字串的n序号相一致,或者(第一次顺次检索位于n序号和(n+1)序号之间的内容。接着,分索引文件的n序号的区段读入缓冲区域308。应该检索的文字列与读出的分索引的关键字串的m序号相一致,或者(第2次)顺次检索m序号和(m+1)序号间的内容。接着,用对应于设定在分索引的每个区段中的辞典数据文件的偏移值K,读出辞典数据文件的(K+m)序号的区段。把读出的辞典数据文件的关键字与应检索的字符串进行比较,检索出(第3次)相一致的关键字。在上述已有技术例子中,如果在不预先处理输入的话音符号串的状态下将其用于检索,则确定不了记忆在辞典本体中的校对用话音符号串的长度,因此要三次依次对不同长度的话音符号串进行检索从而不能逐次缩小检索的空间。必然不能提高检索效率。又,接用原有的话音符号串进行检索时,由于辞典本体内的记话音符号串的长度不固定,且记忆在固定长度的块中,因此使各块的最后留下不定长度的空间,形成辞典的无用空间。为了解决上述问题,本专利技术提供一种数据检索装置,其特征在于具有记忆索引码和对应的数据的辞典;由用多个块构成、每个块由多个位构成,各个位根据0或1值表示是否有对应于检索码的数据的对应标记组及由上述标记值为1时存贮于上述辞典中的索引码和对应的数据记忆位置的对应的地址组构成的对应部;按照输入的检索码的前部分检出对应部的相应块的检索部;通过与输入的检索码的一部分相比较,取出上述检出的对应部的对应标记和对应地址并从辞典中检出检索码的对应数据的检出装置。如上构成的本专利技术,把输入的检索码的前部分作为检索关键字,检出对应部的相应块,接着,通过在检出装置中使用检索码前部分的后接着的一部分,取出对应部的对应地址,对于辞典确定最小检索范围。最后,通过与上述后接着的一部分检索码的比较从辞典中检出对应的数据,由输出部输出检索结果。这样就能够高速检索大容量辞典。下面,将汉语辞典数据的检索作为实施例,结合附图说明本专利技术的数据检索装置的操作过程。图1为本专利技术的实施例的数据检索装置的构成图;图2为上述实施例的处理过程的流程图;图3为上述实施例的处理过程的流程图;图4(a)为已有技术例的数据检索装置的构成图;图4(b)为已有技术例的辞典构造说明图;图5表示本专利技术的汉语的一种话音符号的编码的说明图;图6为汉语话音符号的码顺序说明图;图7表示本专利技术的检索码处理部的动作流程图;图8用于说明本专利技术的索引记忆部的构成说明图;图9为上述实施例的对应部与辞典构成说明图;图10为对用于检出上述实施例的对应部的对应块的索引记忆部的检索方式的说明图。在本实施例中,把汉语读音符号进行编码,把检索比较用码、单词及单词使用频度作为对应数据。汉语的有效读音有一千三百多,全部读音必须用两字节表示。这种方式能够节约辞典的记忆空间,数据检索也方便。于是,将各汉语的读音的声母和介音一起配置在一个字节中,而将韵母和声调配置在另一个字节中,配置在如图4所示的各自的ASCⅡ字符表中。各读音能够用唯一的二字节代表码表示。这里,把这种二字节代表码称为检索码。把转换后的检索码的第一、第二、第三字节称为第一、第二、第三检索码。对于图6所示的汉语话音符号每一个给一个顺序值,通过图7的简单判断及计算,就能把输入的话音符号串转换为对应的检索码。读音作为例子说明。参照图5(a)的顺序值,声母为声母顺序的第10目,介母因为是介母顺序的第2目,则如下所述转换为第一检索码。21H+10*4+2=4bH,4bH相当于ASCⅡ码的“K”。韵母为韵母顺序的第8目,因为声调“…”为声调顺序的第0目,则如下所述转换为第二检索码。26H+8*5+0=4eH4eH相当于ASCⅡ码的“N”。如上所述,读音的检索码就成为“KN”。图1为本专利技术的实施例的数据检索装置的构成图。图1中,11为能够输入任意长度的话音符号串的输入部。12为具有记忆用的寄存器和缓冲器的记忆部。其中,R寄存器121为存贮检索时要比较的检索码的寄存器。H寄存器122用于存贮对分检索时的上位限定值。P寄存器123存贮对分检索时的下位限定值。B寄存器存贮检出对分检索和对应单词时的限定范围的大小。Q寄存器125为存贮对分检索时的比较对象的码值的寄存器。13为检索码处理部,它对输入的话音符号串根据汉语发声构成特征将其转换为用于检索的检索码。15为记忆检索用的主索引表及副索引表的索引记忆部。索引记忆部的构造如图8所示,在主索引表中记忆有可能变成第一检索码的码。主索引表的各项目指定副索引表的特定块。在相应的副索引表块中记忆与第一检索码相关的全部有效的第二检索码。副索引表的各块的大小(尺寸)由相邻的二主索引的指示字差决定,通过利用第二检索码对主索引表及副索引表进行检索,就能够获得对应部16的对应块。对应部16由对应于索引记忆部15的层索引表的块构成。对应部16的构造如图9所示,各块分为对应标记组161和对应地址组162。在对应标记组161中,记忆是否有对应于索引记忆部15利用的检索码的后接码(本实施例中为第三检索码)的单语的表示信息。第三检索码如图5所示,有88个,如果各检索码用一位表示,则要有11个字节,故本实施例将对应标记组161作成11个字节的大小。各检索码如图5(a)所示按ASCⅡ码顺序对应于对应标记组161的相应位中。若,相应位设定为“1”时则表示存在相应检索码的对应单词。相应位为“0”时,意味着不存在对应于该检索码的对应单词。在对应地址组162中,如图9所示,记忆在上述对应标记组161的“1”中设定的位索引值,即对应于辞典18中的该检索码的单词的记忆开始地址。本实施例中用2个字节记忆该对应地址。辞典18中,存贮如图9的索引码、对应单词及关连信息。因为第一字符的检索码已经记忆在索引记忆部15中,所以在辞典18中存贮着从第二字符起的检索码。本实施例中,把对应单词的使用频度作为关连信息以一个字节进行记忆。检索部14,根据用检索码处理部13得到的前二检索码、参照索引记忆部15的索引表、用对分检索方法从对应部16取出对应于前二检索码的对应块。17为检出装置,它通过用检索部14得到的对应块的对应标记和对应地址的检索值、能够以最小的检索空间从辞典18中检出对应单词。输出部19输出由检出装置17检出的单词和对应信息。对于如上构成的本专利技术的实施例,边参照图2、图3的处理流程、边对本专利技术实施例中的数据检索装置的检索动作进行说明。首先,通过S1、S2,本文档来自技高网...

【技术保护点】
一种数据检索装置,其特征在于包含:记忆(存贮)索引码和对应的数据的辞典;由用多个块构成、每个块由多个位构成、按照各个位的0或1值表示是否有对应于检索码的数据的对应标记组及由上述标记值为1时存贮上述辞典中的索引码和对应的数据的记忆位置的对应的地址组构成的对应部;按照输入的检索码的前部分检出对应部的相应块的检索部;通过与输入的检索码的一部分相比较,取出上述检出的对应部的对应标记和对应地址并从辞典检出检索码的对应数据的检出装置。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗进财林启轩
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1