词典检索装置制造方法及图纸

技术编号:2892274 阅读:266 留言:0更新日期:2012-04-11 18:40
本发明专利技术的汉语辞书检索装置中,字典部将读音符号及对应的同音异义字按序排列后对应地存储。辞书部存储对应表,表中,构成单词的各个文字的读音符号与按构成单词的顺序而排列的各个文字的同音异义字排列顺序号相对应。辞书检索部检索辞书部,汇集单词各构成文字的同音异义字排列顺序号。字典检索部根据所输入读音符号和同音异义字排列顺序号,检索字典部,汇集各个文字。单词组合部根据读音符号及检出的各个文字,组合出的单词。(*该技术在2013年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及汉语的辞书检索装置以往的辞书检索装置,例如有中国台湾专利申请75105839号公报所示的装置。图5是装有该辞书检索装置的汉字变换装置的结构图。如图5所示,该汉字变换装置由输入部100、音节码变换部110、汉字变换部120、辞书检索部140、输出部150构成。输入部100以键盘为主要构件,输入想要检索的单词各文字串的读音符号。音节码变换部110将输入部100传送来的读音符号串变换成内部处理所使用的音节码。辞书部140以存储器为主要部件,存储以音节码表示的汉语单词读音及与该单词相对应的文字码的组。辞书检索部130内含微机,根据上述音节码变换部110变换出的音节码检索辞书部140的内容,查出相对应单词的文字码。汉字变换装置120将上述辞书检索部130检出的与读音符号串相对应的单词文字码变换成可由输出部150输出的文字串。输出部150以打印机、CRT等作为构件,根据从汉字变换装置接收到的信号,输出具体构成检索对象单词的文字串。但是,上述已有的汉字变换装置中所用的辞书部的基本结构是逐个单词地存储构成该单词的各个文字的读音符号及文字码。而汉语的文字是汉字,常用汉字的总数在一万以上。因此,各个文字的编码需要2个字节(16位,216=65536)的存储资源。例如,处理汉语的计算机中经常使用的Big5码收入了13,051个文字,每一文字用2个字节的资源存储。因此,以利用该种码存储5万个单词的辞书部为例,各个单词平均由2.5个文字构成,构成单词的各个文字读音符号及文字码分别需要2个字节,所以,总共需要(2.5×(2+2)×50000)=500K字节的存储资源。本专利技术有鉴于此,目的在于提供一种能以较少存储资源存储可供检索的单词的极方便的辞书检索装置。为了实现上述目的,本专利技术包括将汉语的各文字的读音符号以及与该读音符号相对应的全部同音异义字按顺序排列后,对应地予以存储的字典部;逐一将构成单词的各个文字的读音符号与按照读音符号或单词构成的顺序排列的、各个文字在上述字典部内的同音异义字排列顺序号对应起来予以存储的辞书部;根据想要检索的单词的读音符号检索上述辞书部内相应的单词,并取出所检索单词各个构成文字在上述字典部内的同音异义字排列顺序号的辞书检索部;根据各个文字的读音符号以及上述辞书检索部检索结果即各文字在上述字典部内的同音异义字排列顺序号,检索上述字典部,并取出相符的文字的字典检索部;在上述字典检索部取出各个文字之后,按照为检索而输入的单词的读音符号顺序,或者按照辞书部内的排列顺序号的次序排列这些文字,以此组合检索对象单词的单词组合部。通过上述结构,字典部将汉语各文字的读音符号以及与该读音符号相对应的全部同音异义字按序排列后对应地存储。辞书部逐一将构成单词的各个文字的读音符号以及按照读音符号顺序排列的各文字在字典内的同音异义字排列顺序号对应起来存储。通过输入部输入适当的业务程序或者输入与使用者想要检索的单词想对应的文字读音符号时,辞书检索部即以输入的读音符号为检索关键字,检索在辞书部中是否存有对应的单词。然后,取出检索到的单词的各个文字在字典部内的同音异义字排列顺序号,并把它输到字典检索部。字典检索部根据所输入的各个文字读音符号以及由辞书检索部检索到的同音异义词排列顺序号信息,在字典部内进行检索,按序取出对应的文字,输到单词组合部。单词组合部将字典检索部取出的各个文字按照与输入的读音符号相对应的顺序,或者按照辞书部内排列顺序号的顺序予以排列,以此就可组配检索对象单词。附图说明图1是本专利技术的辞书检索装置一个实施例的结构图。图2是上述实施例中辞书检索装置的动作流程图。图3是上述实施例中字典部的数据结构示意图。图4是上述实施例中辞书部的数据结构示意图。图5是具备辞书部及辞书检索装置的与已有技术有关的汉字变换装置结构图。图6是外语字一览表。下面根据实施例说明本专利技术。图1是利用本专利技术一个实施例的汉字变换装置结构图。如图1所示,该汉字变换装置由输入部10、辞书检索部11、辞书部12、单词组合部13、字典检索部14、字典部15和输出部16构成。输入部10输入要作检索的单词的关键字。本例中,输入依靠键盘进行,以构成音节码的读音符号为检索半键字。另外也可将文件中抽出的汉语作为检索关键字。字典部15将汉语各文字的读音符号及其对应的所有同音异义字按序排列后对应地存储。辞书部12由对照表构成,该对照表对每个汉语单词,按顺序排列构成单词的各个文字读音符号以及按照读音符号顺序排列各文字在字典部15内的同音异义字排列顺序号。辞书检索部11将想要检索的单词的读音符号串作为检索关键字,在辞书部12中进行电子检索,如果有对应的单词,则将与该单词的读音符号对应地存储的各文字在字典部15内的同音异义字排列顺序号取出。字典检索部14根据所取出的各个文字的读音符号以及各文字在字典部15内的同音异义字排列顺序号,在字典部15内作电子检索,检出对应的文字。单词组合部13将字典检索部14检出的各个文字按照输入读音符号串的顺序,或者按照辞书部12中的同音异义字排列顺序排列,组合成作为检索对象的单词。输出部16以打印机、CRT为构件,向外输出或显示由单词组合部13组合成的单词。其次,对辞书部及字典部内的数据结构,亦即存储器中的存储方式进行说明。关于汉语各个文字的读音,通过给它特定的号码后利用一定长度的存储资源,就能对应地储存各个文字与其读音。因此,能容易地实现如图4所示的采用“ba ba”、“ba”(图6的1)(后文有的是电子信息处理系统的例子,外语字统一由图6示出,用其顺序特定。例如,图6的1是表示由图6的第1个外文字或由多个外文字组成的外文字串。)等读音符号的存储方式。同样,单词的各个文字在字典部内的多个同音异义字的排列顺序的号码也可用一定长度的二进制方法表示。汉语的读音有1,230种,其中读音“(图6的3)”的同音异义字最多,有145个,但是,若以字节为单位存储,则可以用2个字节存储汉语所有的读音,若再使用一个字节,就能存储所有同音异义字组的排列号。(210=1024<1230<2048=211,27=128<145<256=28)。在此之所以以字节为单位,是因为CPU、通用存储器等要求用二进制方法处理,一般以字节为单位,正好与此匹配。下文以图4所示“ba(图6的1)”的单词为例,说明存储方式。存储形式为“001001100101000101011101001100100000000100000011”。第1、第2两个字节“0010011001010001”表示“ba”的读音。第3、第4两个字节“0101110100110010”表示“(图6的1)”的读音。第5个字节“00000001”表示“八”的同音异义字排列顺序号。第6个字节“00000011”表示“宝”的同音异义字排列顺序号。本实施例的辞书部用2个字节存储汉语所有的读音,用1个字节存储同音异义字的号码。图2是本实施例的汉字变换装置的处理流程图。以下根据该图说明其处理过程。首先依次输入想要检索的汉语单词的读音符号(S1)。接着,检索辞书部内是否存在与辞书检索部所输入读音符号相对应的单词(S2)。如果没有对应的单词,则结束检索动作,输出相应显示。如果有对应的单词,则取出构成该单词的各个本文档来自技高网...

【技术保护点】
一种辞书检索装置,其特征在于,它包括:将汉语的各文字的读音符号以及与该读音符号相对应的全部同音异义字按序排列后对应地予以存储的字典部;逐一将构成单词的各个文字的读音符号与按照读音符号或者单词构成的顺序排列的各个文字在上述字典部内的同音异 义字排列顺序号对应起来予以存储的辞书部;根据想要检索的单词的读音符号检索上述辞书部内对应的单词,并取出检索到的单词各个构成文字在上述字典部内的同音异义字排列顺序号的辞书检索部;根据各个文字的读音符号以及上述辞书检索部检索结果即各文字 在上述字典部内的同音异义字排列顺序号,检索上述字典部,并取出相符的文字的字典检索部;在上述字典检索部取出各个文字之后,按照为检索而输入的单词的读音符号顺序,或者按照辞书部内的排列顺序号的次序排列这些文字,以此组合检索对象单词的单词组合部 。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:周峻慧
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1