汉字变换学习装置制造方法及图纸

技术编号:2892020 阅读:227 留言:0更新日期:2012-04-11 18:40
一种汉字变换学习装置包括:按使用频度排列存贮读出符号及其词语的固定大型词典;按使用次数多优先新近使用优先原则排列存贮读出符号及其词语的学习词典;将读出符号作为检索键对两词典检索并将排在最前面词语作为变换对象的变换单元;按用户指令选择变换单元输出的词语的选择单元;按上述优先原则对学习词典重新排列的重新排列的重新排列单元;从学习词曲中删除使用次数小于门限值的词语的更新单元。该学习装置有长期和短期学习经验的优点。(*该技术在2014年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及汉字变换装置用的学习装置,尤其涉及长期学习与短期学习并用的汉字变换学习装置。中文文字处理机等中的汉字读音的输入方式,其构成包括例如,从键盘输入由表示使用者所希望的词语(所谓词语虽多由多个汉字构成,但也包含一个汉字的。还包含如下面说明的句子、短文等)或汉字的读音的注音字母串(在日语中、由于单数和多数本来就没有明确的区别,虽然在本说明书中没有将两者严格分开使用,但暂且认为汉字串、注音字母串,这样带有“串”的指复数)所组成的读音符号。该注音字母串至汉字的变换,其过程包括文字处理机通过采用(1)优先处理构成的汉字数多的词语(中文中此汉字数等于音节数),(2)优先处理先输入的注音字母这两条原则的最长一致法,提取由该输入的注音字母串构成的读出符号(下面,把这样提取的注音字母串称为“形态素”),并将所提取的读出符号作为检索键对词典部进行检索;查出对应的词语,再将该词语变换为构成的汉字串。(又,关于最长一致法为本申请人在特愿平5-25911号、特愿平5-75912号等中公开的那样,已为公知技术,故省略其说明)而且若变换后的词语不是作为文字输入者的使用者所希望的,则通过手动加以修改。因此,存在同音异义的汉字和词语时,如果能从它们之间尽早正确选出正确的,就能提高这种输入方式的效率。然而,作为用于解决这种同音异义的汉字词语的选择问题的手段,通常利用“学习功能”。这就是,通过记录使用者使用的同音异义的汉字、词语的使用频度和使用次数等,并将这些反映到同音异义的汉字及词语间的选择上,以谋求提高其选择的成功率。此时,这种使用频度等的记录内容按照学习对象的时间长、短被分为短期学习与长期学习两种。所谓短期学习,选择同音异义的汉字、词语时最新使用的优先。例如,对应于中文的读出符号“i4”的同音异义汉字,按其常用频度的顺序为“意、億、易、亦、益、翼、……”等,并将它们按这种顺序排列存贮在词典部中。若这些同音异义的汉字中,使用者已用的最新字为“翼”,则其存贮顺序变成“翼、意、億、易、亦、益……”,以下一输入同样的读出符号“i4”,就自动地最优先选择“翼”。但是,若使用者再次输入“i4”而选择“益”,该“益”字下次输入“i4”时,应作为最优先汉字变换对象排在前头。于是,“翼”字的优先级下降一位,而且,“i4”所对应同音异义汉字的排列变成“益、翼、意、億、易、亦、……”。这种方式的优点是最新使用的汉字、词语自动排在前头,通常对于使用者的输入能正确地选择汉字、词语。其缺点是连不常使用的汉字和词语也作为学习对象,在因所作文件性质及使用者作文中选择词语、汉字的习惯而碰巧上述汉字和词语使用多时,会使这些汉字和词语的变换率极差。所谓长期学习,每个同音异义的汉字、词语记有它们的使用次数,并按其使用频度高的顺序排列存贮同音异义的汉字、词语。因此,优先选择先存贮的同音异义汉字、词语。这种方式的优点在于,在频繁使用使用频度低的汉字、词语的特殊情况下能避免汉字的正确变换率变低。其缺点是,由于要存贮每个汉字、词语的使用频度,所以必须增加存贮资源量。又,对当前正在输入的文件中的汉字、词语应答迟缓。又,词典部内的读出符号排列顺序,词语排列的变更,每个特定词语使用次数的存贮,对错误变换的汉字的订正操作,与这种操作所提取注音字母串对应的词语根据优先级在阴极射线管(CRT)预定位置上的显示,从该显示中选择使用者所希望的词语,以及当该显示中不含有所希望的词语时,通过使用者的指令显示下一优先级的词语等方式,都是日文文字处理机所广泛采用的众所周知的技术。所以省略这些说明。又,词典部内的读音和词语的记录、存贮、寄存等,实际上用编码以电磁的形式处理,由于这些也为已知技术,所以也省略其说明。通常,汉字输入装置,通过采用上述两种学习方法中的任何一种,再进行若干改进,来提高这种汉字变换的成功率。以日文文字处理机中同音异义词语学习装置为例加以说明。图8为日本特开昭61-157972号公报中所揭示的这种装置的构成图。该图中,100为假名输入单元,200为词典单元,300为文字变换单元,400为同音词语顺序存贮单元,500为同音词语选择部,600为显示单元,700为词典更新单元,800为词典更新指定单元,900为同音词语指定单元。假名输入单元100输入作为读出符号的日语平假名、片假名等注音字母(严格来说,平假名等为“音素文字”,但如后面说明,在本说明书中两者没有区别)。词典单元200先做成使あいうえお顺序构成的日文词语读音和对应于这些读音的汉字作为中心的词语标记具有对应关系的表后,再将该对应表按50音顺序排列进行存贮。文字变换单元300,用输入单元输入的假名串依次检索同音词语顺序存贮单元400与词典单元200,从而获得对应于这些假名的汉字或由汉字和假名构成的词语标记(这里使用“词语标记”的原因在于日文文字处理机中不一定将输入的假名全变换成汉字。即考虑到例如假名串“よびだず”变换成“呼ぴ出す”的情况。但与中文文字处理机中的“汉字”,“词语”没有实质差别)。且,在词典单元200内的检索中,存在多个与作为检索键的输入假名串具有相同读音的词语标记的情况下,按先前存入的顺序选择它们,并与输入的假名串一同输出给同音字选择单元500。同音词语顺序存贮单元400按照与读出对应的选择顺序存贮从同音词语选择单元500选择的同音异议词语标记。因此,越是新选的词语,越是排在后面。于是,同音词语顺序存贮单元400内的检索顺序与词语标记存贮顺序相反,越是新用的词语,越是优先。同音词语选择单元500在从文字变换单元300输出的词语标记中存在同音异义标记的情况下,文字输入者可用下面要述的同音词语指定单元900选择希望的词语标记。显示单元600,通过将同音词语选择单元500选择的词语标记显示在画面上,可由使用者确认汉字变换结果或指定特定的词语标记。词典更新单元700对存贮在上述同音词语顺序存贮单元400内的各同音异义词语标记计算其重复使用次数,并将该计数值超过规定值“3”的词语标记,在词典单元200内该词语标记与同音词语的排列中,置换到最前头。词典更新指定单元800,输入使用者的词典单元更新指示。同音词语指定单元900,指定使用者的多个同音异义词语标记中特定的标记或输入变换终了指示。实际上,在日文文字处理机中,由于存在像“呼ぴ出す”的词语标记,全部平假名不一定都变换成汉字,和由于在2个平假名“かき”可变换成“柿”、“夏期”等平假名与被变换的汉字之间不存在一音节一汉字这样的数量固定关系等,所以中文文字处理机中的最长一致法,原封不动是不能用的。然而,由于这些差异与本专利技术主题无关,且其另一方面将平假名作为检索键检索词典单元内部的变换情况的大原则是相同的,且属已知技术,所以关于日文文字处理机中,词典单元检索用输入平假名的提取算法等省略其说明。下面参照图9所示动作流程图说明该同音异义词语学习装置进行汉字变换时的处理情况。S91中,从假名输入单元输入假名串。S92中,确认输入文字变换单元的假名是平假名标记。是平假名标记时进入S93。若不是平假名标记时,直接进入S95,变成显示被变换的文字串后的输入等待状态。在S93中,进入汉字变换处理进行词语检索。在S94中,同音词语选择单元通过上述检索结果,对要处理的假名串本文档来自技高网...

【技术保护点】
一种汉字变换学习装置,其特征在于,它备有:若对应的词语有多个,则根据其使用频度排列之后,将读出符号与对应该读出符号的词语记录下来的固定大型词典单元;按照第一使用次数多优先、第二新近使用优先的原则排列后、存贮读出符号与对应于该读出符号 的词语及其使用次数的学习词典单元;将输入的读出符号作为检索键顺次检索上述学习词典单元、固定大型词典单元,检出对应的全部词语、若对应的词语是唯一的,则将该词语作为汉字变换对象,若有多个对应词语,则将排列在最前面的作为汉字变换对象进行选择的 变换单元;存在多个对应的词语时,若上述变换单元选择结果不正确时,通过使用者的指令可从上述变换单元检出的其它词语中选择使用者想要的词语作为汉字变换结果的选择单元;上述变换单元的选择一直不正确,使用者通过上述选择单元的指令进行订正时,订 正后的词语若没有存贮在学习词典单元中,则使用次数设为1后,使该词语对应于作为检索键的读出符号进行新的存贮,订正的词语若已存贮,则其使用次数加1后,按照上述第一使用次数多优先、第二新近使用优先的原则对该输入读出符号在上述学习词典单元内的词语排进行重新排列的重新排列单元;若由上述重新排列单元加1后的该词语使用次数在预定值以上时,检测到这种情况后,将上述学习词典单元中的全部词语的使用次数减去一定值,再与别的方法确定的门限值进行比较,其值小于门限值的词语从学习词典单元中除去的更新 单元。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:郭俊桔
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1