一种词典录入方法及系统技术方案

技术编号:15299762 阅读:52 留言:0更新日期:2017-05-12 01:59
本发明专利技术公开了一种词典录入方法及系统,属于翻译技术领域。该方法包括:获取多个录入字符信息,多个字符信息为对同一词条图片进行录入后的信息;当多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定最终语素为录入语素。在本发明专利技术中,针对同一词条图片,能够获得多个录入字符信息,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保在多个录入字符信息中筛选出准确性较高的录入结果,因此能够有效提高词典录入结果的准确性。

Dictionary input method and system

The invention discloses a dictionary input method and a system, belonging to the technical field of translation. The method comprises: acquiring a plurality of input character information, a plurality of character information as input to the same entry picture information; when the probability of the same position of the same morpheme morpheme multiple input character information in the larger than the threshold, determining the final morpheme morpheme for entry. In the invention, for the same entry picture, can obtain a plurality of input character information, through the selected the same morpheme probability greater than the threshold value of the same morpheme positions of a plurality of input character information, to ensure the accuracy of screening high input results in multiple input character information, it can effectively improve the accuracy of dictionary entry the results of the.

【技术实现步骤摘要】

本专利技术涉及翻译
,特别涉及一种词典录入方法及系统
技术介绍
现有技术中,对于词典类数据的录入,一般由一人或两人进行整本词典的录入工作,不仅耗时长,效率低而且还不能保证准确率。
技术实现思路
本专利技术实施例提供了一种词典录入方法及系统,旨在解决如何提高词典录入结果的准确率。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本专利技术实施例的第一方面,提供了一种词典录入方法,包括:获取多个录入字符信息,多个字符信息为对同一词条图片进行录入后的信息;当多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定语素为最终语素。根据本专利技术实施例的第二方面,提供一种词典录入系统,包括:录入模块,用于获取多个录入字符信息,录入字符信息为对同一词条图片进行录入后的信息,最终语素模块,当录入模块获取的多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定同一语素为最终语素。本专利技术实施例提供的技术方案可以包括以下有益效果:在本专利技术中,针对同一词条图片,能够获得多个录入字符信息,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保在多个录入字符信息中筛选出准确性较高的录入结果,因此能够有效提高词典录入结果的准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种词典录入方法的流程示意图;图2是根据一示例性实施例示出的一种词典录入方法的流程示意图;图3是根据一示例性实施例示出的一种词典录入方法的流程示意图;图4是根据一示例性实施例示出的一种词典录入方法的流程示意图;图5是根据一示例性实施例示出的一种词典录入系统的框图;图6是根据一示例性实施例示出的一种词典录入系统的框图;图7是根据一示例性实施例示出的一种词典录入系统的框图;附图标记说明:1、录入模块;2、最终语素模块;3、识别模块;4、修正模块;5、获取模块。具体实施方式以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本专利技术的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“专利技术”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的专利技术,不是要自动地限制该应用的范围为任何单个专利技术或专利技术构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。本专利技术实施例提供一种词典录入方法及系统,旨在解决如何提高词典录入结果的准确率。为了实现上述目的,如图1所示,本专利技术实施例包括:步骤S101:获取多个录入字符信息,多个录入字符信息为对同一词条进行录入后的信息。步骤S102:当多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定该语素为最终语素。其中,由于多个录入字符信息是针对同一词条图片进行录入后的结果,因此多个录入字符信息的语句结构应当一致,因此在多个录入字符信息中相同语素位置的语素应该相同,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保录入结果的准确性。阈值的具体数值可以为0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能够保证筛选出的同一语素更加准确即可。在本实施例中,针对同一词条图片,能够获得多个录入字符信息,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保在多个录入字符信息中筛选出准确性较高的录入结果,因此能够有效提高词典录入结果的准确性。在上述实施例中,确定语素为最终语素有多种实现方法,作为一种可选的实施例,当对应的词典库中存在该语素时,确定语素为最终语素。当对应的词典库中不存在该语素时,重新获取多个录入字符信息。通过在对应的词典库中查找该语素,能够确保最终语素的准确性。在上述实施例中,如果词典录入方法的录入对象的是英汉词典,那么多个录入字符信息中既包括中文汉字语素,也包括英文单词语素,中文汉字语素对应中文词典,英文单词语素对应英文词典,当多个录入字符信息中相同语素位置出现概率大于阈值的同一语素为中文汉字语素时,对应的中文词典中存在该汉字语素,则证明该汉字语素是一个存在的汉字,确定该汉字语素为最终语素。在上述任一实施例中,可选的,如图3,步骤S101之前还包括:步骤S001:获取识别字符信息,识别字符信息为词条图片进行光学字符识别后的信息。进一步可选的,在本实施例中,还包括:步骤S1021:当多个录入字符信息和识别字符信息中相同语素位置同一语素出现的概率大于阈值时,确定语素为最终语素。在本实施例中,利用光学字符识别技术录入了一种识别字符信息,能够增加同一词条图片的录入结果,同时筛选出多个录入字符信息和识别字符信息中相同语素位置出现概率大于阈值的同一语素,进一步提高录入结果的准确性。当然,在本实施例中,步骤S001和步骤S101的前后顺序可以改变。在上述实施例中,如图4所示,步骤S001之后还包括:步骤S002:获取多个修正字符信息,多个修正字符信息为对识别字符信息进行修正后的信息。进一步可选的,在本实施例中,还包括:步骤1022:当多个录入字符信息、识别字符信息和多个修正字符信息中相同语素位置同一语素出现的概率大于阈值时,确定语素为最终语素。在本实施例中,通过对识别字符信息进行修正,又增加了一种新的录入结果情况,同时筛选出多个录入字符信息、识别字符信息和修正字符信息中相同语素位置出现概率大于阈值的同一语素,进一步提高录入结果的准确性。可选的,在上述任一实施例中,如图2至图4所示,还包括:步骤S01:获取词典的扫描图片;步骤S02:获取扫描图片按照词条切割后的词条图片。其中切割后的词条图片可以是单个词条的词条图片,也可以是多个词条的词条图片,但是词条图片必须包含完整的词条信息。例如对英汉词典的扫描图片,切割后的词条图片应该包含单词及其释义或短语及其释义的完整信息。通过对词典扫描片进行切割,可以将整个词典分为多个部分,通过把词典的不同部分利用上述任一实施例中的词典录入方法进行录入,能够有效提高词典录入的效率,节省大量时间。本专利技术本文档来自技高网...
一种词典录入方法及系统

【技术保护点】
一种词典录入方法,其特征在于,包括:获取多个录入字符信息,所述多个录入字符信息为对同一词条图片进行录入后的信息;当所述多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定所述语素为最终语素。

【技术特征摘要】
1.一种词典录入方法,其特征在于,包括:获取多个录入字符信息,所述多个录入字符信息为对同一词条图片进行录入后的信息;当所述多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定所述语素为最终语素。2.如权利要求1所述的方法,其特征在于,所述确定所述语素为最终语素包括:当对应的词典库中存在所述语素时,确定所述语素为所述最终语素。3.如权利要求1所述的方法,其特征在于,获取多个录入字符信息前,还包括:获取识别字符信息,所述识别字符信息为所述同一词条图片进行光学字符识别后的信息。4.如权利要求3所述的方法,其特征在于,所述当所述多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定所述语素为最终语素包括:当所述多个录入字符信息和所述识别字符信息中所述相同语素位置所述同一语素出现的概率大于阈值时,确定所述语素为最终语素。5.如权利要求3所述的方法,其特征在于,所述获取识别字符信息后,还包括:获取多个修正字符信息,所述多个修正字符信息为对所述识别字符信息进行修正后的信息。6.如权利要求5所述的方法,其特征在于,所述当所述多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定所述语素为最终语素包括:当所述多个录入字符信息、所述识别字符信息和所述多个修正字符信息中所述相同语素位置所述同一语素出现的概率大于阈值时,确定所述语素为最终语素。7.如权利要求1至6任一权利要求所述的方法,其特征在于,所述获取多个录入字符信息前,还包括:获取词典的扫描图片;获取所述扫描图片按照词条切割...

【专利技术属性】
技术研发人员:蔡盼盼
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1