词典笔的辅助信息快速搜集方法技术

技术编号:39318084 阅读:15 留言:0更新日期:2023-11-12 16:00
本发明专利技术涉及词典笔技术领域,尤其涉及一种词典笔的辅助信息快速搜集方法,本发明专利技术通过设置若干用以存储不同技术领域的缩写词汇以及与缩写词汇关联的释义词汇的辅助数据库,将文本识别结果中各词汇与若干领域数据库中的专有词汇进行匹配,基于匹配结果计算匹配重合度,并基于匹配重合度的排序获取文本识别结果所匹配的领域数据库,将领域数据库对应的技术领域确定为文本识别结果所属的技术领域,识别文本识别结果中是否出现特征词汇,并基于文本识别结果所属的技术领域确定需调用的辅助数据库,基于辅助数据库中内容判定特征词汇的释义词汇,输出文本识别结果对应的释义词汇,提高了词典笔对缩写词汇的含义识别的效率与效果。果。果。

【技术实现步骤摘要】
词典笔的辅助信息快速搜集方法


[0001]本专利技术涉及词典笔
,尤其涉及一种词典笔的辅助信息快速搜集方法。

技术介绍

[0002]词典笔是一种便携式电子设备,主要用于辅助语言学习和信息查询,为用户提供方便快捷的语言学习和信息查询工具,帮助用户扩大词汇量、提高语言理解和应用能力。
[0003]中国专利公开号:CN105335356A,公开了如下内容,该专利技术涉及一种面向语义识别的纸质翻译方法及翻译笔装置,该面向语义识别的纸质翻译方法包括如下步骤:(1)对英文字符进行基础性编码,建立字符编码库、规则库和字体库,将字符编码库、规则库和字体库进行组合及排列形成编码准备库;(2)利用OCR对待翻译的纸质英文进行扫描识别;(3)对完成识别的字符串利用编码准备库进行编码;(4)对编码后的字符串进行语义化处理,完成编码语义化描述;(5)利用OCR识别单词认知推理获得精确识别的英语单词;(6)将OCR精确识别的英语单词与电子词典连接,实现自动翻译。该专利技术相对于现有技术,将编码、语义处理、推理与传统的OCR结合,降低了传统的OCR文本识别所造成的误识率。
[0004]但是,现有技术中,还存在以下问题:
[0005]在现有技术中,在实际情况中,相同的英文缩写在不同的
对应的释义是不同,现有技术中未考虑上述因素,使得词典笔对于英文缩写词汇的含义识别不精准。

技术实现思路

[0006]为解决上述问题,本专利技术提供一种词典笔的辅助信息快速搜集方法,其包括:
[0007]步骤S1,设置若干辅助数据库,各所述辅助数据库用以存储不同
的缩写词汇以及与所述缩写词汇关联的释义词汇;
[0008]步骤S2,获取词典笔的文本识别结果,基于所述文本识别结果判定文本识别结果所属的
,其中,
[0009]将所述文本识别结果中各词汇与若干领域数据库中的专有词汇进行匹配,基于匹配结果计算文本识别结果与不同领域数据库的匹配重合度,并基于匹配重合度的排序获取文本识别结果所匹配的领域数据库,将所述领域数据库对应的
确定为所述文本识别结果所属的

[0010]步骤S3,识别文本识别结果中是否出现特征词汇,并基于所述文本识别结果所属的
确定需调用的辅助数据库,基于所述辅助数据库中的内容判定特征词汇的释义词汇;
[0011]步骤S4,输出文本识别结果对应的释义词汇,包括,
[0012]识别非特征词汇的释义词汇并输出;
[0013]以及,将所述步骤S3中已识别的特征词汇的释义词汇输出。
[0014]进一步地,所述步骤S2中,各所述领域数据库为预先构建所得,各领域数据库的构建过程包括,
[0015]步骤S21,爬取单个
的公开文献数据库的文本数据;
[0016]步骤S22,将各所述文本数据进行分词处理,得到若干词汇,构建样本词汇数据库;
[0017]步骤S23,重复所述步骤S21以及步骤S22,得到若干
的样本词汇数据库,确定各样本词汇数据库中的公有词汇,其中,
[0018]计算词汇在样本词汇数据库中出现的概率,在预设词汇对比条件下,确定所述词汇为公有词汇;
[0019]所述预设词汇对比条件为,所述词汇在各样本词汇数据库中均出现,且出现概率高于预定词汇概率阈值;
[0020]步骤S24,筛选出样本词汇数据库中的公有词汇,得到领域数据库。
[0021]进一步地,所述步骤S2中,确定文本识别结果与不同领域数据库的匹配重合度,其中,
[0022]根据公式(1)计算文本识别结果与领域数据库的匹配重合度,
[0023][0024]公式(1)中,N表示所述文本识别结果中词汇的数量,Ne表示所述文本识别结果中与所述领域数据库中专有词汇匹配的词汇的数量。
[0025]进一步地,所述步骤S2中,文本识别结果中各词汇与若干领域数据库中的专有词汇进行匹配,其中,
[0026]若单个词汇与领域数据库中的专有词汇相同,则判定所述词汇与所述专有词汇匹配。
[0027]进一步地,所述步骤S2中,基于排序结果获取文本识别结果所匹配的领域数据库,其中,
[0028]将文本识别结果与不同领域数据库的匹配重合度降序排列,选取最大匹配重合度对应的领域数据库为文本识别结果所匹配的领域数据库。
[0029]进一步地,所述步骤S3中,识别文本识别结果中是否出现特征词汇,其中,
[0030]将所述文本识别结果中的词汇与标准字典数据库中的完整英文词汇进行对比,若所述标准字典数据库中不存在与所述词汇相同的完整英文词汇,则判定所述词汇为特征词汇。
[0031]进一步地,所述标准字典数据库中存储有若干完整英文词汇以及与所述英文词汇关联的释义词汇。
[0032]进一步地,所述步骤S3中,基于所述文本识别结果所属的
确定需调用的辅助数据库,其中,
[0033]调用用以存储所述
的缩写词汇以及与所述缩写词汇关联的释义词汇的辅助数据库。
[0034]进一步地,所述步骤S3中,基于所述辅助数据库中的内容判定特征词汇的释义词汇,其中,
[0035]将特征词汇与调用的辅助数据库中的若干缩写词汇进行对比,若所述辅助数据库中存在与所述特征词汇相同的缩写词汇,则将所述缩写词汇关联的释义词汇确定为所述特征词汇的释义词汇。
[0036]进一步地,所述步骤S4中,识别非特征词汇的释义词汇包括,将非特征词汇与所述标准字典数据库中的完整英文词汇进行对比,若所述标准字典数据库中存在完整英文词汇与所述非特征词汇相同,则将所述完整英文词汇关联的释义词汇确定为所述非特征词汇的释义词汇。
[0037]与现有技术相比,本专利技术通过设置若干用以存储不同
的缩写词汇以及与缩写词汇关联的释义词汇的辅助数据库,将文本识别结果中各词汇与若干领域数据库中的专有词汇进行匹配,基于匹配结果计算匹配重合度,并基于匹配重合度的排序获取文本识别结果所匹配的领域数据库,将领域数据库对应的
确定为文本识别结果所属的
,识别文本识别结果中是否出现特征词汇,并基于文本识别结果所属的
确定需调用的辅助数据库,基于辅助数据库中内容判定特征词汇的释义词汇,输出文本识别结果对应的释义词汇,进而,使得词典笔对于处于不同
的英文缩写词汇的含义识别更精准。
[0038]尤其,本专利技术中,设置若干辅助数据库,各所述辅助数据库中存储了缩写词汇以及与所述缩写词汇关联的释义词汇,进而提供数据库支持,能够使得在预先判定文本识别结果所属的
后能够准确的输出缩写英文词汇的释义词汇,进而,使得词典笔对于处于不同
的英文缩写词汇的含义识别更精准。
[0039]尤其,本专利技术中,基于匹配重合度的排序获取文本识别结果所匹配的领域数据库,将领域数据库对应的
确定为文本识别结果所属的
,在实际情况中,匹配重合度表征了文本识别结果与领域数据库的匹配程度,匹配重合度越大,则表明文本识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词典笔的辅助信息快速搜集方法,其特征在于,包括:步骤S1,设置若干辅助数据库以及若干领域数据库,各所述辅助数据库用以存储不同技术领域的缩写词汇以及与所述缩写词汇关联的释义词汇,各所述领域数据库用以存储不同技术领域的专有词汇;步骤S2,获取词典笔的文本识别结果,基于所述文本识别结果判定文本识别结果所属的技术领域,其中,将所述文本识别结果中各词汇与若干领域数据库中的专有词汇进行匹配,基于匹配结果计算文本识别结果与不同领域数据库的匹配重合度,并基于匹配重合度的排序获取文本识别结果所匹配的领域数据库,将所述领域数据库对应的技术领域确定为所述文本识别结果所属的技术领域;步骤S3,识别文本识别结果中是否出现特征词汇,并基于所述文本识别结果所属的技术领域确定需调用的辅助数据库,基于所述辅助数据库中的内容判定特征词汇的释义词汇;步骤S4,输出文本识别结果对应的释义词汇,包括,识别非特征词汇的释义词汇并输出;以及,将所述步骤S3中已识别的特征词汇的释义词汇输出。2.根据权利要求1所述的词典笔的辅助信息快速搜集方法,其特征在于,所述步骤S2中,各所述领域数据库为预先构建所得,各领域数据库的构建过程包括,步骤S21,爬取单个技术领域的公开文献数据库的文本数据;步骤S22,将各所述文本数据进行分词处理,得到若干词汇,构建样本词汇数据库;步骤S23,重复所述步骤S21以及步骤S22,得到若干技术领域的样本词汇数据库,确定各样本词汇数据库中的公有词汇,其中,计算词汇在样本词汇数据库中出现的概率,在预设词汇对比条件下,确定所述词汇为公有词汇;所述预设词汇对比条件为,所述词汇在各样本词汇数据库中均出现,且出现概率高于预定词汇概率阈值;步骤S24,筛选出样本词汇数据库中的公有词汇,得到领域数据库。3.根据权利要求1所述的词典笔的辅助信息快速搜集方法,其特征在于,所述步骤S2中,确定文本识别结果与不同领域数据库的匹配重合度,其中,根据公式(1)计算文本识别结果与领域数据库的匹配重合度,公式(1)中,N表示所述文本识别结果中词汇的数量,Ne表示所述文本识别结果中与所述领域数据库...

【专利技术属性】
技术研发人员:王烈峰詹晓沛
申请(专利权)人:读书郎教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1