System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于协同过滤算法和知识图谱的模糊字体识别方法技术_技高网

基于协同过滤算法和知识图谱的模糊字体识别方法技术

技术编号:42919329 阅读:16 留言:0更新日期:2024-10-11 15:47
本发明专利技术涉及字体识别技术领域,尤其涉及基于协同过滤算法和知识图谱的模糊字体识别方法,包括对模糊字体的句子进行向量化;计算A的向量V<subgt;A</subgt;与B的向量V<subgt;B</subgt;之间的余弦相似度值;构造句子集合β;筛选出β中包含的相关实体集合;获得扩展后的知识图谱实体关系集合R;使用协同过滤算法分析实体关系集合R,得到知识图谱中与模糊字潜在关联度得分,并对得分进行降序,将超过第二阈值个实体作为推荐列表;将与模糊字关联度最高的第二阈值个实体组成实体集合E<subgt;r</subgt;;根据实体集合E<subgt;r</subgt;、模糊字体的上下文信息C,预测出的模糊字体。本发明专利技术利用协同过滤和知识图谱进行模糊字体识别,提高模糊字体识别的准确性。

【技术实现步骤摘要】

本专利技术涉及字体识别,尤其涉及基于协同过滤算法和知识图谱的模糊字体识别方法


技术介绍

1、早期ocr技术主要依赖于模板匹配技术,这种方法需要预先定义字符的形状模板,然后在图像中寻找匹配的模式;这种方法对于标准化的打印文本效果较好,但对于手写文本或字体变化较大的情况效果不佳。

2、随着模式识别、人工智能和机器学习技术的发展,ocr技术也在不断进步;现代ocr通常采用基于统计学习方法,通过训练大量的样本数据来识别字符,这些方法包括特征提取、分类器设计和深度学习等。

3、对于当前的ocr识别技术来说,模糊字体的识别是一个主要难点。模糊字体可能是由于多种原因造成的,如扫描质量不高、打印质量问题、图像噪声、字符重叠等。这些问题给字符的准确识别带来了挑战。为了解决这些问题,研究人员和开发者正在不断探索新的技术和方法。

4、深度学习方法例如公开号为cn117474012a专利,采用卷积神经网络(cnn)和循环神经网络(rnn)进行语义识别,但该模型不适用于模糊字体识别;现有的方法在提高模糊字体识别准确率方面取得一定的进展,同时数据增强技术和对抗性训练也被用来提高模型对于模糊图像的鲁棒性;尽管如此,模糊字体的ocr识别仍然是一个活跃的研究领域,需要持续的技术革新和算法优化。


技术实现思路

1、针对现有方法的不足,本专利技术利用协同过滤和知识图谱进行模糊字体识别,提高模糊字体识别的准确性。

2、本专利技术所采用的技术方案是:基于协同过滤算法和知识图谱的模糊字体识别方法包括以下步骤:

3、步骤一、对模糊字体的句子a进行向量化;

4、作为本专利技术的一种优选实施方式,通过bert模型对模糊字体的句子a进行向量化。

5、步骤二、计算模糊字体的句子a的向量va与文本库中句子b的向量vb之间的余弦相似度值;并利用va与vb之间余弦相似度值构造句子集合β;并筛选出β中包含的相关实体集合;

6、作为本专利技术的一种优选实施方式,构造句子集合β为va与vb之间余弦相似度值大于第一阈值。

7、作为本专利技术的一种优选实施方式,利用extractentities函数筛选出β中包含的相关实体集合。

8、步骤三、利用bfs算法将实体节点扩展至一阶领域,获得扩展后的知识图谱实体关系集合r;

9、作为本专利技术的一种优选实施方式,利用expandknowledgegraph函数将实体节点扩展至一阶领域。

10、步骤四、使用协同过滤算法分析实体关系集合r,得到知识图谱中与模糊字潜在关联度得分,并对得分进行降序,将超过第二阈值个实体作为推荐列表;将与模糊字关联度最高的第二阈值个实体组成实体集合er;

11、作为本专利技术的一种优选实施方式,推荐列表的获得具体包括:

12、步骤41、对于m个句子和n个实体,构建一个m×n的矩阵m;

13、步骤42、对于句子si中的模糊字体,计算句子si与实体ej的相似度分数;

14、步骤43、基于相似度分数计算句子si中的模糊字体生成推荐分数rec(si,ej)。

15、步骤五、根据实体集合er、模糊字体的上下文信息c,预测出的模糊字体;

16、作为本专利技术的一种优选实施方式,步骤五具体包括:

17、步骤51、对于实体集合er={e1,e2,...ei,en}中的每个实体ei,使用实体嵌入矩阵we来获取嵌入向量

18、步骤52、对于上下文信息c={c1,c2,..cj.,cm}中的每个单词cj,使用词嵌入矩阵ww来获取其嵌入向量

19、步骤53、将实体集合特征和上下文信息特征进行拼接。

20、作为本专利技术的一种优选实施方式,步骤五还包括:将拼接后的特征输入transformer模型预测模糊字体。

21、作为本专利技术的一种优选实施方式,transformer模型包括:设置编码器层数为6层,解码器层数为6层,隐层大小设置为512,多头注意力头数设置为8。

22、作为本专利技术的一种优选实施方式,利用交叉熵损失函数对transformer模型进行训练。

23、本专利技术的有益效果:

24、1、通过协同过滤算法找出与模糊字体相关的外部知识特征并应用于模型推理,从而识别出模糊字体;

25、2、本专利技术方法可以应用于光学字符识别,具有一定的商业价值;

26、3、本专利技术结合先进的自然语言处理技术和知识图谱,通过协同过滤算法提高了模糊字体识别的准确性和效率;该方法不仅能够处理单一的模糊字体,还能够在复杂的语境中准确预测模糊字体的真实内容,具有广泛的应用前景。

本文档来自技高网...

【技术保护点】

1.基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,推荐列表的获得具体包括:

3.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,步骤五具体包括:

4.根据权利要求3所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,步骤五还包括:将拼接后的特征输入Transformer模型预测模糊字体。

5.根据权利要求4所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,Transformer模型包括:设置编码器层数为6层,解码器层数为6层,隐层大小设置为512,多头注意力头数设置为8。

6.根据权利要求5所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,利用交叉熵损失函数对Transformer模型进行训练。

7.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,通过BERT模型对模糊字体的句子A进行向量化。

<p>8.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,构造句子集合β为VA与VB之间余弦相似度值大于第一阈值。

9.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,利用ExtractEntities函数筛选出β中包含的相关实体集合。

10.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,利用ExpandKnowledgeGraph函数将实体节点扩展至一阶领域。

...

【技术特征摘要】

1.基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,推荐列表的获得具体包括:

3.根据权利要求1所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,步骤五具体包括:

4.根据权利要求3所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,步骤五还包括:将拼接后的特征输入transformer模型预测模糊字体。

5.根据权利要求4所述的基于协同过滤算法和知识图谱的模糊字体识别方法,其特征在于,transformer模型包括:设置编码器层数为6层,解码器层数为6层,隐层大小设置为512,多头注意力头数设置为8。

6.根据权利要求5所述的基于协同...

【专利技术属性】
技术研发人员:蒋洲别菲菲邓炜珠黄然平杨杏娟
申请(专利权)人:常州皓鸣信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1