一种基于深度学习模型的文本匹配方法组成比例

技术编号:39521659 阅读:9 留言:0更新日期:2023-11-25 19:00
本发明专利技术实施例提供了一种基于深度学习模型的文本匹配方法

【技术实现步骤摘要】
一种基于深度学习模型的文本匹配方法、系统及介质


[0001]本专利技术涉及文本识别
,具体涉及一种基于深度学习模型的文本匹配方法

系统及介质


技术介绍

[0002]对于保险公司而言,在保险理赔过程中会采集到客户的大量数据,在理赔中需要将用户数据与保险公司内部数据进行相互关联以保证采集数据的标准化

由于互联网的发展,线上保险办理的业务越来越多,但是对于采集信息标准化仍然需要大量的人工介入

目前有些保险公司会引入
OCR
技术,但是
OCR
识别不准确或者用户上传影像较差时,一般仍需要采用人工介入的方式对
OCR
识别的文字进行修正或者采用字符匹配的方式进行标准化

采用字符匹配会丢失文字之间的语义信息,文本匹配的正确率往往也较低,从而造成大量人工介入,工作效率难以提升

[0003]基于上述技术问题,申请人提出了本申请的技术方案


技术实现思路

[0004]本专利技术的目的是提供了一种基于深度学习模型的文本匹配方法

系统及介质,提取
OCR
技术识别出的影像数据中关键信息的特征向量,基于该特征向量进行数据检索,并对检索出的多条特征数据分别进行匹配,最终确定文本匹配结果,避免遗漏影像数据中的文本之间的语义信息,能够对
OCR
技术识别出的文本进行修正,提升
OCR
识别结果的正确率和准确性

[0005]为实现上述目的,本专利技术提供了一种基于深度学习模型的文本匹配方法,包括:通过
OCR
技术识别出影像数据中的关键信息;
[0006]获取所述关键信息的特征向量;
[0007]基于所述关键信息的特征向量在预设数据库中进行数据检索,得到与所述关键信息相关的多条特征数据;
[0008]将所述关键信息与所述多条特征数据分别进行匹配,确定所述影像数据的文本匹配结果

[0009]本专利技术还提供了一种基于深度学习模型的文本匹配系统,包括:
[0010]OCR
识别模块用于通过
OCR
技术识别出影像数据中的关键信息;
[0011]向量获取模块用于基于所述关键信息,获取所述关键信息的特征向量;
[0012]数据检索模块用于基于所述关键信息的特征向量在预设的数据库中进行数据检索,得到与所述关键信息相关的多条特征数据;
[0013]文本匹配模块用于将所述关键信息与所述多条特征数据分别进行匹配,确定所述影像数据的文本匹配结果

[0014]本专利技术实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序被处理器调用时,使得所述处理器执行上述的文本匹配方法

[0015]在一个实施例中,所述获取所述关键信息的特征向量,包括:
[0016]将所述关键信息输入到设定的特征向量生成模型中,得到所述关键信息的特征向量

[0017]在一个实施例中,所述特征向量生成模型为
CoSENT
模型

[0018]在一个实施例中,所述将所述关键信息与所述多条特征数据分别进行匹配,确定所述影像数据的文本匹配结果,包括:
[0019]计算所述关键信息与每条特征数据之间的三个分数,所述三个分数分别是向量匹配分数

拼音相似分数

文本相似分数;
[0020]针对每条特征数据,计算所述三个分数的加权平均分数,选取加权平均分数最高的特征数据作为所述影像数据的文本匹配结果

[0021]在一个实施例中,所述三个分数的加权平均分数的权重分别为:向量匹配分数的权重为
0.6
,所述拼音相似分数的权重为
0.1
,所述文本相似分数的权重为
0.3。
[0022]在一个实施例中,所述方法还包括:
[0023]对所述关键信息进行标准化处理,得到所述关键信息相对应的标准化命名;
[0024]将所述标准化命名展示在所述
OCR
技术识别的交互窗口中

[0025]在一个实施例中,所述对所述关键信息进行标准化处理,通过以下步骤:
[0026]将所述关键信息输入设定的命名实体模型中,得到所述关键信息相对应的标准化命名

[0027]在一个实施例中,所述设定的命名实体模型为
BERT+BiLSTM+CRF
识别模型

附图说明
[0028]图1是根据本专利技术第一实施例中的基于深度学习模型的文本匹配方法的流程示意图;
[0029]图2是根据本专利技术第二实施例中的基于深度学习模型的文本匹配方法的流程示意图;
[0030]图3是根据本专利技术第三实施例中的基于深度学习模型的文本匹配系统的示意图

具体实施方式
[0031]以下将结合附图对本专利技术的各实施例进行详细说明,以便更清楚理解本专利技术的目的

特点和优点

应理解的是,附图所示的实施例并不是对本专利技术范围的限制,而只是为了说明本专利技术技术方案的实质精神

[0032]在下文的描述中,出于说明各种公开的实施例的目的阐述了某些具体细节以提供对各种公开实施例的透彻理解

但是,相关领域技术人员将认识到可在无这些具体细节中的一个或多个细节的情况来实践实施例

在其它情形下,与本申请相关联的熟知的装置

结构和技术可能并未详细地示出或描述从而避免不必要地混淆实施例的描述

[0033]除非语境有其它需要,在整个说明书和权利要求中,词语“包括”和其变型,诸如“包含”和“具有”应被理解为开放的

包含的含义,即应解释为“包括,但不限于”。
[0034]在整个说明书中对“一个实施例”或“一实施例”的提及表示结合实施例所描述的特定特点

结构或特征包括于至少一个实施例中

因此,在整个说明书的各个位置“在一个
实施例中”或“在一实施例”中的出现无需全都指相同实施例

另外,特定特点

结构或特征可在一个或多个实施例中以任何方式组合

[0035]如该说明书和所附权利要求中所用的单数形式“一”和“所述”包括复数指代物,除非文中清楚地另外规定

应当指出的是术语“或”通常以其包括“或
/
和”的含义使用,除非文中清楚地另外规定

[0036]在以下描述中,为了清楚展示本专利技术的结构及工作方式,将借助诸多方向性词语进行描述,但是应当将“前”、“后”、“左”、“右”、“外”、“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习模型的文本匹配方法,其特征在于,包括:通过
OCR
技术识别出影像数据中的关键信息;获取所述关键信息的特征向量;基于所述关键信息的特征向量在预设数据库中进行数据检索,得到与所述关键信息相关的多条特征数据;将所述关键信息与所述多条特征数据分别进行匹配,确定所述影像数据的文本匹配结果
。2.
根据权利要求1所述的基于深度学习模型的文本匹配方法,其特征在于,所述获取所述关键信息的特征向量,包括:将所述关键信息输入到设定的特征向量生成模型中,得到所述关键信息的特征向量
。3.
根据权利要求2所述的基于深度学习模型的文本匹配方法,其特征在于,所述特征向量生成模型为
CoSENT
模型
。4.
根据权利要求1所述的基于深度学习模型的文本匹配方法,其特征在于,所述将所述关键信息与所述多条特征数据分别进行匹配,确定所述影像数据的文本匹配结果,包括:计算所述关键信息与每条特征数据之间的三个分数,所述三个分数分别是向量匹配分数

拼音相似分数

文本相似分数;针对每条特征数据,计算所述三个分数的加权平均分数,选取加权平均分数最高的特征数据作为所述影像数据的文本匹配结果
。5.
根据权利要求4所述的基于深度学习模型的文本匹配方法,其特征在于,所述三个分数的加权平均分数的权重分别为:向量匹配分数的权重为
0.6
,所述拼音相似分数的权重为
0...

【专利技术属性】
技术研发人员:陆培李宁
申请(专利权)人:金卫医保信息管理中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1