文本识别方法、装置及计算机存储介质制造方法及图纸

技术编号:29255291 阅读:20 留言:0更新日期:2021-07-13 17:26
本申请提供一种文本识别方法、装置及计算机存储介质,主要包括根据目标文本和关系特征,获得关系特征的第一特征向量;根据目标文本,获得目标文本的第二特征向量;根据第一特征向量、第二特征向量,从目标文本中获取对应于关系特征的主实体和客实体;以及根据关系特征、对应于关系特征的主实体和客实体,获得目标文本的识别结果,借此,本申请可以有效提高文本识别结果的准确率。

【技术实现步骤摘要】
文本识别方法、装置及计算机存储介质
本申请实施例涉及文本识别
,特别涉及一种文本识别方法、装置及计算机存储介质。
技术介绍
关系三元组的抽取处理过程主要包括,输入一段文本,通过规则或者模型的方法抽取句子中包含的实体以及关系,以此来构成一个关系三元组(s,p,o),其中s(subject)表示主实体,o(object)表示客实体,p(predicate)表示两实体间的关系特征。比如,针对“姚明,1980年9月12日出生于上海市徐汇区”的文本,其中可包含有关系三元组(姚明,出生地,上海市徐汇区)。提取文本中的三元组是建立知识图谱重要的一个步骤,在大数据时代的今天,从大量非结构化的数据当中自动提取关系三元组建立结构化数据的知识图谱是非常有价值的,可以应用于信息抽取、搜索、问答系统和推荐系统等多个领域。目前主流的关系三元组提取处理方法大都是通过模型的方式进行抽取,比较有代表性的两个方向是管道方式(pipeline)和联合方式(end-to-end)。其中,管道方式主要是先进行文本的实体抽取,是一个序列化标注问题,然后将抽取的实体进行两两组合以构建关系矩阵或者进行关系识别,然而,这种方式在第二阶段会产生大量无意义的实体对,由于误差的累计,导致了关系三元组整体抽取的准确率有限。再者,联合方式则是通常将实体抽取和关系识别放在同一个任务当中,其中共享embedding主干网络,然而,这种方式由于将两个任务结合在一起,导致模型的训练难度较大,同时对于一个包含多个相同关系的文本,三元组抽取准确率往往不及管道方式。
技术实现思路
鉴于上述问题,本申请提供一种本文识别方法、装置及计算机存储介质,可提高文本识别结果的准确率,并提高文本识别的处理效率。本申请第一方面提供一种文本识别方法,其包括:根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量;根据所述目标文本,获得所述目标文本的第二特征向量;根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体;以及根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。本申请第二方面提供一种计算机存储介质,所述计算机存储介质中储存有用于执行上述第一方面所述的文本识别方法的各所述步骤的指令。本申请第三方面提供一种文本识别装置,其包括:特征获取模块,用于根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量,并根据所述目标文本,获得所述目标文本的第二特征向量;以及文本识别模块,用于根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体,并根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。综上所述,本申请实施例提出了一种从关系识别到实体抽取的关系三元组管道抽取方法,不仅可识别出目标文本中所包含的多种关系,且通过将关系特征对应的编码特征向量与目标文本对应的编码特征进行融合,可以提高关系对应实体的抽取准确率。再者,本申请实施例提供的文本识别技术不仅可减少现有管道抽取方式中需处理大量无意义实体对的问题,以适用于当目标文本中包含有多个关系特征的情况下的关系三元组的抽取处理,可以提高文本识别处理效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请第一实施例的文本识别方法的流程示意图。图2为图1所示的文本识别方法的处理流程实施例图。图3为本申请第二实施例的文本识别方法的流程示意图。图4为本申请第三实施例的文本识别方法的流程示意图。图5为本申请第四实施例的文本识别方法的流程示意图。图6为本申请第六实施例的文本识别装置的架构示意图。元件标号600:文本识别装置;602:特征获取模块;604:文本识别模块。具体实施方式为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。呈上所述,目前的关系三元组抽取方式主要存在识别准确性不高且处理效率低下的问题,有鉴于此,本申请提供一种文本识别方法、装置及计算机存储介质,可以改善上述现有技术存在的种种技术问题,以下将结合各附图详细描述本申请的各实施例。第一实施例图1示出了本申请第一实施例的文本识别方法的流程示意图。如图所示,本实施例的文本识别方法主要包括以下步骤:步骤S102,根据目标文本和至少一个关系特征,获得关系特征的第一特征向量。可选地,本实施例的方法还可包括根据预设文本长度将目标语料切分为满足预设文本长度的至少一个目标文本。例如,可根据语言识别模型所支持的预设文本长度,将一个长文本在保证句子完整的条件下进行拆分,获得满足预设文本长度的一个或多个目标文本。可选地,本实施例的方法还可包括基于预设文本处理规则,针对目标语料执行预处理。于本实施例中,预设文本处理规则至少包括针对目标文本执行数据去噪处理,例如,去除或替换目标文本中的未知编码字符。请配合参考图2,于本实施例中,可通过语言识别模型(例如BERT模型)针对拆分后的各目标文本进行文本的嵌入,以获得目标文本的编码特征向量(嵌入特征)。具体地,若将目标文本表示为s0={a0,a1,...,an},其中a表示目标文本中的各字符,借由语言识别模型(例如BERT模型),可以得到目标文本中每个字符对应的tokeni,并根据各字符对应的各编码特征(嵌入特征),获得目标文本的编码特征向量:{token1,token2,...,tokenn},其中tokeni表示维度为d的特征向量,如此,目标文本s0就可以用n*d的特征矩阵予以表示。而后,再将目标文本的编码特征向量输入到Dense+Sigmoid模块中,得到语义信息更强的特征表示,借以识别目标文本中可能包含的多种关系特征,进而获得关系特征的第一特征向量。于本实施例中,针对一个目标文本,可以指定至少一个关系特征。例如,针对“姚明,1980年9月12日出生于上海市徐汇区”的目标文本,其关系特征可包括“出生日期”、“出生地”等。步骤S104,根据目标文本,获得目标文本的第二特征向量。可选地,可针对目标文本执行编码,获得目标文本中各字符对应的各编码特征,再根据各字符对应的各编码特征,获得目标文本的第二特征向量。请参考图2,于本实施例中,可利用BERT模型获得目标文本的第二特征向量<本文档来自技高网
...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量;/n根据所述目标文本,获得所述目标文本的第二特征向量;/n根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体;以及/n根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量;
根据所述目标文本,获得所述目标文本的第二特征向量;
根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体;以及
根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。


2.根据权利要求1所述的文本识别方法,其特征在于,所述方法还包括:
根据预设文本长度将目标语料切分为满足所述预设文本长度的至少一个所述目标文本。


3.根据权利要求2所述的文本识别方法,其特征在于,所述方法还包括:
基于预设文本处理规则,针对所述目标语料执行预处理;
其中,所述预设文本处理规则至少包括数据去噪处理。


4.根据权利要求1所述的文本识别方法,其特征在于,所述根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量包括:
根据所述目标文本,获得所述目标文本的编码特征向量;
根据所述编码特征向量、所述关系特征,获得所述目标文本包含或不包含所述关系特征的关系识别结果;
根据所述关系识别结果,针对所述目标文本包含的所述关系特征执行编码,获得所述关系特征的第一特征向量。


5.根据权利要求4所述的文本识别方法,其特征在于,所述根据所述目标文本,获得所述目标文本的编码特征向量包括:
针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征;以及
根据各所述字符对应的各所述编码特征,获得所述目标文本的所述编码特征向量。


6.根据权利要求5所述的文本识别方法,其特征在于,所述方法还包括:
利用BERT模型针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征。


7.根据权利要求5所述的文本识别方法,其特征在于,各所述编码特征为具有预设维度的各特征子向量,且所述方法还包括:
根据各所述编码特征的所述预设维度和所述目标文本包含的字符数,获得所述目标文本的特征矩阵;
其中,所述预设维度为128的任意指数的幂值,较佳地,所述预设维度介于128至1024之间。


8.根据权利要求7所述的文本识别方法,其特征在于,所述根据所述目标文本的所述编码特征向量、所述关系特征,获得所述目标文本包含或不包含所述关系特征的关系识别结果包括:
根据所述关系特征、所述目标文本的所述特征矩阵,获得所述目标文本的第一参数矩阵;
根据第一概率换算规则、所述第一参数矩阵、所述编码特征向量,获得所述目标文本包含或不包含所述关系特征的所述关系识别结果;
所述第一概率换算规则表示为:
P=sigmoid(Wt×Token+bt)
其中,所述P表示所述关系识别结果,所述Wt表示所述第一参数矩阵,所述Token表示所述编码特征向量,所述bt为偏置项,所述下标t为识别标识符。


9.根据权利要求8所述的文本识别方法,其特征在于,所述方法还包括:
根据所述关系识别结果与第一预设概率阈值,若所述关系识别结果大于所述第一预设概率阈值,表示所述目标文本包含所述关系特征;
其中,所述第一预设概率阈值可介于0.5至0.8之间,优选地,所述第一预设概率阈值为0.6。


10.根据权利要求8所述的文本识别方法,其特征在于,所述根据所述关系识别结果,针对所述目标文本包含的所述关系特征执行编码,获得所述目标文本对应于所述关系特征的第一特征向量包括:
根据所述关系识别结果,提取所述目标文本包含的所述关系特征;
针对提取的所述关系特征执行编码,获得所述关系特征中各关系字符对应的各字符向量;
根据预设均值换算规则针对各所述字符向量执行均值计算,获得所述关系特征的所述第一特征向量;
所述预设均值换算规则表示为:



其中,所述cj表示第j个所述关系特征的所述第一特征向量,所述n表示所述关系特征中包含的所述关系字符的数量,所述ti表示所述关系特征中第i个所述关系字符的所述字符向量。


11.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述目标文本,获得所述目标文本的第二特征向量包括:
针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征;以及...

【专利技术属性】
技术研发人员:赵亮杨杰
申请(专利权)人:上海云从企业发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1