文本识别方法、装置及计算机存储介质制造方法及图纸

技术编号：29255291 阅读：20 留言：0更新日期：2021-07-13 17:26

本申请提供一种文本识别方法、装置及计算机存储介质，主要包括根据目标文本和关系特征，获得关系特征的第一特征向量；根据目标文本，获得目标文本的第二特征向量；根据第一特征向量、第二特征向量，从目标文本中获取对应于关系特征的主实体和客实体；以及根据关系特征、对应于关系特征的主实体和客实体，获得目标文本的识别结果，借此，本申请可以有效提高文本识别结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置及计算机存储介质
本申请实施例涉及文本识别
，特别涉及一种文本识别方法、装置及计算机存储介质。
技术介绍
关系三元组的抽取处理过程主要包括，输入一段文本，通过规则或者模型的方法抽取句子中包含的实体以及关系，以此来构成一个关系三元组(s，p，o)，其中s(subject)表示主实体，o(object)表示客实体，p(predicate)表示两实体间的关系特征。比如，针对“姚明，1980年9月12日出生于上海市徐汇区”的文本，其中可包含有关系三元组(姚明，出生地，上海市徐汇区)。提取文本中的三元组是建立知识图谱重要的一个步骤，在大数据时代的今天，从大量非结构化的数据当中自动提取关系三元组建立结构化数据的知识图谱是非常有价值的，可以应用于信息抽取、搜索、问答系统和推荐系统等多个领域。目前主流的关系三元组提取处理方法大都是通过模型的方式进行抽取，比较有代表性的两个方向是管道方式(pipeline)和联合方式(end-to-end)。其中，管道方式主要是先进行文本的实体抽取，是一个序列化标注问题，然后将抽取的实体进行两两组合以构建关系矩阵或者进行关系识别，然而，这种方式在第二阶段会产生大量无意义的实体对，由于误差的累计，导致了关系三元组整体抽取的准确率有限。再者，联合方式则是通常将实体抽取和关系识别放在同一个任务当中，其中共享embedding主干网络，然而，这种方式由于将两个任务结合在一起，导致模型的训练难度较大，同时对于一个包含多个相同关系的文本，三元组抽取准确率往往...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：/n根据目标文本和至少一个关系特征，获得所述关系特征的第一特征向量；/n根据所述目标文本，获得所述目标文本的第二特征向量；/n根据所述第一特征向量、所述第二特征向量，从所述目标文本中获取对应于所述关系特征的主实体和客实体；以及/n根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体，获得所述目标文本的识别结果。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：
根据目标文本和至少一个关系特征，获得所述关系特征的第一特征向量；
根据所述目标文本，获得所述目标文本的第二特征向量；
根据所述第一特征向量、所述第二特征向量，从所述目标文本中获取对应于所述关系特征的主实体和客实体；以及
根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体，获得所述目标文本的识别结果。

2.根据权利要求1所述的文本识别方法，其特征在于，所述方法还包括：
根据预设文本长度将目标语料切分为满足所述预设文本长度的至少一个所述目标文本。

3.根据权利要求2所述的文本识别方法，其特征在于，所述方法还包括：
基于预设文本处理规则，针对所述目标语料执行预处理；
其中，所述预设文本处理规则至少包括数据去噪处理。

4.根据权利要求1所述的文本识别方法，其特征在于，所述根据目标文本和至少一个关系特征，获得所述关系特征的第一特征向量包括：
根据所述目标文本，获得所述目标文本的编码特征向量；
根据所述编码特征向量、所述关系特征，获得所述目标文本包含或不包含所述关系特征的关系识别结果；
根据所述关系识别结果，针对所述目标文本包含的所述关系特征执行编码，获得所述关系特征的第一特征向量。

5.根据权利要求4所述的文本识别方法，其特征在于，所述根据所述目标文本，获得所述目标文本的编码特征向量包括：
针对所述目标文本执行编码，获得所述目标文本中各字符对应的各编码特征；以及
根据各所述字符对应的各所述编码特征，获得所述目标文本的所述编码特征向量。

6.根据权利要求5所述的文本识别方法，其特征在于，所述方法还包括：
利用BERT模型针对所述目标文本执行编码，获得所述目标文本中各字符对应的各编码特征。

7.根据权利要求5所述的文本识别方法，其特征在于，各所述编码特征为具有预设维度的各特征子向量，且所述方法还包括：
根据各所述编码特征的所述预设维度和所述目标文本包含的字符数，获得所述目标文本的特征矩阵；
其中，所述预设维度为128的任意指数的幂值，较佳地，所述预设维度介于128至1024之间。

8.根据权利要求7所述的文本识别方法，其特征在于，所述根据所述目标文本的所述编码特征向量、所述关系特征，获得所述目标文本包含或不包含所述关系特征的关系识别结果包括：
根据所述关系特征、所述目标文本的所述特征矩阵，获得所述目标文本的第一参数矩阵；
根据第一概率换算规则、所述第一参数矩阵、所述编码特征向量，获得所述目标文本包含或不包含所述关系特征的所述关系识别结果；
所述第一概率换算规则表示为：
P＝sigmoid(Wt×Token+bt)
其中，所述P表示所述关系识别结果，所述Wt表示所述第一参数矩阵，所述Token表示所述编码特征向量，所述bt为偏置项，所述下标t为识别标识符。

9.根据权利要求8所述的文本识别方法，其特征在于，所述方法还包括：
根据所述关系识别结果与第一预设概率阈值，若所述关系识别结果大于所述第一预设概率阈值，表示所述目标文本包含所述关系特征；
其中，所述第一预设概率阈值可介于0.5至0.8之间，优选地，所述第一预设概率阈值为0.6。

10.根据权利要求8所述的文本识别方法，其特征在于，所述根据所述关系识别结果，针对所述目标文本包含的所述关系特征执行编码，获得所述目标文本对应于所述关系特征的第一特征向量包括：
根据所述关系识别结果，提取所述目标文本包含的所述关系特征；
针对提取的所述关系特征执行编码，获得所述关系特征中各关系字符对应的各字符向量；
根据预设均值换算规则针对各所述字符向量执行均值计算，获得所述关系特征的所述第一特征向量；
所述预设均值换算规则表示为：

其中，所述cj表示第j个所述关系特征的所述第一特征向量，所述n表示所述关系特征中包含的所述关系字符的数量，所述ti表示所述关系特征中第i个所述关系字符的所述字符向量。

11.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述目标文本，获得所述目标文本的第二特征向量包括：
针对所述目标文本执行编码，获得所述目标文本中各字符对应的各编码特征；以及...

【专利技术属性】
技术研发人员：赵亮，杨杰，
申请(专利权)人：上海云从企业发展有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人