一种数据处理方法、设备以及计算机可读存储介质技术

技术编号:37625183 阅读:8 留言:0更新日期:2023-05-18 12:16
本申请实施例公开了一种数据处理方法、设备以及计算机可读存储介质,该方法包括:获取文本,获取文本中的每个分词分别对应的共享语义向量;基于共享语义向量,获取文本中属于第一词性的第一实体词;在共享语义向量中获取第一实体词对应的条件共享语义向量,对条件共享语义向量以及共享语义向量进行向量融合,得到目标语义向量;对目标语义向量进行向量识别,得到包括第一实体词、属于第二词性的第二实体词以及关系实体词的三元组;三元组中的第二实体词属于文本;三元组中的关系实体词用于表征第一实体词以及三元组中的第二实体词之间的关联关系。采用本申请,可以提高第一实体词以及第二实体词之间的关联关系的识别率。及第二实体词之间的关联关系的识别率。及第二实体词之间的关联关系的识别率。

【技术实现步骤摘要】
一种数据处理方法、设备以及计算机可读存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

技术介绍

[0002]随着人工智能的快速发展,智能化数据分析渐渐代替了传统的人工数据分析,如业务公司开始利用人工智能实现自动化数据分析。
[0003]文本的实体抽取以及实体间的关系识别是自动化数据分析中的常用场景,现有的实体间的关系识别方法是业务人员预先设定好客体实体词对应的关系实体词(表征主体与客体之间的关联关系),即得到客体实体词与关系实体词的映射关系。当需要识别文本中的主客体实体词之间的关联关系时,先抽取文本中的主体实体词以及客体实体词,然后将与客体实体词具有映射关系的关系实体词所指向的关系,确定为主体实体词以及客体实体词之间的关联关系。例如,业务人员预先构建异常活动a(属于客体实体词)与涉嫌(属于关系实体词)之间的映射关系,后续,识别文本“公司c认真落实指示,打击异常活动a”,基于现有方法抽取出公司c(属于主体实体词)以及异常活动a,故生成三元组(公司c,涉嫌,异常活动a),但是实际上公司c与异常活动a不具有涉嫌关联关系,所以采用现有关系识别方法可能会错误地抽取实体间的关联关系,即降低了实体间的关系识别率。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、设备以及计算机可读存储介质,可以提高第一实体词以及第二实体词之间的关联关系的识别率。
[0005]本申请实施例一方面提供了一种数据处理方法,包括:
[0006]获取文本,获取文本中的每个分词分别对应的共享语义向量;
[0007]基于共享语义向量,获取文本中属于第一词性的第一实体词;
[0008]在共享语义向量中获取第一实体词对应的条件共享语义向量,对条件共享语义向量以及共享语义向量进行向量融合,得到目标语义向量;
[0009]对目标语义向量进行向量识别,得到包括第一实体词、属于第二词性的第二实体词以及关系实体词的三元组;三元组中的第二实体词属于文本;三元组中的关系实体词用于表征第一实体词以及三元组中的第二实体词之间的关联关系。
[0010]本申请实施例一方面提供了一种数据处理方法,包括:
[0011]获取训练样本集;训练样本集包括样本文本、样本文本中的第一标签实体词以及与样本文本相关联的标签三元组;第一标签实体词的词性属于第一词性;标签三元组包括第一标签实体词、属于第二实体词的第二标签实体词以及标签关系实体词;第一词性不同于第二词性;标签三元组中的第二标签实体词属于样本文本;标签三元组中的标签关系实体词用于表征,第一标签实体词以及标签三元组中的第二标签实体词之间的关联关系;
[0012]将样本文本输入文本识别初始模型,在文本识别初始模型中,获取样本文本中的
每个样本分词分别对应的预测共享语义向量;
[0013]基于预测共享语义向量,获取样本文本中的第一预测实体词;
[0014]在预测共享语义向量中获取第一预测实体词对应的预测条件共享语义向量,对预测条件共享语义向量以及预测共享语义向量进行向量融合,得到预测目标语义向量;
[0015]对预测目标语义向量进行向量识别,得到包括第一预测实体词、第二预测实体词以及预测关系实体词的预测三元组;预测三元组中的第二预测实体词属于样本文本;
[0016]根据第一预测实体词、第一标签实体词、预测三元组以及标签三元组,对文本识别初始模型中的参数进行调整,生成文本识别模型;文本识别模型用于生成针对文本的三元组。
[0017]本申请实施例一方面提供了一种数据处理装置,包括:
[0018]第一获取模块,用于获取文本,获取文本中的每个分词分别对应的共享语义向量;
[0019]第二获取模块,用于基于共享语义向量,获取文本中属于第一词性的第一实体词;
[0020]第一生成模块,用于在共享语义向量中获取第一实体词对应的条件共享语义向量,对条件共享语义向量以及共享语义向量进行向量融合,得到目标语义向量;
[0021]第二生成模块,用于对目标语义向量进行向量识别,得到包括第一实体词、属于第二词性的第二实体词以及关系实体词的三元组;三元组中的第二实体词属于文本;三元组中的关系实体词用于表征第一实体词以及三元组中的第二实体词之间的关联关系。
[0022]其中,数据处理装置,还包括:
[0023]第一获取模块,还用于获取文本识别模型,将文本输入至文本识别模型;文本识别模型包括输入层以及共享编码层;
[0024]第一获取模块,还包括基于输入层对文本进行切分处理,得到至少两个分词;至少两个分词包括分词E
f
,f为正整数,且f小于或等于至少两个分词对应的总数量;
[0025]第三获取模块,用于获取分词E
f
在文本中的位置信息,将针对分词E
f
的位置信息输入共享编码层;
[0026]第三生成模块,用于基于共享编码层,对针对分词E
f
的位置信息进行向量编码,得到分词E
f
对应的共享位置向量;
[0027]则第一生成模块,包括:
[0028]确定位置单元,用于确定第一实体词在文本中的位置信息;第一实体词在文本中的位置信息属于至少两个分词分别在文本中的位置信息;
[0029]第一获取单元,用于基于第一实体词在文本中的位置信息,在至少两个分词分别对应的共享位置向量中,获取第一实体词对应的共享位置向量;
[0030]第二获取单元,用于基于第一实体词对应的共享位置向量,在共享语义向量中获取第一实体词对应的条件共享语义向量。
[0031]其中,第一生成模块,包括:
[0032]第三获取单元,用于获取文本识别模型;文本识别模型包括第一编码层;第一编码层包括自注意力组件、第一归一化组件、前馈组件以及第二归一化组件;
[0033]第一输入单元,用于将共享语义向量输入自注意力组件,基于自注意力组件对共享语义向量进行向量编码,得到第一待归一化语义向量;
[0034]第二输入单元,用于将第一待归一化语义向量以及共享语义向量分别输入第一归
一化组件,基于第一归一化组件对第一待归一化语义向量以及共享语义向量进行加权融合,得到待前馈语义向量;
[0035]第三输入单元,用于将待前馈语义向量输入至前馈组件,基于前馈组件对待前馈语义向量进行向量编码,得到第二待归一化语义向量;
[0036]第四输入单元,用于将条件共享语义向量、第二待归一化语义向量以及待前馈语义向量分别输入第二归一化组件,基于第二归一化组件,对条件共享语义向量、第二待归一化语义向量以及待前馈语义向量,进行向量融合,得到目标语义向量。
[0037]其中,第二归一化组件包括平均子组件、距离子组件、标准子组件、缩放子组件、加权子组件以及融合子组件;
[0038]第四输入单元,包括:
[0039]第一生成子单元,用于基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取文本,获取所述文本中的每个分词分别对应的共享语义向量;基于所述共享语义向量,获取所述文本中属于第一词性的第一实体词;在所述共享语义向量中获取所述第一实体词对应的条件共享语义向量,对所述条件共享语义向量以及所述共享语义向量进行向量融合,得到目标语义向量;对所述目标语义向量进行向量识别,得到包括所述第一实体词、属于第二词性的第二实体词以及关系实体词的三元组;所述三元组中的第二实体词属于所述文本;所述三元组中的关系实体词用于表征所述第一实体词以及所述三元组中的第二实体词之间的关联关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取文本识别模型,将所述文本输入至所述文本识别模型;所述文本识别模型包括输入层以及共享编码层;基于所述输入层对所述文本进行切分处理,得到至少两个分词;所述至少两个分词包括分词E
f
,f为正整数,且f小于或等于所述至少两个分词对应的总数量;获取所述分词E
f
在所述文本中的位置信息,将针对所述分词E
f
的位置信息输入所述共享编码层;基于所述共享编码层,对针对所述分词E
f
的位置信息进行向量编码,得到所述分词E
f
对应的共享位置向量;则所述在所述共享语义向量中获取所述第一实体词对应的条件共享语义向量,包括:确定所述第一实体词在所述文本中的位置信息;所述第一实体词在所述文本中的位置信息属于所述至少两个分词分别在所述文本中的位置信息;基于所述第一实体词在所述文本中的位置信息,在所述至少两个分词分别对应的共享位置向量中,获取所述第一实体词对应的共享位置向量;基于所述第一实体词对应的共享位置向量,在所述共享语义向量中获取所述第一实体词对应的所述条件共享语义向量。3.根据权利要求1所述的方法,其特征在于,所述对所述条件共享语义向量以及所述共享语义向量进行向量融合,得到目标语义向量,包括:获取文本识别模型;所述文本识别模型包括第一编码层;所述第一编码层包括自注意力组件、第一归一化组件、前馈组件以及第二归一化组件;将所述共享语义向量输入所述自注意力组件,基于所述自注意力组件对所述共享语义向量进行向量编码,得到第一待归一化语义向量;将所述第一待归一化语义向量以及所述共享语义向量分别输入所述第一归一化组件,基于所述第一归一化组件对所述第一待归一化语义向量以及所述共享语义向量进行加权融合,得到待前馈语义向量;将所述待前馈语义向量输入至所述前馈组件,基于所述前馈组件对所述待前馈语义向量进行向量编码,得到第二待归一化语义向量;将所述条件共享语义向量、所述第二待归一化语义向量以及所述待前馈语义向量分别输入所述第二归一化组件,基于所述第二归一化组件,对所述条件共享语义向量、所述第二待归一化语义向量以及所述待前馈语义向量,进行向量融合,得到所述目标语义向量。
4.根据权利要求3所述的方法,其特征在于,所述第二归一化组件包括平均子组件、距离子组件、标准子组件、缩放子组件、加权子组件以及融合子组件;所述基于所述第二归一化组件,对所述条件共享语义向量、所述第二待归一化语义向量以及所述待前馈语义向量,进行向量融合,得到所述目标语义向量,包括:基于所述平均子组件,对所述第二待归一化语义向量以及所述待前馈语义向量进行向量平均,得到平均语义向量;基于所述距离子组件,获取所述第二待归一化语义向量以及所述平均语义向量之间的向量距离,得到第一距离向量,获取所述待前馈语义向量以及所述平均语义向量之间的向量距离,得到第二距离向量;基于所述标准子组件,对所述第二待归一化语义向量以及所述待前馈语义向量进行向量标准,得到标准语义向量;基于所述缩放子组件,对所述第一距离向量以及所述标准语义向量进行向量缩放,得到第一缩放向量,对所述第二距离向量以及所述标准语义向量进行向量缩放,得到第二缩放向量;生成所述条件共享语义向量对应的第一权重特征,以及所述条件共享语义向量对应的第二权重特征;基于所述加权子组件,对所述第一缩放向量、所述第二缩放向量以及所述第一权重特征进行加权融合,得到待融合语义向量;基于所述融合子组件,对所述第二权重特征以及所述待融合语义向量进行向量融合,得到所述目标语义向量。5.根据权利要求1所述的方法,其特征在于,所述对所述目标语义向量进行向量识别,得到包括所述第一实体词、属于第二词性的第二实体词以及关系实体词的三元组,包括:获取文本识别模型;所述文本识别模型包括关系识别层;将所述目标语义向量输入所述关系识别层,基于所述关系识别层,对所述目标语义向量进行向量识别,得到识别语义向量;基于所述识别语义向量,生成包括所述第一实体词、属于第二词性的第二实体词以及关系实体词的三元组。6.根据权利要求1所述的方法,其特征在于,所述获取所述文本中的每个分词分别对应的共享语义向量,包括:获取文本识别模型,将所述文本输入至所述文本识别模型;所述文本识别模型包括输入层以及共享编码层;基于所述输入层对所述文本进行切分处理,得到至少两个分词,将所述至少两个分词分别输入所述共享编码层;基于所述共享编码层,对所述至少两个分词分别进行向量编码,得到每个分词分别对应的共享语义向量。7.根据权利要求1所述的方法,其特征在于,所述基于所述共享语义向量,获取所述文本中属于第一词性的第一实体词,包括:获取文本识别模型;所述文本识别模型包括第二编码层、实体识别层以及解码层;将所述共享语义向量输入所述第二编码层,基于所述第二编码层对所述共享语义向量
进行向量编码,得到待识别语义向量;将所述待识别语义向量输入所述实体识别层,基于所述实体识别层对所述待识别语义向量进行向量识别,得到用于表征所述第一实体词的待解码语义向量;将所述用于表征所述第一实体词的待解码语义向量输入所述解码层,基于所述解码层,对所述用于表征所述第一实体词的待解码语义向量进行向量解码,得到所述文本中属于所述第一词性的所述第一实体词。8.根据权利要求7所述的方法,其特征在于,所述待识别语义向量包括待识别语义向量A
b
,b为正整数,且b小于...

【专利技术属性】
技术研发人员:蒋乐怡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1