一种文本处理方法及装置制造方法及图纸

技术编号:38105565 阅读:12 留言:0更新日期:2023-07-06 09:27
本申请公开了一种文本处理方法及装置。该方法包括:确定待处理文本中的实体以及实体之间的关系,以得到初始三元组集合;根据待处理文本对应的属性架构,对初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合。其中,属性架构用于表征待处理文本中实体的属性类型、关系的属性类型以及实体的属性类型通过关系的属性类型实现的约束关系。型通过关系的属性类型实现的约束关系。型通过关系的属性类型实现的约束关系。

【技术实现步骤摘要】
一种文本处理方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理方法及装置。

技术介绍

[0002]目前,在进行文本处理时大多是以单个三元组为单位进行抽取的,很难考虑到段落或文章中各三元组之间的时序、因果等关系,因此会导致抽取的三元组之间产生语义上的冲突或矛盾。

技术实现思路

[0003]本申请人创造性地提供一种文本处理方法及装置。
[0004]根据本申请实施例第一方面,提供一种文本处理方法,包括:确定待处理文本中的实体以及实体之间的关系,以得到初始三元组集合,初始三元组集合中的三元组用于表征待处理文本中两个实体之间的关系;根据待处理文本对应的属性架构,对初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合,属性架构用于表征待处理文本中实体的属性类型、关系的属性类型以及实体的属性类型通过关系的属性类型实现的约束关系。
[0005]根据本申请一实施例,根据待处理文本、待处理文本对应的属性架构,对初始三元组集合中实体及实体之间的关系进行调整,包括:根据待处理文本、待处理文本对应的属性架构,至少检测以下一种:初始三元组集合中实体的属性类型是否符合属性架构所表征的待处理文本中相应实体的属性类型、初始三元组集合中实体之间的关系是否符合属性架构所表征的待处理文本中相应实体之间关系的属性类型、初始三元组集合中实体的属性类型是否符合通过属性架构所表征的待处理文本中相应关系的属性类型所约束的实体的属性类型,以得到检测结果;根据检测结果,对初始三元组集合中实体及实体之间的关系进行调整。
[0006]根据本申请一实施例,根据检测结果,对初始三元组集合中实体及实体之间的关系进行调整,包括以下调整中的至少一种:若确定初始三元组集合中的单个三元组有误,删除或调整单个三元组;若确定初始三元组集合中的存在关系冲突的多个三元组,根据预先定义的冲突解决策略,从多个三元组中确定拟保留的三元组,删除多个三元组中除拟保留的三元组之外的其他三元组;若确定初始三元组集合中的多个三元组满足相似条件,将多个三元组合并为同一三元组;若确定初始三元组集合中存在缺失的实体关系,将缺失的实体关系转化为新增三元组,在初始三元组集合中添加新增三元组。
[0007]根据本申请一实施例,初始三元组集合包括使用图结构实现的初始三元组集合图,属性架构包括使用图结构实现的属性架构图,其中,初始三元组集合图的点对应初始三元组集合中的实体,初始三元组集合图的边对应初始三元组集合中的三元组;属性架构图的点对应待处理文本中实体的属性类型,属性架构图的边对应待处理文本中关系的属性类型以及实体的属性类型通过关系的属性类型实现的约束关系。
[0008]根据本申请一实施例,根据待处理文本对应的属性架构,对初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合,包括:对初始三元组集合图进行图编码,得到第一编码;对待处理文本进行文本编码,得到第二编码;对属性架构图进行图编码,得到第三编码;根据第一编码、第二编码、第三编码和预先设定的神经网络运算,确定表征优化三元组集合的第四编码;对第四编码进行解码,得到优化三元组集合。
[0009]根据本申请一实施例,该方法由优化三元组抽取模型实现,优化三元组抽取模型用于上述文本处理方法;优化三元组抽取模型包括三元组调整子模型,三元组调整子模型用于根据待处理文本、待处理文本对应的属性架构和初始三元组集合,确定优化三元组集合。
[0010]根据本申请一实施例,三元组调整子模型的训练过程包括:获取第一训练数据,第一训练数据包括文本样本、文本样本对应的属性架构样本、文本样本对应的初始三元组集合样本和优化三元组集合标签;由三元组调整子模型根据文本样本、文本样本对应的属性架构样本和文本样本对应的初始三元组集合样本,确定预测的优化三元组集合;根据预测的优化三元组集合与优化三元组集合标签之间的差异,对三元组调整子模型进行参数更新。
[0011]根据本申请一实施例,优化三元组抽取模型还包括初始三元组抽取子模型,初始三元组抽取子模型用于确定待处理文本中的实体以及实体之间的关系,以得到初始三元组集合。
[0012]根据本申请一实施例,初始三元组抽取子模型和所述三元组调整子模型的联合训练过程包括:获取第二训练数据,第二训练数据包括文本样本、文本样本对应的属性架构样本、初始三元组集合标签、优化三元组集合标签;由初始三元组抽取子模型根据文本样本,确定预测的初始三元组集合;根据预测的三元组集合与初始三元组集合标签之间的差异,对初始三元组抽取子模型进行参数更新;由初始三元组调整子模型根据文本样本、文本样本对应的属性架构样本和预测的初始三元组集合,确定预测的优化三元组集合;根据预测的优化三元组集合与优化三元组集合标签之间的差异,对三元组调整子模型进行参数更新。
[0013]根据本申请实施例第二方面,提供一种文本处理装置,包括:三元组抽取模块,用于确定待处理文本中的实体以及实体之间的关系,以得到初始三元组集合,初始三元组集合中的三元组用于表征待处理文本中两个实体之间的关系;三元组优化模块,用于根据待处理文本对应的属性架构,对初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合,属性架构用于表征待处理文本中实体的属性类型和关系的属性类型,以及实体的属性类型通过关系的属性类型实现的约束关系。
[0014]根据本申请实施例第三方面,提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的文本处理方法。
[0015]本申请实施例提供一种文本处理方法及装置。该方法包括:确定待处理文本中的实体以及实体之间的关系,以得到初始三元组集合;根据待处理文本对应的属性架构,对初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合。其中,属性架构用于表征待处理文本中实体的属性类型、关系的属性类型以及实体的属性类型通过关系的属性类型实现的约束关系。如此,通过预先定义的与待处理文本对应的属性框架,对从待处理
文本中抽取的多个三元组所形成的初始三元组集合,进行整体调整,融入了对三元组之间各种约束关系的验证,可大幅减少出现三元组之间产生语义上的冲突或矛盾。
[0016]需要理解的是,本申请的实施并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。
附图说明
[0017]通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
[0018]在附图中,相同或对应的标号表示相同或对应的部分。
[0019]图1为本申请一实施例实现文本处理方法的操作流程示意图;
[0020]图2为本申请另一实施例实现文本处理方法的操作流程示意图;
[0021]图3为图2所示实施例中初始三元组集合图的结构示意图;
[0022]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:确定待处理文本中的实体以及实体之间的关系,以得到初始三元组集合,所述初始三元组集合中的三元组用于表征所述待处理文本中两个实体之间的关系;根据所述待处理文本对应的属性架构,对所述初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合,所述属性架构用于表征所述待处理文本中实体的属性类型、关系的属性类型以及所述实体的属性类型通过所述关系的属性类型实现的约束关系。2.根据权利要求1所述的方法,所述根据所述待处理文本、所述待处理文本对应的属性架构,对所述初始三元组集合中实体及实体之间的关系进行调整,包括:根据所述待处理文本、所述待处理文本对应的属性架构,至少检测以下一种:所述初始三元组集合中实体的属性类型是否符合所述属性架构所表征的所述待处理文本中相应实体的属性类型、所述初始三元组集合中实体之间的关系是否符合所述属性架构所表征的所述待处理文本中相应实体之间关系的属性类型、所述初始三元组集合中实体的属性类型是否符合通过所述属性架构所表征的所述待处理文本中相应关系的属性类型所约束的实体的属性类型,以得到检测结果;根据检测结果,对所述初始三元组集合中实体及实体之间的关系进行调整。3.根据权利要求2所述的方法,所述根据检测结果,对所述初始三元组集合中实体及实体之间的关系进行调整,包括以下调整中的至少一种:若确定所述初始三元组集合中的单个三元组有误,删除或调整所述单个三元组;若确定所述初始三元组集合中的存在关系冲突的多个三元组,根据预先定义的冲突解决策略,从所述多个三元组中确定拟保留的三元组,删除所述多个三元组中除所述拟保留的三元组之外的其他三元组;若确定所述初始三元组集合中的多个三元组满足相似条件,将所述多个三元组合并为同一三元组;若确定所述初始三元组集合中存在缺失的实体关系,将所述缺失的实体关系转化为新增三元组,在所述初始三元组集合中添加所述新增三元组。4.根据权利要求1所述的方法,所述初始三元组集合包括使用图结构实现的初始三元组集合图,所述属性架构包括使用图结构实现的属性架构图,其中,所述初始三元组集合图的点对应所述初始三元组集合中的实体,所述初始三元组集合图的边对应所述初始三元组集合中的三元组;所述属性架构图的点对应所述待处理文本中实体的属性类型,所述属性架构图的边对应所述待处理文本中关系的属性类型以及所述实体的属性类型通过所述关系的属性类型实现的约束关系。5.根据权利要求4所述的方法,所述根据所述待处理文本对应的属性架构,对所述初始三元组集合中实体及实体之间的关系进行调整,得到优化三元组集合,包括:对所述初始三元组集合图进行图编码,得到第一编...

【专利技术属性】
技术研发人员:刘晓艺杨双涛
申请(专利权)人:联想诺谛北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1