基于知识图谱的事件多标签分类方法、装置、设备及介质制造方法及图纸

技术编号:37136182 阅读:8 留言:0更新日期:2023-04-06 21:35
本申请公开了基于知识图谱的事件多标签分类方法、装置、设备及介质,本申请中,获取文本数据,并确定其中包含的各个实体、各个实体的属性和属性值,进而确定属性三元组和关系三元组。属性三元组和关系三元组能够包含文本数据中更多潜在的语义信息。因此根据属性三元组和关系三元组,构建文本数据对应的事件知识图谱,进而基于事件分类模型确定文本数据对应的事件类别,能够实现挖掘更多的语义信息进而实现事件准确分类。相较于基于词向量、关键词等技术手段进行事件分类的技术方案,提高了事件分类的准确性。分类的准确性。分类的准确性。

【技术实现步骤摘要】
基于知识图谱的事件多标签分类方法、装置、设备及介质


[0001]本申请涉及自然语言处理
,尤其涉及基于知识图谱的事件多标签分类方法、装置、设备及介质。

技术介绍

[0002]近年来,随着信息技术的飞速发展,各地网络平台的建设工作稳步推进,开启了信息时代下民生服务的新模式。对网络平台上的民生文本数据进行事件分类,有利于相关工作人员开展更有效的民生服务工作,也有利于对民生文本数据进行更好的分类管理保存。
[0003]随着自然语言处理技术的发展,一些研究开始关注于应用这些技术来挖掘文本数据中潜在的信息,进行文本数据分析。现有的一些事件分类方法中采用了词向量、关键词等技术手段。存在的问题是,浅层的词向量、关键词挖掘文本数据中潜在语义信息的能力有限,并且对于一词多义的问题,难以保证挖掘文本数据中语义信息的准确性,进而无法保证事件分类的准确性。

技术实现思路

[0004]本申请实施例提供了基于知识图谱的事件多标签分类方法、装置、设备及介质,用以解决现有方案挖掘文本数据中语义信息的能力有限,无法保证事件分类的准确性的问题。
[0005]本申请提供了一种基于知识图谱的事件多标签分类方法,所述方法包括:
[0006]获取文本数据,确定所述文本数据中包含的各个实体、所述各个实体的属性和属性值;
[0007]根据所述各个实体、所述各个实体的属性和属性值确定属性三元组和关系三元组;
[0008]根据所述属性三元组和关系三元组,构建所述文本数据对应的事件知识图谱;
[0009]将所述事件知识图谱输入预先训练完成的事件分类模型,基于所述事件分类模型确定所述文本数据对应的事件类别。
[0010]进一步地,所述确定所述文本数据中包含的各个实体、所述各个实体的属性和属性值包括:
[0011]将所述文本数据转化为第一嵌入向量,将所述第一嵌入向量输入双向编码器BERT模型进行编码,得到编码的第二嵌入向量;
[0012]通过片段枚举的方式对所述第二嵌入向量进行解码,得到各个片段各自对应的表征向量;
[0013]将各个表征向量输入已训练的语义识别模型,基于所述语义识别模型确定所述各个表征向量各自对应的实体、实体的属性和属性值。
[0014]进一步地,所述根据所述各个实体、所述各个实体的属性和属性值确定属性三元组包括:
[0015]针对所述各个实体,确定所述实体的类型和主体属性的属性值;
[0016]将所述实体的主体属性的属性值和所述文本数据中属于所述实体类型的任一属性的属性值输入预先训练完成的属性三元组提取模型,基于所述属性三元组提取模型判断所述任一属性的属性值是否描述所述实体;
[0017]根据描述所述实体的各个属性及对应的属性值,确定所述实体的各个属性三元组。
[0018]进一步地,所述方法还包括:
[0019]若所述文本数据中存在多个相同的主体属性的属性值,选择与待判别的属性值最近邻的主体属性的属性值构建所述属性三元组提取模型的输入,得到预测结果。
[0020]进一步地,所述根据所述各个实体、所述各个实体的属性和属性值确定关系三元组包括:
[0021]确定所述各个实体各自的主体属性;将任意两个主体属性的属性值输入预先训练完成的关系三元组提取模型,基于所述关系三元组提取模型确定所述任意两个主体属性各自所属的实体之间的关系;
[0022]根据所述各个实体和任意两个实体之间的关系,确定各个关系三元组。
[0023]进一步地,所述方法还包括:
[0024]若所述文本数据中存在多个相同的主体属性的属性值,对任意两个实体的关系判断时,选择最相邻的表征该两个实体的主体属性值的属性值构建所述关系三元组提取模型的输入,得到预测结果。
[0025]进一步地,所述根据所述属性三元组和关系三元组,构建所述文本数据对应的事件知识图谱包括:
[0026]创建事件实体,根据所述属性三元组、关系三元组和预先设定的事件实体的连接关系,对包含所述事件实体在内的各个实体进行连接,并填充所述各个实体的属性和属性值,以及各个实体之间的关系,得到所述文本数据对应的事件知识图谱。
[0027]进一步地,所述将所述事件知识图谱输入预先训练完成的事件分类模型,基于所述事件分类模型确定所述文本数据对应的事件类别包括:
[0028]将所述事件知识图谱转换为无向图谱,对所述无向图谱做扩充或裁减,固定输入图谱的规模;确定所述无向图谱的邻接矩阵;确定所述事件知识图谱中各个实体的表征向量,根据所述各个实体的表征向量确定特征矩阵;
[0029]将所述邻接矩阵和所述特征矩阵输入预先训练完成的事件分类模型,基于所述事件分类模型确定类别表征矩阵,并对所述类别表征矩阵进行特征提取,得到所述文本数据对应的事件类别。
[0030]进一步地,所述确定所述事件知识图谱中各个实体的表征向量包括:
[0031]对于所述事件实体之外的各个实体,根据所述各个实体的主体属性的属性值,确定所述各个实体的表征向量;
[0032]对于所述事件实体,根据与所述事件实体连接的各个实体的表征向量,确定所述事件实体的表征向量。
[0033]另一方面,本申请提供了一种基于知识图谱的事件多标签分类装置,所述装置包括:
[0034]第一确定模块,用于获取文本数据,确定所述文本数据中包含的各个实体、所述各个实体的属性和属性值;
[0035]第二确定模块,用于根据所述各个实体、所述各个实体的属性和属性值确定属性三元组和关系三元组;
[0036]构建模块,用于根据所述属性三元组和关系三元组,构建所述文本数据对应的事件知识图谱;
[0037]分类模块,用于将所述事件知识图谱输入预先训练完成的事件分类模型,基于所述事件分类模型确定所述文本数据对应的事件类别。
[0038]第一确定模块,具体用于将所述文本数据转化为第一嵌入向量,将所述第一嵌入向量输入双向编码器BERT模型进行编码,得到编码的第二嵌入向量;通过片段枚举的方式对所述第二嵌入向量进行解码,得到各个片段各自对应的表征向量;将各个表征向量输入已训练的语义识别模型,基于所述语义识别模型确定所述各个表征向量各自对应的实体、实体的属性和属性值。
[0039]第二确定模块,具体用于针对所述各个实体,确定所述实体的类型和主体属性的属性值;将所述实体的主体属性的属性值和所述文本数据中属于所述实体类型的任一属性的属性值输入预先训练完成的属性三元组提取模型,基于所述属性三元组提取模型判断所述任一属性的属性值是否描述所述实体;根据描述所述实体的各个属性及对应的属性值,确定所述实体的各个属性三元组。
[0040]第二确定模块,还用于若所述文本数据中存在多个相同的主体属性的属性值,选择与待判别的属性值最近邻的主体属性的属性值构建所述属性三元组提取模型的输入,得到预测结果。
[0041]第二确定模块,具体用于确定所述各个实体各自的主体属性;将任意两个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的事件多标签分类方法,其特征在于,所述方法包括:获取文本数据,确定所述文本数据中包含的各个实体、所述各个实体的属性和属性值;根据所述各个实体、所述各个实体的属性和属性值确定属性三元组和关系三元组;根据所述属性三元组和关系三元组,构建所述文本数据对应的事件知识图谱;将所述事件知识图谱输入预先训练完成的事件分类模型,基于所述事件分类模型确定所述文本数据对应的事件类别。2.如权利要求1所述的方法,其特征在于,所述确定所述文本数据中包含的各个实体、所述各个实体的属性和属性值包括:将所述文本数据转化为第一嵌入向量,将所述第一嵌入向量输入双向编码器BERT模型进行编码,得到编码的第二嵌入向量;通过片段枚举的方式对所述第二嵌入向量进行解码,得到各个片段各自对应的表征向量;将各个表征向量输入已训练的语义识别模型,基于所述语义识别模型确定所述各个表征向量各自对应的实体、实体的属性和属性值。3.如权利要求1所述的方法,其特征在于,所述根据所述各个实体、所述各个实体的属性和属性值确定属性三元组包括:针对所述各个实体,确定所述实体的类型和主体属性的属性值;将所述实体的主体属性的属性值和所述文本数据中属于所述实体类型的任一属性的属性值输入预先训练完成的属性三元组提取模型,基于所述属性三元组提取模型判断所述任一属性的属性值是否描述所述实体;根据描述所述实体的各个属性及对应的属性值,确定所述实体的各个属性三元组。4.如权利要求3所述的方法,其特征在于,所述方法还包括:若所述文本数据中存在多个相同的主体属性的属性值,选择与待判别的属性值最近邻的主体属性的属性值构建所述属性三元组提取模型的输入,得到预测结果。5.如权利要求1所述的方法,其特征在于,所述根据所述各个实体、所述各个实体的属性和属性值确定关系三元组包括:确定所述各个实体各自的主体属性;将任意两个主体属性的属性值输入预先训练完成的关系三元组提取模型,基于所述关系三元组提取模型确定所述任意两个主体属性各自所属的实体之间的关系;根据所述各个实体和任意两个实体之间的关系,确定各个关系三元组。6.如权利要求5所述的方法,其特征在于,所述方法还包括:若所述文本数据中存在多个相同的主体属性的属性值,对任意两个实体的关系判断时,选择最相邻的表征该两个实体的主体属性值的属性值构建所述关系三元组提取模型的输入,得到预测结果。7.如权利要求1所述的方法...

【专利技术属性】
技术研发人员:陈丽红范鹏召刘伟棠陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1