一种文本实体关系抽取方法、系统、设备及介质技术方案

技术编号:36023865 阅读:5 留言:0更新日期:2022-12-21 10:20
一种文本实体关系抽取方法、系统、设备及介质,包括:将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,若决策函数的绝对值在所述设定范围,则得到待分类的能源电力文档语料的类别;否则,将不在设定范围的决策函数对应的特征向量采用预先训练好的KNN分类器进行二次分类,得到待分类的能源电力文档语料的类别;其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的。本发明专利技术融合了支持向量机分类模型和KNN分类器,兼顾了实体关系抽取的效率和精度。关系抽取的效率和精度。关系抽取的效率和精度。

【技术实现步骤摘要】
一种文本实体关系抽取方法、系统、设备及介质


[0001]本专利技术涉及能源电力分类领域,具体涉及一种文本实体关系抽取方法、系统、设备及介质。

技术介绍

[0002]实体关系抽取是知识图谱构建的重要环节,通过关系将实体(概念)联系起来,才能形成网状的知识结构。随着深度学习的发展,基于神经网络的实体关系抽取方法取得了明显进步,但神经网络训练时间复杂度较高,而且能源电力行业文本实体关系模式相对固定,需要执行效率较高且适用于工业界的实体关系抽取方法。
[0003]现有技术基于神经网络的实体关系抽取方法取得了明显进步,但神经网络训练时间复杂度较高,实体关系抽取的效率和精度较低,不满足能源电力行业的要求。

技术实现思路

[0004]为了解决现有技术基于神经网络的实体关系抽取方法取得了明显进步,但神经网络训练时间复杂度较高,实体关系抽取的效率和精度较低,不满足能源电力行业要求的问题,本专利技术提出了一种文本实体关系抽取方法,包括:
[0005]将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;
[0006]将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别;
[0007]当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的KNN分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;
[0008]其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;
[0009]KNN分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。
[0010]可选的,所述将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量,包括:
[0011]利于汇编语言中的分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清楚去掉乱码、符号、无意义的内容,得到分词和N

gram组合词语;
[0012]对所述分词和N

gram组合词语分别进行词嵌入操作形成指定维度的词嵌入特征向量;
[0013]将所有分词和N

gram组合词语的词嵌入特征向量叠加求均值,并将所述均值作为所述待分类的能源电力文档语料的特征向量。
[0014]可选的,所述支持向量机分类模型的训练包括:
[0015]获取多个能源电力文档语料的特征向量和所述能源电力文档语料的类型;
[0016]将所述能源电力文档语料的特征向量和所述能源电力文档语料的类型构建数据集,将所述数据集按照设定比例划分为测试集和训练集;
[0017]将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练;
[0018]采用所述测试集对训练后的支持向量机分类模型进行检测,将通过检测后的支持向量机模型作为训练好的支持向量机分类模型。
[0019]可选的,所述将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练,包括:
[0020]支持向量机将所述训练集中的每一个能源电力文档语料的特征向量和对应的类型作为一个样本;
[0021]采用高斯核函数计算任意两个样本之间的欧式距离;
[0022]基于所述任意两个样本点之间的欧式距离和所述任意两个样本,引入拉格朗日乘数法,得到所述样本对应的拉格朗日乘子;
[0023]对所述样本对应的拉格朗日乘子求偏导函数得到最优解;
[0024]将所述最优解作为分类决策函数。
[0025]可选的,所述高斯核函数如下式所示:
[0026][0027]式中,K(x
i
,y
i
)为高斯函数,(x
i
,y
i
)为训练样本,i为文本特征量的编号,x
i
∈R
d
,y
i
为x
i
的类别标记,σ为函数的宽度参数。
[0028]可选的,所述最优分割超平面如下式所示:
[0029][0030]式中,g(x)为分类决策函数,x
i
表示分类器的支持向量,b为判别函数的偏置项,n为文本特征量的数量。
[0031]可选的,对所述支持向量机分类模型的训练,还包括:
[0032]S1当训练集中的特征向量的类型数量大于2时,进入S2;
[0033]S2从所有类型中选择一个类型作为正类,其他类型为负类对特征向量进行标记后进入S3;
[0034]S3采用标记类型的特征向量对一个支持向量机分类模型进行训练,得到一个训练好的支持向量机分类模型;
[0035]S4判断所述其他类型数量是否大于2,若大于2,则将所述其他类型作为所有类型返回S2,否则,进入S5;
[0036]S5判断所述其他类型数量是否等于2,若等于2,则将2个类型作为所有类型返回S2,否则进入S6;
[0037]S6结束。
[0038]可选的,所述当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别,包括:
[0039]若所述决策函数大于零,则所述待分类的能源电力文档语料为正类别,否则所述待分类的能源电力文档语料为负类别。
[0040]可选的,所述KNN分类器的训练包括:
[0041]将所有绝对值不在所述设定范围内的决策函数对应的特征向量和所述特征向量的类型构成训练集;
[0042]将所述训练集中的特征向量作为KNN分类器的输入,将所述训练集中的特征向量对应的类型作为输出,对所述KNN分类器进行训练,得到训练好的KNN分类器。
[0043]可选的,所述将不在设定范围的决策函数对应的特征向量采用预先训练好的KNN分类器进行二次分类,得到所述待分类的能源电力文档语料的类别,包括:
[0044]将不在设定范围的决策函数对应的特征向量作为一个测试样本;
[0045]计算所述测试样本到所述训练集中每个特征向量的欧氏距离;
[0046]按照欧式距离由小到大,选择前K个特征向量,并将所述K个特征向量对应的类型进行统计,将数量最大的类型作为所述测试样本对应的待分类的能源电力文档语料的类别。
[0047]可选的,所述欧氏距离按下式计算:
[0048][0049]式中,为训练集中的样本类别,为测试样本与训练集中的特征向量的欧式距离,x
i
为第i个测试样本,y
i
为训练集中的特征向量,i和l为测试样本数量。
[0050]再一方面本专利技术还提供了一种文本实体关系抽取系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本实体关系抽取方法,其特征在于,包括:将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别;当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的KNN分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;KNN分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。2.如权利要求1所述的方法,其特征在于,所述将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量,包括:利于汇编语言中的分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清楚去掉乱码、符号、无意义的内容,得到分词和N

gram组合词语;对所述分词和N

gram组合词语分别进行词嵌入操作形成指定维度的词嵌入特征向量;将所有分词和N

gram组合词语的词嵌入特征向量叠加求均值,并将所述均值作为所述待分类的能源电力文档语料的特征向量。3.如权利要求1所述的方法,其特征在于,所述支持向量机分类模型的训练包括:获取多个能源电力文档语料的特征向量和所述能源电力文档语料的类型;将所述能源电力文档语料的特征向量和所述能源电力文档语料的类型构建数据集,将所述数据集按照设定比例划分为测试集和训练集;将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练;采用所述测试集对训练后的支持向量机分类模型进行检测,将通过检测后的支持向量机模型作为训练好的支持向量机分类模型。4.如权利要求3所述的方法,其特征在于,所述将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练,包括:支持向量机将所述训练集中的每一个能源电力文档语料的特征向量和对应的类型作为一个样本;采用高斯核函数计算任意两个样本之间的欧式距离;基于所述任意两个样本点之间的欧式距离和所述任意两个样本,引入拉格朗日乘数法,得到所述样本对应的拉格朗日乘子;对所述样本对应的拉格朗日乘子求偏导函数得到最优解;将所述最优解作为分类决策函数。5.如权利要求4所述的方法,其特征在于,所述高斯核函数如下式所示:
式中,K(x
i
,y
i
)为高斯函数,(x
i
,y
i
)为训练样本,i为文本特征量的编号,x
i
∈R
d
,y
i
为x
i
的类别标记,σ为函数的宽度参数。6.如权利要求5所述的方法,其特征在于,所述最优分割超平面如下式所示:式中,g(x)为分类决策函数,x
i
表示分类器的支持向量,b为判别函数的偏置项,n为文本特征量的数量。7.如权利要求3所述的方法,其特征在于,对所述支持向量机分类模型的训练,还包括:S1当训练集中的特征向量的类型数量大于2时,进入S2;S2从所有类型中选择一个类型作为正类,其他类型为负类对特征向量进行标记后进入S3;S3采用标记类型的特征向量对一个支持向量机分类模型进行训练,得到一个训练好的支持向量机分类模型;S4判断所述其他类型数量是否大于2,若大于2,则将所述其他类型作为所有类型返回S2,否则,进入S5;S5判断所述其他类型数量是否等于2,若等于2,则将2个类型作为所有类型返回S2,否则进入S6;S6结束。...

【专利技术属性】
技术研发人员:赵留军苗中泉孔维政代红才张栋梁田鑫杨斌张丽娜
申请(专利权)人:国网山东省电力公司经济技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1