System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种获取实体识别模型的方法、识别实体的方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>郭丽专利>正文

一种获取实体识别模型的方法、识别实体的方法及装置制造方法及图纸

技术编号:40160553 阅读:6 留言:0更新日期:2024-01-26 23:34
本申请实施例提供一种获取实体识别模型的方法、识别实体的方法及装置,该方法包括:获取针对至少一条训练语句的实体标注数据,其中,所述至少一条训练语句为中文威胁情报数据;根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,以完成对所述实体识别模型的训练得到目标实体识别模型,其中,所述实体识别模型被配置为至少通过挖掘实体内部规律从任一条训练语句中找到各实体并得到各实体类别,所述实体内部规律是通过分析相应实体内的各字符获取的。本申请的一些实施例将实体内部规律挖掘模块融合到中文威胁情报的实体识别模型中,该模块用于捕获每个实体内部的潜在的命名规律,从而更好的进行实体类型的预测。

【技术实现步骤摘要】

本申请涉及网络安全领域,具体而言本申请实施例涉及一种获取实体识别模型的方法、识别实体的方法及装置


技术介绍

1、随着信息技术的不断发展和应用的普及,针对威胁情报的实体抽取技术的需求日益增加。

2、传统的手动实体抽取方法耗时、耗力且容易出现遗漏和误判,因此自动化的实体抽取技术成为了当前研究的热点之一。最近的系统在识别一些非结构化的英文威胁情报中的威胁实体方面已经取得了接近人类的水平。但是,在文本中存在中英夹杂的中文威胁情报领域,实体识别系统的性能仍然是一般的。英文领域的命名实体识别模型通常是基于词语的,在中文网络威胁情报的实体提取领域为了避免错误传播,实体识别模型通常是基于字符的。基于字符级别的中文命名实体识别模型不能像以单词为输入的实体识别模型那样,通过英文的前后缀来判断单词的语义,因此采用相关技术对中文网络威胁情报进行实体提取时实体识别准确率低。


技术实现思路

1、本申请实施例的目的在于提供一种获取实体识别模型的方法、识别实体的方法及装置,本申请的一些实施例将实体内部规律挖掘模块(即第二实体跨度识别模块)融合到中文威胁情报的实体识别模型中,该模块用于捕获每个实体内部的潜在的命名规律,从而更好的进行实体类型的预测。

2、第一方面,本申请实施例提供一种获取实体识别模型的方法,所述方法包括:获取针对至少一条训练语句的实体标注数据,其中,所述至少一条训练语句为中文威胁情报数据;根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,以完成对所述实体识别模型的训练得到目标实体识别模型,其中,所述实体识别模型被配置为至少通过挖掘实体内部规律从任一条训练语句中找到各实体并得到各实体类别,所述实体内部规律是通过分析相应实体内的各字符获取的。

3、本申请的一些实施例通过实体识别模型挖掘实体内部规律,即得到实体命名的规律,进而可以结合这些规律提升从中文威胁情报中提取实体以及进行实体类别识别的准确性。

4、所述实体识别模型被配置为通过从所述至少一条训练语句中确定各实体的目标实体跨度以及所述各实体的目标实体类型,所述实体识别模型至少包括:第一向量表征获取模块,且所述第一向量表征获取模块被配置为通过所述任一条训练语句中的任意一个字符串中的所有字符确定所述任意一个字符串的第一表征向量,所述目标实体跨度用于表征与一个实体对应的所有字符在所述任一条训练语句中所占据的所有位置。

5、本申请的一些实施例通过第一向量表征获取模块挖掘潜在实体的命名规律,并通过训练过程提升挖掘得到规律在实体类别识别中的比重,进而提升得到的目标实体识别模型的实体识别准确率。

6、在本申请的一些实施例中,所述实体识别模型还进一步包括:第二向量表征获取模块以及融合模块,所述第二向量表征获取模块被配置为通过所述任意一个字符串中的首字符和尾字符确定所述任意一个字符串的第二表征向量,所述融合模块被配置为对所述第一表征向量和所述第二表征向量进行融合得到一个目标表征向量,所述任意一个字符串对应一个目标实体跨度。

7、本申请的一些实施例通过引入两个字符串向量表征获取模块,提升得到与各字符串对应的目标表征向量的准确性,进而提升实体识别的准确性。

8、在本申请的一些实施例中,所述根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,包括:将所述任一条训练语句中的各字符输入所述实体识别模型,其中,一个字符为一个汉字或者一个英文字母;获取每个字符的编码向量;所述第一向量表征获取模块依据线性注意力机制、所述任一条训练语句中任意两个字符各自的编码向量以及位于所述两个字符之间的每个字符的编码向量,得到一个整体编码向量作为所述第一表征向量;所述第二实体跨度识别模块通过双仿射注意力机制整合所述任意两个字符各自的编码向量,得到一个头尾编码向量作为所述第二表征向量;根据所述整体编码向量和所述头尾编码向量得到所述目标表征向量;根据所述目标表征向量预测待识别实体的目标实体类型。

9、本申请的一些实施例通过为了得到每个从第i字符到第j字符(第i字符和第j字符为所述任一条训练语句中的任意字符,且在该训练语句中第i字符比第j字符的排序靠前)不包含规则信息的实体跨度表示利用双仿射注意力机制(biaffine attention)整合实体的头部和尾部的编码向量得到头尾编码向量,本申请的一些实施例为了捕捉网络安全实体的命名规律性,采用第一向量表征获取模块捕捉每个实体内部的命名规则,该模块利用线性注意力机制来获得句子中任意两个字符以及夹杂在这两个字符之间的每个字符它们共同组成的实体跨度表示,可以理解的是通过融合这两类向量得到的目标表征向量能更好的反应被识别实体的特征进而提升得到的实体识别结果的准确性。

10、在一些实施例中,所述任意两个字符分别为第i字符和第j字符,在所述任一条训练语句中所述第i字符位于所述第j字符的靠前的位置,其中,所述第一表征向量是通过如下方式获取的:将与所述第i字符对应的编码向量、与所述第j字符对应的编码向量以及在所述任一条训练语句中位于所述第i字符和所述第j字符之间的各字符的编码向量进行加权求和得到所述第一表征向量。

11、本申请的一些实施例通过相应字符串中各字符的编码向量进行加权求和得到表征向量,通过这种方式可以提升实体命名规律挖掘的准确性。

12、在一些实施例中,所述根据所述整体编码向量和所述头尾编码向量得到所述目标表征向量,包括:通过迭代方式获取本次训练对应的门控向量;通过对所述门控向量、所述整体编码向量和所述头尾编码向量进行加权求和确定所述目标表征向量。

13、本申请的一些实施例通过门控向量来融合整体编码向量和头尾编码向量得到目标表征向量,提升字符串特征表征的准确性。

14、在一些实施例中,所述门控向量表征为:

15、

16、其中,表征所述门控向量,u(3)是可训练学习得到参数矩阵,b2是偏置参数,表征与所述任一条训练语句中第i字符、第j字符以及位于所述第i字符和所述第j字符之间的所有字符组成的第一字符串对应的整体编码向量,表征与所述任一条训练语句中由所述第i字符作为首字符和所述第j字符作为尾字符所确定的第一字符串的头尾编码向量,[;]表征将两个向量连接起来,σ表征激活函数。

17、本申请的一些实施例通过迭代方式获取门控向量量化方式,提升该量的准确性。

18、在一些实施例中,所述通过对所述门控向量、所述整体编码向量和所述头尾编码向量进行加权求和确定所述目标表征向量,包括:通过如下公式进行所述加权求和得到与所述目标表征向量:

19、

20、其中,表征所述目标表征向量,⊙代表逐元素点乘算法。

21、本申请的一些实施例通过加权求融合整体编码向量和头尾编码向量得到目标表征向量,提升字符串向量表征的准确性。

22、在一些实施例中,所述实体识别模型还进一步包括:bert模块和bilstm模块,其中,所述获取每个字符的编码向量,本文档来自技高网...

【技术保护点】

1.一种获取实体识别模型的方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述实体识别模型被配置为通过从所述至少一条训练语句中确定各实体的目标实体跨度以及所述各实体的目标实体类型,所述实体识别模型至少包括:第一向量表征获取模块,且所述第一向量表征获取模块被配置为通过所述任一条训练语句中的任意一个字符串中的所有字符确定所述任意一个字符串的第一表征向量,所述目标实体跨度用于表征与一个实体对应的所有字符在所述任一条训练语句中所占据的所有位置。

3.如权利要求2所述的方法,其特征在于,所述实体识别模型还进一步包括:第二向量表征获取模块以及融合模块,所述第二向量表征获取模块被配置为通过所述任意一个字符串中的首字符和尾字符确定所述任意一个字符串的第二表征向量,所述融合模块被配置为对所述第一表征向量和所述第二表征向量进行融合得到一个目标表征向量,所述任意一个字符串对应一个目标实体跨度。

4.如权利要求3所述的方法,其特征在于,所述根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,包括:

5.如权利要求4所述的方法,其特征在于,所述任意两个字符分别为第i字符和第j字符,在所述任一条训练语句中所述第i字符位于所述第j字符的靠前的位置,其中,

6.如权利要求4所述的方法,其特征在于,所述根据所述整体编码向量和所述头尾编码向量得到所述目标表征向量,包括:

7.如权利要求6所述的方法,其特征在于,所述门控向量表征为:

8.如权利要求7所述的方法,其特征在于,所述通过对所述门控向量、所述整体编码向量和所述头尾编码向量进行加权求和确定所述目标表征向量,包括:

9.如权利要求4所述的方法,其特征在于,所述实体识别模型还进一步包括:BERT模块和BiLSTM模块,其中,

10.一种识别中文威胁情报中实体的方法,其特征在于,所述方法包括:

11.一种获取实体识别模型的装置,其特征在于,所述装置包括:

12.一种识别中文威胁情报中实体的装置,其特征在于,所述装置包括:

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现如权利要求1-10中任意一项权利要求所述的方法。

14.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如权利要求1-10中任意一项权利要求所述的方法。

...

【技术特征摘要】

1.一种获取实体识别模型的方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述实体识别模型被配置为通过从所述至少一条训练语句中确定各实体的目标实体跨度以及所述各实体的目标实体类型,所述实体识别模型至少包括:第一向量表征获取模块,且所述第一向量表征获取模块被配置为通过所述任一条训练语句中的任意一个字符串中的所有字符确定所述任意一个字符串的第一表征向量,所述目标实体跨度用于表征与一个实体对应的所有字符在所述任一条训练语句中所占据的所有位置。

3.如权利要求2所述的方法,其特征在于,所述实体识别模型还进一步包括:第二向量表征获取模块以及融合模块,所述第二向量表征获取模块被配置为通过所述任意一个字符串中的首字符和尾字符确定所述任意一个字符串的第二表征向量,所述融合模块被配置为对所述第一表征向量和所述第二表征向量进行融合得到一个目标表征向量,所述任意一个字符串对应一个目标实体跨度。

4.如权利要求3所述的方法,其特征在于,所述根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,包括:

5.如权利要求4所述的方法,其特征在于,所述任意两个字符分别为第i字符和第j字符,在所述任一条训练语句中所述第i字符位...

【专利技术属性】
技术研发人员:郭丽李益洲李娇
申请(专利权)人:郭丽
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1