System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识图谱、实体聚类、bilstm-crf网络和自然语言处理等领域,特别是指一种融合领域知识和深度学习的领域短文本命名实体识别方法,能够解决领域知识利用率不足、领域命名实体识别准确度不高等问题。
技术介绍
1、在军事领域中,大量使用简短文本形式交互诸如社情、警情等信息,常常由于时间紧迫、人员技能不高、传输带宽受限等因素,使得该类文本不仅表现出领域性强的特点,还表现出长度较短、指代不清、术语不准、上下文语境缺失、关键词上下文位置不固定、描述方式大相径庭等特点。因此,准确快捷识别领域短文本中关键命名实体,是辅助人员正确理解信息的重要支撑,具有很大的实际应用价值。
2、目前,领域中短文本命名实体的识别还多以字典、规则、以及与机器学习相结合的方法实现。公开号为cn106095749a的专利申请公开了一种基于深度学习的文本关键词提取方法,该方法训练一个循环神经网络模型,使用随机梯度下降方法更新网络参数,模型训练结束后,对于一段待提取关键词的文本,将其转化为词向量,输入到已经训练好的循环神经网络模型中,可以生成这段文本的关键词。公开号为cn113111172a的专利申请公开了基于深度学习模型的接处警文本人物信息提取方法和装置,其将分词对应的词向量输入目标人物信息要素标识集合中的各目标人物信息要素标识对应的基于深度学习模型的分类模型,以及响应于确定所得到的分类结果为是相应人物信息要素,将分词确定为相应人物信息要素。公开号为cn109783812a的专利申请公开了基于自注意力机制的中文命名实体识别方法及装置,其提取待识别
3、但是,这些现有技术的方法往往存在人工标注工作量大、领域知识利用率不足、领域命名实体识别准确度不高等问题。此外,虽然基于预训练的大语言模型(llm)得到迅猛发展,利用大模型微调技术,就能很快得到相对精度较高的领域模型,但由于llm的所需的计算、存储等资源要求都很高,导致在计算、存储等资源受限的领域无法得到广泛应用。
技术实现思路
1、有鉴于此,本专利技术提出了融合领域知识和深度学习的领域短文本命名实体识别方法。本专利技术针对领域特点选择领域关键实体类型,以及关键实体间的关键关系,对领域知识图谱中的知识实体进行投影转换后再聚类,可提升知识实体聚类计算的准确性。
2、本专利技术采用的技术方案为:
3、融合领域知识和深度学习的领域短文本命名实体识别方法,包括以下步骤:
4、步骤1,从已有的军事领域知识图谱中,选取领域关键知识实体及关键知识实体间的关键实体关系,构建关键知识实体关联矩阵,将领域知识图谱中关键知识实体投影转换成新知识实体,再对新知识实体进行聚类;步骤1的具体方式为:
5、步骤1-1,从军事领域已有的领域知识图谱中,选取领域关键知识实体及关键知识实体间的关键实体关系;
6、步骤1-2,根据知识实体间的实体关系,构建知识实体关联矩阵s,矩阵的元素为两知识实体的关联度sij,用于表示领域知识图谱中知识实体ei与知识实体ej在知识图谱中关联关系的度值;
7、步骤1-3,按照计算生成知识实体关联转换矩阵w,其中σ默认取1;
8、步骤1-4,按照计算生成对角矩阵d;
9、步骤1-5,按照拉普拉斯矩阵a=d-1/2wd1/2,生成知识实体投影转换矩阵a;
10、步骤1-6,将知识实体e,通过投影转换矩阵a,生成新知识实体e’,即e’=ae;
11、步骤1-7,对每个新知识实体e’,通过该新知识实体与其他新知识实体的关系度,构建新知识实体集合的关联矩阵s’;
12、步骤1-8,利用新知识实体集合的关联矩阵s’计算ei和ej,其中,ei、ej分别表示与新知识实体ei’、ej’存在关系的所有新知识实体的集合,|ei|表示集合ei中各新知识实体度的和,|ej|表示集合ej中各新知识实体度的和;
13、步骤1-9,按照计算新知识实体ei’和新知识实体ej’的相似性距离,其中,e表示所有新知识实体集合,|e|表示所有新知识实体度的和,ei∩ej为集合ei与集合ej中共有新知识实体的集合,|ei∩ej|表示集合ei∩ej中新知识实体度的和;
14、步骤1-10,基于新知识实体的相似性距离,采用k-均值聚类方法对新知识实体进行聚类计算,得到新知识实体的聚类结果及每个聚类中心所对应的新知识实体ec′,全部新知识实体ec′构成聚簇中心新知识实体集合{ec′};
15、步骤2,收集领域短文本,对其中的命名实体进行识别,然后使用jieba分词工具对领域短文本进行分词,并利用停用词词典去除口语词、停用词;使用全局向量词嵌入模型glove将处理后的分词结果与新知识实体集合的关联矩阵s’一起进行词嵌入训练,生成领域命名实体词向量空间及新知识实体词向量;
16、步骤3,对于领域短文本中已被识别的命名实体,按照在该领域短文本中的时序关系,使用领域命名实体词向量空间,生成该领域短文本的命名实体词向量集合;
17、步骤4,在新知识实体聚类所得的聚簇中,计算与命名实体词向量最相似的新知识实体;步骤4的具体方式为:
18、步骤4-1,在命名实体词向量集合中顺序选取一个命名实体词向量,计算实体词向量相似性
19、
20、其中,rm是命名实体词向量,是聚簇中心新知识实体集合{ec’}中的某聚类中心实体ec’对应的新知识实体词向量;
21、步骤4-2,计算实体词向量相似性的最大值若最大值小于阈值则认为未找到相似新知识实体类,跳转到步骤5;若最大值大于阈值则随机选择其中一个最大值所对应的rm,认为该rm隶属于该聚类;
22、步骤4-3,对于步骤4-2确定的聚类,计算命名实体词向量与该聚类中每个新知识实体词向量的相似性s(rm,re′):
23、
24、其中,re是新知识实体词向量;
25、步骤4-4,计算s(rm,re’)的最大值max(s(rm,re’)),若最大值小于阈值δ,则认为未找到相似新知识实体,跳转到步骤5;若最大值大于阈值δ,则随机选择其中一个最大值所对应的re’,作为该命名实体最相似新知识实体的词向量;
26、步骤4-5,重复步骤4-1至步骤4-4,为命名实体词向量集合中每一个命名实体找到相应的新知识实体向量,并以新知识实体词向量替换集合中对应的命名实体词向量,生成替换知识实体的命名实体词向量集合;
27、步骤5,构建两个bilstm-crf网络,分别为替换知识实体bilstm-crf网络以及识别命名实体bilstm-crf网络,将步骤4-5生成的替换知识实体的命名实体词向量集合输入替换知识实体bilstm-c本文档来自技高网...
【技术保护点】
1.融合领域知识和深度学习的领域短文本命名实体识别方法,其特征在于,包括以下步骤:
【技术特征摘要】
1.融合领域知识和深度学习的领域短文本命名...
【专利技术属性】
技术研发人员:戎纪光,陈金勇,杨晓青,任志国,李书强,徐灿,滕学斌,马茜,赵鹏,尤静,
申请(专利权)人:中国电子科技集团公司第五十四研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。