System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电力领域科研成果实体识别方法领域,具体为transformer与多头注意力机制的电力领域科研成果实体识别方法。
技术介绍
1、电力行业作为现代社会的基础设施之一,在全球范围内起着至关重要的作用。在电力科学研究中,丰富的文献资料提供了有价值的信息。对其进行有效的挖掘与整理,有助于支撑电力领域的科研活动,促进既有问题的解决与创新,为政策的制定提供科学依据。近年来,随着命名实体识别技术的不断发展,科研人员对其进行了大量的研究。命名实体识别是自然语言处理领域的一个分支,旨在从文本中识别出具有特定语义的实体,如人名,地名,机构名称等。在特定领域中,命名实体的识别主要是针对某一专门领域中的名称进行辨识与分类。这些特定领域包括医药,法律,金融,生物,计算机等。同时,命名实体的种类和识别规则可以依据不同的领域要求而变化。
2、如公开号为cn111026885b的中国专利公开一种基于文本语料的涉恐事件实体属性抽取系统及方法,包括:一数据采集模块,所述数据采集模块用以采集一网站网页的文本数据,一数据处理模块,用以对所述文本数据进行清洗;一文本分类模块,所述文本分类模块根据所述文本训练模块中的训练模型对清洗后的所述文本数据进行分类;一文本分解模块,用以对分类后的所述文本数据进行分解;一文本提取模块,用以对分解后的所述文本数据进行信息提取;一信息解析模块,用以对提取的所述信息进行解析。本专利技术涉恐领域事件实体属性的提取准确率、召回率更高,对同领域的文本预料具备可复用性,减少同领域模型训练的人工标注工作量。
3、在
技术实现思路
1、针对现有技术的不足,本专利技术提供了transformer与多头注意力机制的电力领域科研成果实体识别方法,以解决上述问题。
2、为实现以上目的,本专利技术通过以下技术方案予以实现。
3、transformer与多头注意力机制的电力领域科研成果实体识别方法,包括以下步骤:
4、s1、获取电力科研成果数据,具体方式如下:
5、通过使用scrapy爬虫框架,在知网中分别使用关键词"电力"、"电力系统"、"电力电子"、"电机"、"电源"进行检索,并爬取每个关键词对应的文献,然后对爬取到的内容进行去重和去噪,最终提取出电力领域的文献和关键词;
6、s2、构建并训练te-bmac模型,并将获取到的电力科研成果数据输入训练成功的te-bmac模型中进行实体识别,te-bmac模型训练的具体步骤如下:
7、s2-1:获取电力领域科研成果命名实体标注数据集;
8、其中,标注方法包括使用“b-电力实体”标注电力关键词实体第一个字,“i-电力实体”标注该电力关键词实体的其余部分,“o”标注非电力关键词实体;
9、s2-2:训练电力领域科研成果命名实体识别模型;
10、其中,te-bmac模型包括:信息输入层、特征提取层和预测输出层,其中:
11、所述信息输入层,用于将电力领域科研成果文本输入信息输入层,获取文本信息;
12、所述信息输入层使用embedding模块获取文本字符本身特征,同时使用transformer编码器获取文本上下文信息,可以同时考虑所有位置的相关性,并根据序列中的上下文信息能够动态地调整每个位置的表示,从而捕捉序列中不同位置的依赖关系,其结构具体公式为:
13、
14、其中,qi,ki,vi是输入矩阵,dk代表ki的向量维度,x表示输入,
15、所述特征提取层使用双向长短时记忆神经网络模型bilstm并融合了多头注意力机制,双向长短时记忆神经网络由多个长短时记忆单元组成,将词嵌入向量x=[x1,x2,…,xn]输入特征提取层,利用双向长短时记忆神经网络可以对文本序列中的正反向特征信息和进行提取,通过多头注意力对文本序列中的多维度特征信息feature进行提取,该方法的计算方式为:
16、
17、
18、
19、其中,x是词向量输入,表示第i个正向长短时记忆单元的输出,表示第i个反向长短时记忆单元的输出,featurei是模型提取出的第i个头的特征向量,h是多头注意力的头数,h是双向长短时记忆神经网络的输出,wo是权重矩阵,为级联操作,
20、s3、评价实体识别模型性能并进行参数调整,使用包括准确率、召回率和f1值作为评价指标,设置batchsize为20,dropout为0.1,学习率lr为5e-4,每次训练30个epoch,bilstm层隐藏层维度为2*128,多头注意力机制的头数为4,embedding输出的字向量维度为128,transformer编码器输出的字向量维度为32,其中最主要的参数包括学习率、embedding输出的字向量维度和transformer编码器输出的字向量维度。学习率lr的设置影响模型训练的效率,太高会导致模型过拟合,太低则会导致模型训练时间过长,因此针对te-bmac模型设置学习率lr为5e-4,可以保证精度与效率。此外两种字向量维度的设置及两种字向量占拼接字向量的比例也会影响模型的性能,字向量维度过多会导致计算开销增加并强化模型对噪音的敏感性导致模型性能下降,维度过小则会无法充分表达数据中的复杂关系,导致信息损失并降低了模型的表达能力,同时由于在te-bmac模型中文本上下文信息主要是为了强化字向量的信息表达,因此拼接向量中embedding输出的字向量占主导,基于以上原因,te-bmac模型中设置embedding输出的字向量维度为128,设置transformer编码器输出的字向量维度为32,可以在保证训练效率的同时实现对文本信息的充分表示。根据设置的参数对提出的te-bmac模型以及其他三种模型bilstm-crf、bert-bilstm-crf和idcnn-crf模型进行了训练和优化微调。
21、优选的,所述特征提取层,用于对传入特征提取层的文本词向量进行文本特征提取,通过多头注意力获取文本的多方面特征,丰富特征信息。
22、优选的,所述预测输出层,用于对特征提取层输出的特征信息进行提取和预测,最终得到实体识别结果。
23、优选的,所述特征提取层中采用条件随机场模型crf。
24、优选的,所述te-bmac模型输出电力科研成果数据的实体识别结果。
25、相比于现有技术而言,本专利技术公开了transformer与多头注意力机制的电力领域科研成果实体本文档来自技高网...
【技术保护点】
1.Transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的Transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:所述特征提取层,用于对传入特征提取层的文本词向量进行文本特征提取,通过多头注意力获取文本的多方面特征,丰富特征信息。
3.根据权利要求2所述的Transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:所述预测输出层,用于对特征提取层输出的特征信息进行提取和预测,最终得到实体识别结果。
4.根据权利要求3所述的Transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:所述特征提取层中采用条件随机场模型CRF。
5.根据权利要求4所述的Transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:所述TE-BMAC模型输出电力科研成果数据的实体识别结果。
【技术特征摘要】
1.transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的transformer与多头注意力机制的电力领域科研成果实体识别方法,其特征在于:所述特征提取层,用于对传入特征提取层的文本词向量进行文本特征提取,通过多头注意力获取文本的多方面特征,丰富特征信息。
3.根据权利要求2所述的transformer与多头注意力机制的电力领域科研成果实体识别方...
【专利技术属性】
技术研发人员:徐晓轶,毛艳芳,吕晓祥,
申请(专利权)人:国网江苏省电力有限公司南通供电分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。