一种电力行业科研知识抽取方法及系统技术方案

技术编号:41144529 阅读:22 留言:0更新日期:2024-04-30 18:13
本发明专利技术公开了一种电力行业科研知识抽取方法及系统,该方法包括以下步骤:S1收集电力科研文献信息,并对收集到的文献信息进行预处理;S2构建电力科研领域关键词词典,通过机器标注的方式得到命名实体识别标注的语料库,从而得到训练集;S3采用改进的BiLSTM‑CNN‑CRF网络对训练集进行训练,完成电力科研知识的关键词抽取;S4将所述预测输出层得到的电力科研知识关键词与电力科研文献信息一起存入到图数据库Neo4j中。本发明专利技术将预处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,采用的字符嵌入向量计算方法为将电力行业中的每个字符向量化,比直接使用相关模型进行特征提取进而得到相关的字符嵌入向量更加齐整,也即减少了很多冗余无效数据信息,从而提高抽取的准确率也相应的提高了抽取速度。

【技术实现步骤摘要】

本专利技术涉及电力科研知识抽取,具体涉及基于神经网络模型的电力科研知识抽取方法及系统。


技术介绍

1、电力行业作为现代社会的基础设施之一,在全球范围内起着至关重要的作用。在电力科学研究中,丰富的文献资料为我们提供了有价值的信息。对其进行有效的挖掘与整理,有助于支撑电力领域的科研活动,促进既有问题的解决与创新,为政策的制定提供科学依据。

2、目前的电力科研知识抽取主要存在以下难点:

3、1)缺乏公开可用的、经过标注的中文电力文本数据集,这限制了研究者进行系统性的实验和评估;

4、2)很难快速获得电力科研知识的关键词词库;

5、3)通用领域的命名实体识别方法针对通用数据集有理想的识别效果,但当把通用领域技术直接迁移到电力领域的效果并不理想;

6、4)网络上的电力科研知识很多,但是没有办法快速获得其中的关键词信息,来定位知识的细分领域。

7、申请号为2023111466413的专利技术专利公开了一种电力行业实体关系抽取方法、装置、设备及介质。其采用的方法为:获取电力行业文本数据集并进行预处理本文档来自技高网...

【技术保护点】

1.一种电力行业科研知识抽取方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的电力行业科研知识抽取方法,其特征在于,所述步骤S3中,输入特征层包括嵌入层,所述处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,具体包括:

3.根据权利要求2所述的电力行业科研知识抽取方法,其特征在于,所述步骤S3中,记忆网络层包括输入门,遗忘门和输出门,若当前时间步为t,将当前时间步的字符嵌入向量xt、前一个时刻的隐藏状态ht-1(forward)和记忆细胞状态ct-1(forward)作为输入,隐藏状态ht(forward)的计算公式如下

4....

【技术特征摘要】

1.一种电力行业科研知识抽取方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3中,输入特征层包括嵌入层,所述处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,具体包括:

3.根据权利要求2所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3中,记忆网络层包括输入门,遗忘门和输出门,若当前时间步为t,将当前时间步的字符嵌入向量xt、前一个时刻的隐藏状态ht-1(forward)和记忆细胞状态ct-1(forward)作为输入,隐藏状态ht(forward)的计算公式如下:

4.根据权利要求3所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3中,多窗口门控网络层用于捕捉输入序列中的局部模式和特征,对应的操作步骤包括:

5.根据权利要求4所述的电力行业科研知识抽取方法,其特征在于,所述步骤s31具体包括:

6.根据权利要求1所述的电力行业科研...

【专利技术属性】
技术研发人员:徐晓轶毛艳芳吕晓祥
申请(专利权)人:国网江苏省电力有限公司南通供电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1