基于文本语义特征提取的新能源项目评价方法和装置制造方法及图纸

技术编号:39061578 阅读:11 留言:0更新日期:2023-10-12 19:54
本发明专利技术涉及人工智能中文本识别技术领域,具体涉及基于文本语义特征提取的新能源项目评价方法和装置,所述方法包括:根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;根据提取结果和评价标准计算待提取的评价报告的评价结果;所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。本发明专利技术能减少评价新能源项目建设工作中人为的参与,不但能够节省人力还能够提高评价的准确性。的准确性。的准确性。

【技术实现步骤摘要】
基于文本语义特征提取的新能源项目评价方法和装置


[0001]本专利技术涉及人工智能中文本识别
,具体涉及基于文本语义特征提取的新能源项目评价方法和装置。

技术介绍

[0002]对于新能源项目的建设,需评价的指标较多。作为评价参考的评价报告往往是收集多方数据所得。收集的数据中包括现场考察所撰写的报告和拍摄的图片,国家和电网的相关标准,以及各考察方所撰写的研究报告等。因此,为了将评价报告与评价标准进行关联,需要将每篇评价报告进行标准化,但是由于各方数据呈现的方式不同,将评价报告撰写的标准化需要耗费大量的人力和时间。
[0003]因此,在现实工作中,参与评价的工作人员往往只是将各方数据做简单的整合而形成对应项目的评价报告。这就给每个新能源项目的决策人员带来了巨大的工作量,他们需要将复杂的评价报告与评价标准进行关联,人为地根据评价报告与评价标准之间的映射关系,找到评价标准中的关键词,再来计算每个评价标准的得分,从而对该项目进行决策。现有的这种评价新能源项目的方法多数基于人工实现,并且非常容易遗漏评价标准中的关键信息,从而导致新能源项目评价的不准确。
[0004]当然,在现有技术中,也是使用过文本处理器去提取评价报告中的语义特征,但是由于训练样本少,以及现有的文本处理器没有考虑语序、上下文信息,导致评价报告提取结果准确度低。

技术实现思路

[0005]本专利技术要解决的技术问题在于,克服现有的技术的不足,提供基于文本语义特征提取的新能源项目评价方法和装置,减少评价新能源项目建设工作中人为的参与,不但能够节省人力还能够提高评价的准确性。
[0006]为达到上述技术目的,一方面,本专利技术提供一种基于文本语义特征提取的新能源项目评价方法,包括:根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;根据提取结果和评价标准计算待提取的评价报告的评价结果;所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。
[0007]在上述技术方案中,所述根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练,具体包括:将各历史评价报告中每个词进行语义特征提取,得到对应的词向量;
提取评价标准中的关键词作为训练数据的输出,找到与关键词有映射关系的词向量作为对应训练数据的输入;将各训练数据进行处理,得到训练集;采用训练集对神经网络进行训练。
[0008]在上述技术方案中,所述将各训练数据进行处理,得到训练集,具体包括:针对各训练数据,计算对应词向量在各历史评价报告中出现的频率;将频率高于第一阈值的训练数据标记为高频数据,其余标记为低频数据;计算每个低频数据对应的词与评价标准中的各关键词的相似度;获取相似度高于第二阈值的低频数据与各高频数据按比例分配构成训练集。
[0009]在上述技术方案中,所述得到训练集对神经网络进行训练,具体包括:将训练集中的低频数据输入神经网络进行训练,迭代预设次数后,获取此时神经网络的参数,作为训练参数;将训练集输入至设定训练参数的神经网络进行训练。
[0010]在上述技术方案中,所述比例根据各训练数据中词在各历史评价报告中出现的概率获得。
[0011]在上述技术方案中,所述将待提取的评价报告中每个词进行语义特征提取,具体包括:采用CNN的卷积层识别待提取的评价报告中每个词,并进行语义特征提取。
[0012]在上述技术方案中,所述注意力机制,通过以下过程实现:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)公式(8)和(9)中,是校验模型,为卷积层第j个输入的隐层状态,为上一轮GRU的输出,W和U是权重转化矩阵,b为偏移量,表示输入j对输出的注意力分布概率,T表示输入序列元素的个数,score为影响力评价分数,v代表感知机,vtanh表示以tanh为激活函数的多层感知机。
[0013]在上述技术方案中,所述相似度表达式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)公式(4)中,为当前词,表示当前词所在的历史评价报告内容,表示当前词对应的词向量,表示当前词所在的历史评价报告中出现的第k个关键词,表示第k个关键词的词向量,表示第k个关键词出现在当前词所在的历史评价报告中的概率,K为当前词所在的历史评价报告中含有评价标准中关键词的数量。
[0014]在上述技术方案中,所述词在各历史评价报告中的概率的表达式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)

公式(5)中,为当前词,表示当前词所在的历史评价报告内容,表示当前词所在的历史评价报告中出现的第k个关键词,为当前词为第k个关键词的概率,表示第k个关键词出现在当前词所在的历史评价报告中的概率。
[0015]第二方面,本专利技术还提供一种基于文本语义特征提取的新能源项目评价装置,包括:提取模块、注意力模块、神经网络和评价模块;所述提取模块,用于根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集;所述训练集,用于对神经网络进行训练;所述提取模块,还用于将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;所述神经网络,还用于将待提取的评价报告的各词向量进行测试,输出提取结果;所述注意力模块,用于在神经网络进行训练和测试的过程中都加入注意力机制;所述评价模块,用于根据提取结果和评价标准计算待提取的评价报告的评价结果。
[0016]在本专利技术中,首先是利用各历史评价报告和评价标准对神经网络进了训练,使得神经网络学习到历史评价报告与评价标准之间的映射关系。然后采用神经网络对待提取的评价报告进行检测自动的输出该评价报告的提取结果。在训练和检测的过程中都加入了注意力机制,这样就能够顾及评价报告中语序和上下文的信息,使提取结果更准确。根据评价报告的提取结果再来计算评价结果。整个过程中人为参与少,大大减少人力并且提高评价结果的准确性。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0018]图1为本申请实施例的方法流程示意图;图2为本申请实施例的装置结构示意图;图3为门控循环网络隐藏层网络结构图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本语义特征提取的新能源项目评价方法,其特征在于,包括:根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;根据提取结果和评价标准计算待提取的评价报告的评价结果;所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。2.根据权利要求1述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练,具体包括:将各历史评价报告中每个词进行语义特征提取,得到对应的词向量;提取评价标准中的关键词作为训练数据的输出,找到与关键词有映射关系的词向量作为对应训练数据的输入;将各训练数据进行处理,得到训练集;采用训练集对神经网络进行训练。3.根据权利要求2所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述将各训练数据进行处理,得到训练集,具体包括:针对各训练数据,计算对应词向量在各历史评价报告中出现的频率;将频率高于第一阈值的训练数据标记为高频数据,其余标记为低频数据;计算每个低频数据对应的词与评价标准中的各关键词的相似度;获取相似度高于第二阈值的低频数据与各高频数据按比例分配构成训练集。4.根据权利要求2所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述得到训练集对神经网络进行训练,具体包括:将训练集中的低频数据输入神经网络进行训练,迭代预设次数后,获取此时神经网络的参数,作为训练参数;将训练集输入至设定训练参数的神经网络进行训练。5.根据权利要求3所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述比例根据各训练数据中词在各历史评价报告中出现的概率获得。6.根据权利要求1述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述将待提取的评价报告中每个词进行语义特征提取,具体包括:采用CNN的卷积层识别待提取的评价报告中每个词,并进行语义特征提取。7.根据权利要求6述的基于文本语义特征提取的新能源项目评价...

【专利技术属性】
技术研发人员:忻涛毕瀛瀚杨鹏程
申请(专利权)人:国电投华泽天津资产管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1