System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及碳排放,具体为一种基于文本解析的碳政策知识图谱构建系统。
技术介绍
1、双碳重点监测指标的选取需要通过人工从国家“双碳”政策及各省重要“双碳”战略中进行梳理,亟需开展碳政策知识引擎的构建,利用大数据算法对碳政策数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,构建碳政策知识图。
2、当前,在通用领域的关键词抽取算法已经有了相对成熟的研究与广泛的应用,但针对碳领域的文本来说,由于专有名词存在普遍且复杂,通用领域中基于分词结果进行的实体与关系抽取相关算法可用性较差,且在碳领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。
3、于是,有鉴于此,针对现有的结构及缺失予以研究改良,提出一种基于文本解析的碳政策知识图谱构建系统。
技术实现思路
1、针对现有技术的不足,本专利技术提供了一种基于文本解析的碳政策知识图谱构建系统,解决了上述
技术介绍
中提出的问题。
2、为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于文本解析的碳政策知识图谱构建系统,所述基于文本解析的碳政策知识图谱构建系统包括下述操作步骤:
3、s1、碳政策数据收集与梳理:
4、基于互联网以及地市调研,政府平台、内部文件此类方式收集碳相关的政策文件以及规范文件;
5、s2、碳政策知识提取:
6、基于政策文件以及规范文件,首先,人工整理一系列双碳专有词汇作为基础词典;
7、s3、构建碳政策知识库:
8、采用人工梳理、文本分词的手段对碳政策文件进行处理并形成“双碳”关键词库,同时依据文件来源、日期、关键词此类信息支撑关键指标按照“精准核碳、科学控碳、智慧减碳”三大类型进行分类维护和管理,其中,还基于专家观点,权威机构相关标准对碳政策文本按照“精准核碳、科学控碳、智慧减碳”三大类型进行进行人工标注,构建碳政策文件分类识别模型,并充分结合专有词库,开展碳政策文本分词、特征提取,构建“双碳”政策知识库功能,支撑政策信息的分类维护和管理;
9、s4、构建知识图谱:
10、基于梳理好的文件信息,按照“实体-关系-实体”三元组的格式进行梳理和转换,并利用图数据库技术进行存储与可视化,形成碳政策知识图谱,实现碳政策信息的直观展示和高效检索查询;
11、具体的关于构建知识图谱的过程通常包括以下几个步骤:知识抽取、知识融合和知识加工;
12、s5、碳政策知识图谱应用:
13、基于碳政策知识图谱构建相关业务应用,包括热点政策分析,政策对标、以及专题分析。
14、进一步的,所述步骤s1中,政策文件以及规范文件需要进行规划化,即为了方便读取内容,需要将pdf、caj、jpg等格式文件统一转换为docx,而对于原始数据中的部分文档数据,通过ocr技术将文档转换为算法可读取处理的字符串型数据。
15、进一步的,所述步骤s2中,分词算法模型对碳政策文件分词的主要步骤如下:
16、构建词典:算法使用一个大型的中文词典作为基础,词典中包含了常见的词语和词语的频率信息,为提高分词准确率,加入停用、同义;
17、切分文本:给定一个碳政策文件,算法首先会对文本进行切分,将文本分割成一个个的字符;
18、前向最大匹配:算法采用前向最大匹配的方法来进行分词,这个过程会一直进行,直到遍历完整个文件内容;
19、后向最大匹配:为了解决歧义问题,算法还使用了后向最大匹配的方法,它从文本的末尾开始,根据词典中的词语进行匹配,这个过程会一直进行,直到遍历完整个文件内容;
20、最大概率路径:算法还使用了隐马尔可夫模型来计算切分结果的概率。它会根据词典中词语的频率信息和文本中词语的相邻关系,计算出一个最大概率路径,作为最终的分词结果。
21、进一步的,所述步骤s3中,关键指标的获取采用textrank算法,textrank算法的核心公式如下,其中ωji用于表示两个节点之间的边连接具有不同的重要程度:
22、
23、其中算法的具体步骤如下:
24、1)将给定的文本按照整句进行分割,即t=[s1,s2,...,sm];
25、2)对于每个句子si∈t,对其进行分词和词性标注,然后剔除停用词,只保留指定词性的词,如名词、动词、形容词等,即si=[ti,1,ti,2,...ti,n],其中ti,j为句子i中保留下的词;
26、3)构建词图g=(v,e),其中v为节点集合,由以上步骤生成的词组成,然后采用共现关系构造任意两个节点之间的边:两个节点之间存在边仅当它们对应的词在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词,一般k取2;
27、4)根据上面的公式,迭代计算各节点的权重,直至收敛;
28、5)对节点的权重进行倒序排序,从中得到最重要的t个单词,作为top-t关键词;
29、6)对于得到的top-t关键词,在原始文本中进行标记,若它们之间形成了相邻词组,则作为关键词组提取出来。
30、从给定文本中提取关键句时,将文本中的每个句子分别看作一个节点,如果两个句子有相似性,则认为这两个句子对应的节点之间存在一条无向有权边,衡量句子之间相似性的公式如下:
31、
32、si,sj:两个句子
33、wk:句子中的词
34、分子部分的意思是同时出现在两个句子中的同一个词的数量,分母是对句子中词的个数求对数后求和,这样设计可以遏制较长的句子在相似度计算上的优势。
35、根据以上相似度计算公式循环计算任意两个节点之间的相似度,设置阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后迭代计算每个节点的textrank值,排序后选出textrank值最高的x个节点对应的句子作为关键句,关键句能够组成该碳政策文本中的文章摘要也能提取出该文本中的关键指标。
36、进一步的,所述步骤s4中,知识抽取:主要是抽取出非结构化数据包含的实体、属性和关系,作为构成知识图谱的基本元素。
37、进一步的,所述步骤s4中,知识融合:先对抽取出的实体进行实体消歧和共指消解;
38、实体消歧是对可能存在多种含义的实体名称进行区分;共指消解是将具有相同含义和指代的名词和代词在知识图谱中进行合并,然后对实体、属性和关系进行整合并加入现有结构化数据,即得到一个“实体-关系-实体”的三元组,并结合图数据库技术,进行三元组的存储和转换,初步形成知识图谱。
39、进一步的,所述步骤s4中,知识加工:知识加工是一个动态过程,在碳政策知识图谱不断应用的过程中,评估其数据质量和应用效果,并结合知识本文档来自技高网...
【技术保护点】
1.一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述基于文本解析的碳政策知识图谱构建系统包括下述操作步骤:
2.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S1中,政策文件以及规范文件需要进行规划化,即为了方便读取内容,需要将pdf、caj、jpg此类格式文件统一转换为docx,而对于原始数据中的部分文档数据,通过OCR技术将文档转换为算法可读取处理的字符串型数据。
3.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S2中,分词算法模型对碳政策文件分词的主要步骤如下:
4.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S3中,关键指标的获取采用TextRank算法,TextRank算法的核心公式如下,其中ωji用于表示两个节点之间的边连接具有不同的重要程度:
5.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S4中,知识抽取:主要是抽取出非结构化数据包含的实体、属性和关系,作为构
6.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S4中,知识融合:先对抽取出的实体进行实体消歧和共指消解;
7.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S4中,知识加工:知识加工是一个动态过程,在碳政策知识图谱不断应用的过程中,评估其数据质量和应用效果,并结合知识的发展与丰富,对碳政策知识图谱进行更新与修正。
8.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S5中,热点政策分析:结合知识图谱搜索记录,分析热点政策以及关键词,将热度较高的政策以及关键词从时间维度、区域维度、层级维度此类通过构建热点可视化图表进行监测,助力政府、企业、公司“双碳”目标决策分析。
9.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S5中,政策对标分析:结合图谱信息对标“双碳”战略目标与公司战略要求,对标分析平台当前监测分析的发电行业、钢铁行业此类行业的关键碳业务指标政策,开展此类行业关键碳业务指标政策对标分析。
10.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S5中,专题分析:基于碳知识图谱,结合碳政策热点监测分析结果,开展碳汇、碳技术此类专题分析,支撑公司未来三至五年“双碳”数据分析工作方向和内容谋划,以及“双碳”数据服务公司生产经营方向及内容策划,形成可视化图表,助力公司低碳高质量发展。
...【技术特征摘要】
1.一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述基于文本解析的碳政策知识图谱构建系统包括下述操作步骤:
2.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s1中,政策文件以及规范文件需要进行规划化,即为了方便读取内容,需要将pdf、caj、jpg此类格式文件统一转换为docx,而对于原始数据中的部分文档数据,通过ocr技术将文档转换为算法可读取处理的字符串型数据。
3.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s2中,分词算法模型对碳政策文件分词的主要步骤如下:
4.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s3中,关键指标的获取采用textrank算法,textrank算法的核心公式如下,其中ωji用于表示两个节点之间的边连接具有不同的重要程度:
5.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s4中,知识抽取:主要是抽取出非结构化数据包含的实体、属性和关系,作为构成知识图谱的基本元素。
6.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s4中,知识融合:先对抽取出的实体进行实体消歧和共指消解;
【专利技术属性】
技术研发人员:仝翠芝,张惠,刘洪斌,刘彦志,王之昕,王冲,高岩,武文鹏,田伟,李肖,李顺杰,梁雨婷,陈泽坤,王静芝,
申请(专利权)人:国网冀北电力有限公司智能配电网中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。