【技术实现步骤摘要】
本专利技术涉及碳排放,具体为一种基于文本解析的碳政策知识图谱构建系统。
技术介绍
1、双碳重点监测指标的选取需要通过人工从国家“双碳”政策及各省重要“双碳”战略中进行梳理,亟需开展碳政策知识引擎的构建,利用大数据算法对碳政策数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,构建碳政策知识图。
2、当前,在通用领域的关键词抽取算法已经有了相对成熟的研究与广泛的应用,但针对碳领域的文本来说,由于专有名词存在普遍且复杂,通用领域中基于分词结果进行的实体与关系抽取相关算法可用性较差,且在碳领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。
3、于是,有鉴于此,针对现有的结构及缺失予以研究改良,提出一种基于文本解析的碳政策知识图谱构建系统。
技术实现思路
1、针对现有技术的不足,本专利技术提供了一种基于文本解析的碳政策知识图谱构建系统,解决了上述
技术介绍
中提出的问题。
2、为实现以上目的,本专利技术通过
...【技术保护点】
1.一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述基于文本解析的碳政策知识图谱构建系统包括下述操作步骤:
2.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S1中,政策文件以及规范文件需要进行规划化,即为了方便读取内容,需要将pdf、caj、jpg此类格式文件统一转换为docx,而对于原始数据中的部分文档数据,通过OCR技术将文档转换为算法可读取处理的字符串型数据。
3.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤S2中,分词算法模型对碳政策文件分词的主要步骤
...
【技术特征摘要】
1.一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述基于文本解析的碳政策知识图谱构建系统包括下述操作步骤:
2.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s1中,政策文件以及规范文件需要进行规划化,即为了方便读取内容,需要将pdf、caj、jpg此类格式文件统一转换为docx,而对于原始数据中的部分文档数据,通过ocr技术将文档转换为算法可读取处理的字符串型数据。
3.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s2中,分词算法模型对碳政策文件分词的主要步骤如下:
4.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s3中,关键指标的获取采用textrank算法,textrank算法的核心公式如下,其中ωji用于表示两个节点之间的边连接具有不同的重要程度:
5.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s4中,知识抽取:主要是抽取出非结构化数据包含的实体、属性和关系,作为构成知识图谱的基本元素。
6.根据权利要求1所述的一种基于文本解析的碳政策知识图谱构建系统,其特征在于:所述步骤s4中,知识融合:先对抽取出的实体进行实体消歧和共指消解;
【专利技术属性】
技术研发人员:仝翠芝,张惠,刘洪斌,刘彦志,王之昕,王冲,高岩,武文鹏,田伟,李肖,李顺杰,梁雨婷,陈泽坤,王静芝,
申请(专利权)人:国网冀北电力有限公司智能配电网中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。