【技术实现步骤摘要】
一种基于最大熵模型的规则知识图谱构建方法及系统
本专利技术涉及知识图谱
,更具体地,涉及一种基于最大熵模型的规则知识图谱构建方法及系统。
技术介绍
随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和网络上数以亿记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法,用这些有效的知识对一个非结构化的文档进行有效的筛选。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。电力公司计量中心使用的营销系统、计量自动化系统业务复杂性不断增加,字段多;在业务系统和发文数据中存在许多业务方需求的数据,如客户,设备,地址等。传统的处理方式是依靠专家规则判断,规则的制定往往不能匹配业务的发展速度,不能快速精确的发觉问题。存在跨界面校验关联数据的需求;目前无法自行配置一些校验任务,时效性较差;不同操 ...
【技术保护点】
1.一种基于最大熵模型的规则知识图谱构建方法,其特征在于,包括以下步骤:/nS1:导入非结构化数据;/nS2:根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;/nS3:利用现有的深度学习算法训练标注数据集生成规则模型;/nS4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;/nS5:利用寻径算法模型生成简化知识图谱;/nS6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。/n
【技术特征摘要】
1.一种基于最大熵模型的规则知识图谱构建方法,其特征在于,包括以下步骤:
S1:导入非结构化数据;
S2:根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
S3:利用现有的深度学习算法训练标注数据集生成规则模型;
S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;
S5:利用寻径算法模型生成简化知识图谱;
S6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。
2.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,所述非结构化数据包括有:网页、文本、PDF文档。
3.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱。
4.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,利用寻径算法模型生成简化知识图谱具体过程为:
S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱。
5.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
6.一种基于最...
【专利技术属性】
技术研发人员:林尔迅,吴智海,林海,梁保华,余永奎,蔡春元,陈仁威,黄唯佳,苏轩,陈嘉俊,
申请(专利权)人:广东电网有限责任公司中山供电局,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。