一种电网文本信息匹配的方法、系统和存储介质技术方案

技术编号:22330173 阅读:32 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种电网文本信息匹配方法、系统和介质,其中方法包括:采集数据构建原始电网文本信息库;将原始电网文本信息库的文档的主题切词和关联,计算得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;对输入检索的文本校验后分词和权重计算;计算输入检索文本与各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top‑n对应的文本组成文本序列作为匹配结果返回。本发明专利技术通过基于电网文本信息构建数据仓库,提高了信息匹配的效率,降低使用成本;利用垂直搜索,提高信息检索匹配的精确度和工作效率。

A method, system and storage medium for text information matching in power grid

【技术实现步骤摘要】
一种电网文本信息匹配的方法、系统和存储介质
本专利技术属于计算机软件
,尤其涉及一种基于数据仓库与垂直搜索的电网文本信息匹配的方法、系统和存储介质。
技术介绍
随着计算机和信息时代的到来,人们收集、存储和访问的数据急剧增加,对这些快速增长的海量数据进行分析和知识理解已经远远超出了人的能力。大量的数据被描述为“数据丰富,但信息贫乏”。数据库规模日益扩大,仅依靠数据库管理系统的查询检索机制和统计分析方法,已经远远不能满足现实的需要。而大量激增的数据中往往又隐藏着许多重要的信息,如果能把这些信息从数据库中提取出来,就能为用户创造很多潜在的利润。因此,对大量历史数据进行分析处理,挖掘出有用的知识就显得非常迫切。特别是在电力系统中,存在巨量的运行文本数据信息,如何将其与设备信息进行匹配,也是现阶段研究的重点。同时,为满足电力部门工作人员对于信息查找的需求,快速地为其提供准确的信息,减少查找工作时间,节省人力成本,不再需要人工到各个系统查询并分析原始信息,所以亟需一个统一的信息一体化管理平台,为电网设备事故风险匹配关联提供检索服务。
技术实现思路
为了解决上述至少一个技术问题,本专利技术提出了一种基于数据仓库与垂直搜索的电网文本信息匹配的方法、系统和存储介质。为了实现上述目的,本专利技术第一方面提供了一种基于数据仓库与垂直搜索的电网文本信息匹配的方法,包括:采集电网文本信息数据进行预处理,得到原始电网文本信息库;将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。本方案中,所述电网文本信息数据进行预处理包括:数据的析取、数据的剔除、数据的过滤。本方案中,将切出词与文档进行关联后分别进行关联规则计算和权重计算,后得到得到文档中每个词语的权重值和基于关键词的关联规则,将关联规则中的前件后件写到关联表中,基于小文本的相似度计算,计算出电网信息文本的相似度,然后执行聚类算法,将所有电网信息文本根据聚类结果分类存储于电网文本信息数据库。本方案中,所述电网文本信息数据库中的文本信息的结构包括:文本编号ID、设备编号Setid、句子Sentence、若干文本关键词。本方案中,对输入的文本的校验通过预设的检索违禁字典库完成,所述检索违禁字典库由禁止检索主题的关键词组成。本方案中,对输入的检索文本校验后进行分词得到若干个检索词,分别对若干检索词进行权重计算。本方案中,待检索文本的每一个检索词均得到一个文本序列,每个文本序列中的文本均对应一个文本编号ID,由所述文本序列组成索引记录表,提取索引记录表中检索词关对应文本编号的交集编号,并将交集编号对应的的文本信息作为最终的匹配结果反返回给用户。本方案中,当根据预设的关联表和权重表得到的输入检索文本与当前电网文本信息数据库中各聚类中心的距离大于预设值时,表示电网文本信息数据库无相关文本信息,将当前的输入的检索文本信息作为无解问题,存放到无解问题库,等待信息扩充更新后解答。本方案第二方面还提供了一种基于数据仓库与垂直搜索的电网文本信息匹配的系统,该系统包括:存储器、处理器,所述存储器中包括基于数据仓库与垂直搜索的电网文本信息匹配的方法程序,所述基于数据仓库与垂直搜索的电网文本信息匹配的方法程序被所述处理器执行时实现如下步骤:采集电网文本信息数据进行预处理,得到原始电网文本信息库;将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的文本信息类中文本的相似度并排序,将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。本方案第三方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于数据仓库与垂直搜索的电网文本信息匹配的方法程序,所述基于数据仓库与垂直搜索的电网文本信息匹配的方法程序被处理器执行时,实现如上述任一项所述的基于数据仓库与垂直搜索的电网文本信息匹配的方法的步骤。本专利技术通过基于电网文本信息构建数据仓库用于数据挖掘和搜索,克服传统数据库操作型处理的局限性,提高了信息匹配的效率,降低使用成本;基于数据仓库构建的垂直搜索,提高信息检索匹配的精确度,从而为调度中信息的查询节省了时间,提高了工作效率。附图说明图1示出了电网文本信息匹配方法流程图。图2示出了基于数据仓库与垂直搜索的电网文本信息匹配系统框图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。名词及关键术语解释数据仓库系统由数据仓库、仓库管理和分析工具三部分组成,数据仓库的数据来源于多个数据源。一般源数据包括企业内部数据、市场调查报告以及各种文档之类的外部数据。传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要是为企业特定的应用服务的。数据仓库用于决策分析,也称分析型处理,是建立在决策支持系统(DSS)基础上。(1)数据获取:本部分负责从外部数据源获取数据,数据被区分出来,进行拷贝或重新定义格式等处理后,准备装入数据仓库。(2)数据存储和管理:本部分负责数据仓库的内部维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发及数据仓库的例行维护等,这些工作需要利用数据库管理系统(DBMS)的功能。(3)信息访问:本部分属于数据仓库的前端,面向不向种类的最终用户。主要由查询生成工具、多维分析工具和数据挖掘工具等工具集组成,以实现决策支持系统的各种要求。从数据仓库的细化结构解释具体包括:(1)数据定义:完成数据仓库的结构和环境的定义,包括:定义数据仓库中数据库的模式、数据仓库的数据源和从数据源提取数据时的一组规则或模型。(2)数据提取:数据提取部分负责从数据源提取数据,并对获得的源数据(SourceData)进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范,所以也称为“数据泵”(DataPump)。(3)数据管理:数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据分配完成获取数据的存储分布及分发到多台数据库服务器,维护服务完成数据的转储和恢复、安全性本文档来自技高网...

【技术保护点】
1.一种电网文本信息匹配方法,其特征在于,包括:采集电网文本信息数据进行预处理,得到原始电网文本信息库;将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top‑n对应的文本组成文本序列作为匹配结果返回。

【技术特征摘要】
1.一种电网文本信息匹配方法,其特征在于,包括:采集电网文本信息数据进行预处理,得到原始电网文本信息库;将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。2.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,所述电网文本信息数据进行预处理包括:数据的析取、数据的剔除、数据的过滤。3.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,将切出词与文档进行关联后分别进行关联规则计算和权重计算,后得到得到文档中每个词语的权重值和基于关键词的关联规则,将关联规则中的前件后件写到关联表中,基于小文本的相似度计算,计算出电网信息文本的相似度,然后执行聚类算法,将所有电网信息文本根据聚类结果分类存储于电网文本信息数据库。4.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,所述电网文本信息数据库中的文本信息的结构包括:文本编号ID、设备编号Setid、句子Sentence、若干文本关键词。5.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,对待输入文本的校验通过预设的检索违禁字典库完成,所述检索违禁字典库由禁止检索主题的关键词组成。6.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,对输入的检索文本校验后进行分词得到若干个检索词,分别对若干检索词进...

【专利技术属性】
技术研发人员:单克代江王宁陈恩黔赵倩田年杰
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1