一种数据检索/智能问答方法、装置、存储介质制造方法及图纸

技术编号:27619501 阅读:16 留言:0更新日期:2021-03-10 10:57
本发明专利技术涉及一种数据检索/智能问答方法、装置、存储介质,所述方法包括:通过电网调度系统的实体数据构建完整的知识图谱;然后基于构建好的知识图谱进行数据检索或智能问答:(1)数据检索:对待检索的文本提取关键词,然后基于对关键词进行分词处理;提取特征词汇以建立索引,最后根据索引在知识图谱中进行检索并输出检索结果;(2)智能问答:通过分析用户自然语言问句包含的语义信息,分析出然语言问句包含的语义信息后,在知识图谱中查询问句相关知识,得出智能答案。本发明专利技术可以实现数据关联关系的快速匹配和查找,提供更多有效的数据检索技术和专业化的数据资源检索服务,有效的提高了调度人员查找知识的速度。了调度人员查找知识的速度。了调度人员查找知识的速度。

【技术实现步骤摘要】
一种数据检索/智能问答方法、装置、存储介质


[0001]本专利技术涉及电力系统调度知识管控
,更具体地,涉及一种数据检索/智能问答方法、装置、存储介质。

技术介绍

[0002]随着电网业务系统的结构化数据越来越多,同时相对应的非结构化数据也不断增长,大量的信息需要花费宝贵的技术资源与大量的人力资源去维护与管理。就在这些海量的信息数据中,很大一部分文档数据都是有着各自不同格式的非结构化数据。传统的关系型数据库能对结构化数据可以进行很好的管理,但当其面对的数据变为非结构化数据时,就会出现很多局限性。当对这些数据进行检索时需要的时间越来越长,严重影响调度人员在工作过程中的效率。
[0003]当调度人员查找工作中需要的知识时,需要花费大量精力在海量数据,包括结构化和非结构化数据中去寻找,速度慢,效率低,甚至查不到。
[0004]目前调度中心管理文档一般采用本地文件夹存储,内部系统采用邮件发送方式,有时遇到紧急事件情况,需要调度人员临时到各业务系统查询相关决策文档资料,存在本地与系统两者之间文档管理不统一,不能很好的对调度领域的知识文档合理存储、有机整理,并且知识文档查询路径层次较多造成查询速度慢的问题,难以满足日常工作中文档快速搜索定位,不能及时响应调度人员的个性化需求。

技术实现思路

[0005]本专利技术为克服上述现有技术所述的调度人员查找知识速度慢的缺陷,提供一种数据检索/智能问答方法、装置、存储介质。
[0006]所述方法包括以下步骤:
[0007]对电网调度系统的实体数据进行全量抽取,并存储于图数据库,在进行完实体数据的抽取后,进行实体数据间关系的抽取和图数据中已有节点的关系编排,从而将整个电网调度系统中的数据以关联节点的方式存储于图数据库,构建完整的知识图谱;然后基于构建好的知识图谱进行数据检索或智能问答:
[0008](1)数据检索:对待检索的文本提取关键词,然后基于对关键词进行分词处理;提取特征词汇以建立索引,最后根据索引在知识图谱中进行检索并输出检索结果;
[0009](2)智能问答:通过分析用户自然语言问句包含的语义信息,分析出然语言问句包含的语义信息后,在知识图谱中查询问句相关知识,得出智能答案。
[0010]优选地,数据检索包括以下步骤:
[0011](1-1)选取部分和电力行业术语相关的文本集进行聚类实验,并对聚类结果进行分析,形成文本关键词;
[0012](1-2)根据文本关键词对文本集进行聚类划分;
[0013](1-3)将文本集聚类划分后,从每个簇中提取权重值最高的两个关键词用以标识
该聚类,并根据标识结果构建检索主题;
[0014](1-4)根据检索主体将文本信息进行分词处理,提取出特征词汇,然后建立反向索引,索引的建立必须足够快才能实现信息及时共享;
[0015](1-5)根据用户输入的检索语句,在知识图谱中检索出相关文档,评价结果集与查询语句的相关度,并依据相关度评价结果对结果集进行排序后返回给客户端。
[0016]优选地,分词处理包括英文分词处理和中文分词处理。
[0017]优选地,中文分词处理具体为:
[0018]将不间断的中文文字序列按照规范切分成词语序列;中文中的字、句和段等分界标识不能作为中文词语的有效分界符。
[0019]优选地,英文分词处理具体为:
[0020]将单词字母暂存于栈数据结构中,每当遇到空格或者标点字符时,便倒叙输出栈内的字母,完成分词。
[0021]优选地,智能问答包括以下步骤:
[0022](2-1)输入搜索问句,并对搜索问句进行分词处理以及去停用词;
[0023](2-2)提取问句中词语的潜在语义信息,将问句输入转换为模型词向量输入;
[0024](2-3)对词向量进行自然语言处理,获取用户问句中包含的实体名称;
[0025](2-4)根据实体名称找到问句询问的实体相关属性;并将其标记为候选三元组放入候选集合;
[0026](2-5)根据问题类别及查询模板,识别的实体和属性信息,构建查询从知识库中获取候选三元组,从而构建候选属性集;
[0027](2-6)根据候选属性从知识图谱中提取相对应的智能答案,并将智能答案发送给客户端。
[0028]优选地,去停用词具体为:去除问句中与语义无关的语气词和连接词。
[0029]优选地,(2-2)中利用word2vec工具将问句输入转换为模型词向量输入。
[0030]本专利技术所述装置包括终端、存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序,
[0031]所述终端用来输入检索语句与搜索语句,以及输出检索结果和智能答案;
[0032]所述程序被所述处理器执行时实现所述知识图谱的数据检索/智能问答方法的步骤。
[0033]本专利技术所述存储介质,用于计算机可读存储,其特征在于,所述计算机存储介质上存储有气压计高度动态补偿程序;所述知识图谱的数据检索/智能问答程序被处理器执行时实现所述的知识图谱的数据检索/智能问答方法的步骤。
[0034]与现有技术相比,本专利技术技术方案的有益效果是:
[0035]本专利技术根据电网调度系统的实体数据构建知识图谱,利用知识图谱信息,可以实现数据关联关系的快速匹配和查找,提供更多有效的数据检索技术和专业化的数据资源检索服务,有效的提高了调度人员查找知识的速度。
附图说明
[0036]图1为实施例1所述数据检索/智能问答方法流程图。
具体实施方式
[0037]附图仅用于示例性说明,不能理解为对本专利的限制;
[0038]为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0039]对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0040]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0041]实施例1:
[0042]本实施例提供一种数据检索/智能问答方法,如图1所示,所述方法包括以下步骤:
[0043]对电网调度系统的实体数据进行全量抽取,并存储于图数据库,在进行完实体数据的抽取后,进行实体数据间关系的抽取和图数据中已有节点的关系编排,从而将整个电网调度系统中的数据以关联节点的方式存储于图数据库,构建完整的知识图谱;然后基于构建好的知识图谱进行数据检索或智能问答:
[0044](1)数据检索:对待检索的文本提取关键词,然后基于对关键词进行分词处理;提取特征词汇以建立索引,最后根据索引在知识图谱中进行检索并输出检索结果;
[0045](2)智能问答:通过分析用户自然语言问句包含的语义信息,分析出然语言问句包含的语义信息后,在知识图谱中查询问句相关知识,得出智能答案。
[0046]数据检索包括以下步骤:
[0047](1-1)选取部分和电力行业术语相关的文本集进行聚类实验,并对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索/智能问答方法,其特征在于,所述方法包括以下步骤:对电网调度系统的实体数据进行全量抽取,并存储于图数据库,在进行完实体数据的抽取后,进行实体数据间关系的抽取和图数据中已有节点的关系编排,从而将整个电网调度系统中的数据以关联节点的方式存储于图数据库,构建完整的知识图谱;然后基于构建好的知识图谱进行数据检索或智能问答:(1)数据检索:对待检索的文本提取关键词,然后基于对关键词进行分词处理;提取特征词汇以建立索引,最后根据索引在知识图谱中进行检索并输出检索结果;(2)智能问答:通过分析用户自然语言问句包含的语义信息,分析出然语言问句包含的语义信息后,在知识图谱中查询问句相关知识,得出智能答案。2.根据权利要求1所述数据检索/智能问答方法,其特征在于,数据检索包括以下步骤:(1-1)选取部分和电力行业术语相关的文本集进行聚类实验,并对聚类结果进行分析,形成文本关键词;(1-2)根据文本关键词对文本集进行聚类划分;(1-3)将文本集聚类划分后,从每个簇中提取权重值最高的两个关键词用以标识该聚类,并根据标识结果构建检索主题;(1-4)根据检索主体将文本信息进行分词处理,提取出特征词汇,然后建立反向索引,索引的建立必须足够快才能实现信息及时共享;(1-5)根据用户输入的检索语句,在知识图谱中检索出相关文档,评价结果集与查询语句的相关度,并依据相关度评价结果对结果集进行排序后返回给客户端。3.根据权利要求2所述数据检索/智能问答方法,其特征在于,分词处理包括英文分词处理和中文分词处理。4.根据权利要求3所述数据检索/智能问答方法,其特征在于,中文分词处理具体为:将不间断的中文文字序列按照规范切分成词语序列;中文中的字、句和段等分界标识不能作为中文词语的有效分界符。5.根据...

【专利技术属性】
技术研发人员:骆国铭周俊宇吴海江唐鹤陈晓彤李伟
申请(专利权)人:广东电网有限责任公司佛山供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1