一种语义分析搜索方法、装置及存储介质制造方法及图纸

技术编号:27685558 阅读:19 留言:0更新日期:2021-03-17 03:52
本发明专利技术公开了一种语义分析搜索方法、装置及存储介质,其中方法包括:基于知识图谱,构建用于对用户问题进行语义分析的领域分词模型,对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱,基于搜索条件对所述意识图谱进行优化,得到意图子图,获取用户选择的搜索方式,分别基于所述知识图谱、所述意图子图获取对应回答,并输出给用户。本发明专利技术提高了语义分析搜索算法的计算效率和准确性。

【技术实现步骤摘要】
一种语义分析搜索方法、装置及存储介质
本专利技术涉及语义分析
,尤其涉及一种语义分析搜索方法、装置及存储介质。
技术介绍
目前大量的电力知识数据分布在线上、线下等各类场景,多源异构数据难以融合。当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况;目前实用化的信息检索系统主要基于人工分类目录或关键词匹配。前者对海量信息资源的揭示效率不高且深度有限;后者在信息的语义和语用的揭示上有局限性。通过建立专业领域的知识体系将降低业务更迭过程中各类工作。建立电力科技知识体系主要是规范化电力科技知识资源的专业领域词汇与业务规则,目前已经有电力百科全书提供的知识分类。根据电力科技知识体系构建电力行业知识图谱,以电力知识图谱为基础实现语义精准搜索。
技术实现思路
专利技术目的:本专利技术提出一种精细化的语义分析搜索方法。本专利技术的另一目的在于提供基于上述方法的语义分析搜索装置及计算机存储介质。技术方案:本专利技术所述的语义分析搜索方法,包括步骤:(1)基于知识图谱,构建领域分词模型,所述领域分词模型用于对用户问题进行语义分析;(2)对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱,所述意识图谱包括所述知识图谱中实体、概念、属性、属性值与算子之间的关联关系;(3)基于搜索条件对所述意识图谱进行优化,得到意图子图;(4)获取用户选择的搜索方式,分别基于所述知识图谱、所述意图子图获取对应回答,并输出给用户。进一步地,所述步骤(3)包括:从源点开始对所述意识图谱进行搜索,当图谱中边的类型不满足搜索条件时,进行搜索树的剪枝,以此访问到实体集合中所有的点。进一步地,所述访问方法采用广度优先遍历算法,得到的实体集合中由两两实体最短路径,由此得到意图子图。本专利技术通过意图识别发现并理解用户意图,从而针对不同的意图进行不同的问题处理从而进行回复。通过广度优先遍历算法优先访问图谱中相邻的点,因此,距离最近的点会最先访问到,记录的距离也就最小,由此得到意图子图。进一步地,所述搜索方式包括:多字段搜索、语义搜索、模糊搜索、精准搜索。本专利技术可支持多种搜索方式,以回答用户的不同提问方式。进一步地,所述步骤(4)包括:(41)提取用户问题的实体,判断用户问题的回答类型;(42)根据所述用户问题的回答类型,相应地在所述知识图谱或所述意图子图中查找回答。进一步地,所述用户问题的回答类型包括:事实性回答、推理型回答、统计型回答、计算型回答。进一步地,所述统计型回答是通过将知识图谱中的数据以关系数据的方式存储后,通过统计函数分析得到的回答。进一步地,所述步骤(42)包括:基于所述意图子图查找回答时,当识别到多条路径时,若路径中包含算子节点,则对识别到的路径进行检查,判断是否满足算子运行条件,不满足则引导用户输入算子运行条件,满足则执行计算;若路径中不包含算子节点,则在所述知识图谱中进行语义搜索。所述算子运算的结果根据算子运算规则可能返回数值结果、单一知识卡片、实体列表、子图、图表以及多元素组合。本专利技术所述的语义分析搜索装置,包括:语义分析模块,用于对获取的用户问题进行语义分析;知识谱图模块,用于获取和/或构建知识谱图;意识子图模块,用于对所述语义分析识别得到的实体、算子进行意图识别,构造意识图谱,再基于搜索条件对所述意识图谱进行优化,生成意图子图;其中,所述意识图谱包括所述知识图谱中实体、概念、属性、属性值与算子之间的关联关系;回答模块,用于根据语义分析结果判断所述用户问题的回答类型,根据所述回答类型调用所述知识谱图模块或所述意识子图模块,获取并输出所述知识谱图模块或所述意识子图模块返回的回答。本专利技术所述的计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语义分析搜索的程序,所述语义分析搜索的程序被处理器执行时实现上述语义分析搜索方法的部分或全部步骤。有益效果:本专利技术提出了一个面向电力行业、基于电力科技知识图谱的交流共享架构,形成了较为成熟的针对知识检索的语义搜索引擎,实现了知识资源的透明化访问和可视化展现;利用语义网技术及自然语言理解技术,通过聚类、分类、时间分析、地图展现、作者关联、实体发现等技术实现对用户搜索的知识挖掘及发现,对产生的有价值的实体进行包装,根据已构建的知识图谱对实体进行搜索,为用户提供更有价值的知识结果反馈。附图说明图1是本专利技术所述语义分析搜索方法的流程示意图;图2是本实施例搭建的电力知识图谱体系框架。具体实施方式下面结合附图和实施例对本专利技术的技术方案作进一步的说明。请参见图1,其示出了本专利技术所述的语义分析搜索方法。下面以电力领域的语义分析搜索为例。(1)构建如图2所示的电力科技知识图谱资源库。电力科技知识数据源主要包括百科-电力百科、三大百科,专利-专利技术专利、技术、外观设计,论文-期刊论文、学位论文、会议论文等,成果-万方成果、国网成果,标准-国标、行标、企标,图书-一般的书籍数据,图片视频-带文本描述的图谱、视频,专家学者-上述数据的作者+专家库,行业机构-上述数据的作者+行业机构库,企业-上述数据的作者+行业企业库。基于电力科技知识数据进行实体抽取和关系抽取,其中实体抽取包含知识资源本体-论文、成果、专利、标准、图书,知识相关本体-研究机构、专家、出版社、企业;关系抽取包含实体间的从属关系和发布时间等。本专利技术通过构建电力科技知识体系知识图谱,并在此基础上对电力科技知识中的案例、标准、视频、实验室、图片、图书以及专利的字段进行优化,形成了适用于电力科技知识领域的专业知识字段,进一步扩充了现有的电力科技知识体系。将所述电力科技知识图谱作为分词算法词库,构建领域分词模型。所述领域分词模型用于:1)语义检索:利用语义检索文本框在数据库中实现语义检索。2)待分析语句:在待分析语句的文本框中输入语句,点击分析按钮后,会对文本框中的所有文本展开语义分析,分析结果将在对应功能模块中展示。3)简繁体&拼音:在简繁体&拼音模块中,切换待分析语句文本框中文本的三种展示形式,包括简体中文、繁体中文和汉语拼音三种方式。4)分词标注:在分词标注功能中查看检索分析内容的各类性分词,包括NLP分词、精准分词、索引分词、N最短路径分词及crf分词;同时在分词下方提供了词性标注的颜色、新词发现和自定义词汇功能。5)词频统计:在词频统计功能中查看检索分析内容出现各类型词汇的统计信息。6)关键词提取:在关键词提取功能中查看检索分析内容的关键词词云表示,其中词汇代销代表词汇出现频率较高。7)实体抽取:在实体抽取功能中通过图形和列表两种方式查看检所分析内容的实体抽取结果,抽取的实体一般按照时间、地点、任务等指定内容进行划分。8)本文档来自技高网...

【技术保护点】
1.一种语义分析搜索方法,其特征在于,包括步骤:/n(1)基于知识图谱,构建领域分词模型,所述领域分词模型用于对用户问题进行语义分析;/n(2)对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱,所述意识图谱包括所述知识图谱中实体、概念、属性、属性值与算子之间的关联关系;/n(3)基于搜索条件对所述意识图谱进行优化,得到意图子图;/n(4)获取用户选择的搜索方式,分别基于所述知识图谱、所述意图子图获取对应回答,并输出给用户。/n

【技术特征摘要】
1.一种语义分析搜索方法,其特征在于,包括步骤:
(1)基于知识图谱,构建领域分词模型,所述领域分词模型用于对用户问题进行语义分析;
(2)对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱,所述意识图谱包括所述知识图谱中实体、概念、属性、属性值与算子之间的关联关系;
(3)基于搜索条件对所述意识图谱进行优化,得到意图子图;
(4)获取用户选择的搜索方式,分别基于所述知识图谱、所述意图子图获取对应回答,并输出给用户。


2.根据权利要求1所述的语义分析搜索方法,其特征在于,所述步骤(3)包括:
从源点开始对所述意识图谱进行搜索,当图谱中边的类型不满足搜索条件时,进行搜索树的剪枝,以此访问到实体集合中所有的点。


3.根据权利要求2所述的语义分析搜索方法,其特征在于:所述访问方法采用广度优先遍历算法,得到的实体集合中由两两实体最短路径,由此得到意图子图。


4.根据权利要求1所述的语义分析搜索方法,其特征在于:所述搜索方式包括:多字段搜索、语义搜索、模糊搜索、精准搜索。


5.根据权利要求1所述的语义分析搜索方法,其特征在于,所述步骤(4)包括:
(41)提取用户问题的实体,判断用户问题的回答类型;
(42)根据所述用户问题的回答类型,相应地在所述知识图谱或所述意图子图中查找回答。


6.根据权利要求5所述的语义分析搜索方法,其特征在于,所述用户问题的回答类型包括:...

【专利技术属性】
技术研发人员:聂庆张涛谢秋学马青贺芳常秀孙金王磬音俞俊张楠张文强滕家雨商莹楠
申请(专利权)人:英大传媒投资集团有限公司南瑞集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1