【技术实现步骤摘要】
一种面向软件项目知识图谱的自然语言查询方法及系统
本专利技术涉及信息检索与数据库查询领域,尤其涉及一种面向软件项目知识图谱的自然语言查询方法及系统。
技术介绍
数据库自然语言接口数据库自然语言接口主要是指为关系数据库构造支持自然语言查询的接口。现有数据库自然语言接口的研究工作主要是围绕自然语言理解展开的,主要采用了基于句法分析将自然语言查询转换为形式化查询的方法、基于构造自然语言模板的方法、以及基于交互式算法提升查询效果的方法。在基于句法分析的查询转换方面,典型的工作有[LiF2016],其基本过程是:首先解析自然语言查询并构造其句法依存树,再通过结点匹配,规则扩展等方法进行查询转换,最后得到SQL查询语句。该类方法存在的问题是:需要用户输入的自然语言查询中的词语与数据库表中的某项信息(表名、属性名、记录等)明确对应,否则语法树不完整,无法得到正确答案。在基于构造自然语言模板研究方面,代表性工作[ZhengW2015]提出自动从已有问题中提取自然语言问题模板的方法,但其针对的是开放数据集,前提是从yahoo等社区获得大量相关问题。该类方法存在的问题是:软件项目知识 ...
【技术保护点】
1.一种面向软件项目知识图谱的自然语言查询方法,其步骤包括:1)抽取软件项目知识图谱的元模型;2)将自然语言查询语句转换成知识图谱元模型上的一系列子图,称为推理子图;3)将所述推理子图转化为查询语句,并在软件项目知识图谱上执行,返回查询结果。
【技术特征摘要】
1.一种面向软件项目知识图谱的自然语言查询方法,其步骤包括:1)抽取软件项目知识图谱的元模型;2)将自然语言查询语句转换成知识图谱元模型上的一系列子图,称为推理子图;3)将所述推理子图转化为查询语句,并在软件项目知识图谱上执行,返回查询结果。2.如权利要求1所述的方法,其特征在于,得到所述推理子图的方法为:2-1)对自然语言查询语句进行解析,得到自然语言查询语句的元素;2-2)将各所述元素与知识图谱上的元素进行匹配;2-3)对自然语言查询语句中设定的不可分割文本,构造基于lucene的倒排索引,利用建立的索引机制与知识图谱上的元素进行匹配;2-4)计算步骤2-2)中匹配的各自然语言词语元素与知识图谱上各元素之间的最短编辑距离,计算步骤2-3)得到的各匹配元素和知识图谱上各元素之间的最短编辑距离;根据最短编辑距离对上述匹配结果进行排序和过滤,取排序前K的匹配结果;2-5)对上述2-4)排序过滤后的K个元素,构造并度量推理子图。3.如权利要求2所述的方法,其特征在于,步骤2-2)中,各所述元素与知识图谱上的元素进行匹配,包括:将自然语言查询语句解析后的元素与所述元模型的元素进行匹配;将自然语言查询语句解析后的元素与知识图谱的实体匹配;将自然语言查询语句解析后的元素与知识图谱的属性匹配。4.如权利要求3所述的方法,其特征在于,将自然语言查询语句解析后的元素与所述元模型的元素进行匹配,包括自然语言查询语句解析后的元素与元模型的关系类型元素匹配、自然语言查询语句解析后的元素与元模型的实体类型元素匹配、自然语言查询语句解析后的元素与元模型的属性类型元素匹配。5.如权利要求2所述的方法,其特征在于,构造并度量所述推理子图的方法为:51)将排序过滤后的元素作为候选元素,得到一候选集合;对该候选集合进行扩展,即根据元模型的实体关系进行候选元素之间的关系推断,如果一候选元素a与其他任一候选元素在元模型中均没有直接实体关系,则增加一实体节点b扩展该候选集合,从而使得候选元素a、b之间存在间接关系;52)对上述扩展后的候选集合,利用最短路径算法和最小生成树算法构造推理子图森林,并连接生成推理子图;53)计算上述推理子图和自然语言查询语句之间的文本相似度、结构相似度和推理子图的复杂度,从而度量推理子图的正确性。6.如权利要求5所述的方法,其特征在于,所述文本相似度为SCoreSimi...
【专利技术属性】
技术研发人员:邹艳珍,王敏,倪际楠,谢冰,赵俊峰,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。