【技术实现步骤摘要】
一种面向自然语言的内容多样化搜索方法
本专利技术涉及搜索方法
,特别涉及一种面向自然语言的内容多样化搜索方法。
技术介绍
知识图谱是将海量信息用结构化的方式组织起来,高效地为用户的查询提供答案,因此,近年来它在学术界和工业界引起了广泛的关注。在知识图谱中,查询计算主要采用结构匹配的方式。也就是说,给定一个查询模式图和知识图谱,在知识图谱中找到与查询模式图相匹配的所有匹配项。查询知识图谱的关键在于查询理解和查询计算。在使用知识图谱时主要容易遇到以下问题:首先,由于用户的查询通常是用自然语言来表达的,这样的语言不能直接用知识图谱来计算。因此,需要先将自然语言查询转换为查询模式图。其次,知识图谱通常规模很大,并且主要是依据子图同构的方式进行计算。因此,现有技术中知识图谱的使用主要存在以下三方面的问题:(a)由于输入大,计算复杂性高,查询计算的计算量往往过大;(b)由于查询模式图在知识图谱中可能存在大量的匹配结果,因此理解查询结果比较困难;(c)用户通常感兴趣的是与“查询焦点”相匹配的Top-k个最优结果,且这些结果应尽可能的多样化。
技术实现思路
本专利技术的目的是克 ...
【技术保护点】
1.一种面向自然语言的内容多样化搜索方法,其特征在于,包含以下步骤:S1.利用CRF++工具对由自然语言描述的查询语句进行实体识别;S2.采用word2vec技术对实体进行消歧处理,其中,若识别出的实体在知识图谱中不存在,则采用相似度计算的方法查找语义相近的实体;S3.采用无监督的实体关系识别方法,利用距离特征、频次特征、关系指示词特征建立实体关系识别模型,提取查询语句中的“实体——实体”的实体对关系;S4.以实体为节点,“实体——实体”关系为边,建立查询模式图,并对查询语句中的“查询焦点”在查询模式图中予以标注;S5.利用子图同构算法将查询模式图与知识图谱进行结构匹配,返 ...
【技术特征摘要】
1.一种面向自然语言的内容多样化搜索方法,其特征在于,包含以下步骤:S1.利用CRF++工具对由自然语言描述的查询语句进行实体识别;S2.采用word2vec技术对实体进行消歧处理,其中,若识别出的实体在知识图谱中不存在,则采用相似度计算的方法查找语义相近的实体;S3.采用无监督的实体关系识别方法,利用距离特征、频次特征、关系指示词特征建立实体关系识别模型,提取查询语句中的“实体——实体”的实体对关系;S4.以实体为节点,“实体——实体”关系为边,建立查询模式图,并对查询语句中的“查询焦点”在查询模式图中予以标注;S5.利用子图同构算法将查询模式图与知识图谱进行结构匹配,返回与“查询焦点”相匹配的“对象”集合;S6.采用结果多样化技术,选择Top-k个对象作为查询结果。2.根据权利要求1所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S1具体为:S11.利用分词工具对训练语料进行粗标记;S12.对粗标后的训练再进行人工细标,得到标注准确的语料作为训练样本;S13.利用CRF++工具对训练样本进行训练,产生用于实体识别的模型,并利用该模型识别自然语言查询语句中的实体。3.根据权利要求2所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S2具体为:S21.对语料分词,然后使用word2vec计算语料中多次出现的词的词向量;S22.当知识图谱中不存在用户输入的查询语句所包含的实体时,该实体即为未知实体,基于余弦法计算未知实体与词典中其他词的相似度,选择相似度最高的词替代未知实体。4.根据权利要求3所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S3具体为:S31.统计文本文档,查找距离特征,得到词间距离与实体对存在关系的概率分布图,其中,当实体对间的距离为2时,该实体对存在关系的概率最大,随着词间距离增大,实体对存在关系的概率逐渐减小;S32.计算实体对出现频次,其中,有效的实体对在文本文档中出现的频次越高,实体对间存在关系的概率...
【专利技术属性】
技术研发人员:王欣,杨兰,展华益,孙锐,钟吉英,赵亮,谭斌,许洛,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。