一种基于词向量技术和知识图谱检索的短文本问答方法及装置制造方法及图纸

技术编号:26650652 阅读:38 留言:0更新日期:2020-12-09 00:49
本发明专利技术涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置,包括:对输入的自然语言短文本问题进行分词,得到分词后的文本;对该文本进行命名实体识别和词性标注,识别出实体以及关键词;知识图谱检索实体返回其对应的全部属性并与关键词一同进行向量化;对全部向量进行余弦相似度计算,找出与关键词最为相近的某属性,并进行替换;组成三元组进行知识图谱的检索,并输出答案。如何快速准确的在知识图谱中进行短文本问题答案的检索是实际应用中的关键问题,本发明专利技术提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置,该方法基于词向量技术,使得生成的三元组更加精确,从而提高在知识图谱中进行问题答案检索的效率。

【技术实现步骤摘要】
一种基于词向量技术和知识图谱检索的短文本问答方法及装置
本专利技术涉及自然语言处理领域,更具体说是涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置。
技术介绍
人工智能近年来的发展迅速,特别是在深度学习等方面有了极大的进展,目前在感知研究方向的研究已经取得了不错的成果,而下一个十年,人工智能的突破在于自然语言的理解,自然语言处理成为当前备受关注的研究热点。迄今为止,自然语言处理和知识图谱之间的结合已被成功应用到诸多领域:如机器翻译、文本分类、垃圾邮件过滤、信息提取、自动摘要、对话系统、医疗、问答系统等。自然语言处理和知识图谱的紧密结合中,其中重要的应用就是问答系统。面对问答系统,从分词、实体识别等技术对问题进行精准提取到知识图谱的精确检索,国内如北京大学语言计算与机器学习研究组所设计的多领域中文分词工具包pkuseg对于中文预料的分词测试平均结果可达91.29,国外如经典的自然语言处理工具NLTK的应用也是极为广泛。上述任务是自然语言处理中的一些手段,分析其任务本质发现它们的处理目标即为了使其在知识图谱中的检索更加精确本文档来自技高网...

【技术保护点】
1.一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于包括以下步骤:/n步骤1:对输入的自然语言短文本问题进行分词,得到分词后的文本。/n步骤2:从步骤1中得到的分词后的文本,对该文本进行命名实体识别和词性标注,识别出实体以及关键词。/n步骤3:从步骤2中获得的实体,将该实体放入三元组中进行知识图谱检索提取,得到该实体对应的全部属性。/n步骤4:从步骤3中获得的实体对应的全部属性,将其与步骤2中获得的关键词,均进行向量化操作,得到全部属性和关键词的向量。/n步骤5:从步骤4中获得的全部属性和关键词的向量,对其进行余弦相似度计算,找出与关键词最为相近的某属性,将该属性与关键词进行...

【技术特征摘要】
1.一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于包括以下步骤:
步骤1:对输入的自然语言短文本问题进行分词,得到分词后的文本。
步骤2:从步骤1中得到的分词后的文本,对该文本进行命名实体识别和词性标注,识别出实体以及关键词。
步骤3:从步骤2中获得的实体,将该实体放入三元组中进行知识图谱检索提取,得到该实体对应的全部属性。
步骤4:从步骤3中获得的实体对应的全部属性,将其与步骤2中获得的关键词,均进行向量化操作,得到全部属性和关键词的向量。
步骤5:从步骤4中获得的全部属性和关键词的向量,对其进行余弦相似度计算,找出与关键词最为相近的某属性,将该属性与关键词进行替换,得到被替换后的属性。
步骤6:从步骤5中获得的被替换后的属性与从步骤2中获得的实体,将两者组成三元组的形式,即实体-属性对。
步骤7:从步骤6中获得的实体-属性对即三元组,将该三元组输入至知识图谱检索工具,从而获得自然语言短文本问题的答案。
步骤8:重复回到步骤1进行执行,继续进行自然语言短文本问题的输入。


2.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤1的具体实现方法为:选择最优的分词工具,同时辅助使用字典,从而可以快速搭建完成初步模型,分词的准确性是整个短文本问答方法的基础。其中,分词后的文本,包含有关键词、实体等部分,但在此步骤中仍未进行区分。其中,短文本问题指方法问题的输入一般由一句问句组成,文本长度较短,自然语言处理起来相对容易。


3.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤2的具体实现方法为:选择最优的命名实体识别工具,必要时,可对某些与知识图谱中实体名称不完全匹配的实体,进行单独实体名称补充,从而得到可在知识图谱中被检索到的实体,...

【专利技术属性】
技术研发人员:王嫄徐涛胡文帅吴帅丁文强赵婷婷孔娜
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1