实体热门度的计算方法及装置、应用方法及装置制造方法及图纸

技术编号:15639541 阅读:366 留言:0更新日期:2017-06-16 00:12
本发明专利技术提供了知识图谱中实体热门度的计算方法及装置、知识图谱中实体热门度在人机对话中的应用方法及装置,通过对知识图谱中实体热门度的计算,将其应用在人机对话过程中,使知识类的问答的给分能有效得到定量化。本发明专利技术实现了知识类回答的自信分数设定,减少日常用语抢答闲聊类的回答;实现了在人与情感聊天机器人对话中的话题延伸,比如对话中聊到某一话题,机器人可以主动发问相关热门词条的应用;实现了知识类回答中对于实体多义词的处理,在对话上下文没出现其他线索时输出默认实体词条的回答。

【技术实现步骤摘要】
实体热门度的计算方法及装置、应用方法及装置
本专利技术涉及人工智能对话系统,尤其涉及知识图谱中实体热门度的计算方法及装置、知识图谱中实体热门度在人机对话中的应用方法及装置。
技术介绍
含知识图谱的人工智能对话系统,比传统语料检索的对话系统的优势在于其多具备了知识和常识方面的回答能力,人在与这类人工智能对话系统聊天时能感受到机器人和人一样能记忆知识,懂知识,聊知识。含知识图谱的人工智能对话系统的结构流程通常是用户输入句,闲聊类回答与基于知识图谱的知识类回答作为并行处理(各自给出候选回答并给一个自信分数,分数越高越希望出此结果),最后由一个最终排序器从所有候选回答中挑选最合适的回送给用户。当知识图谱的实体(词条)数量达到百万千万甚至上亿的数量级的时候,实体(词条)会大量涉及日常用语,例如:我是谁(电影名),你好(歌曲名)等等。因此基于知识图谱的知识类回答需要做到:判别用户输入句的意图是否想问知识;所问词条是否属于日常用语;触发知识类回答是否会抢答闲聊类的回答模块;如何设置回答自信分数等问题。不能解决这类问题就会造成知识类回答抢答了原本应该触发的闲聊;另外,同名实体触发的优先级问题也是需要解决的。
技术实现思路
本专利技术的目的是提供知识图谱中实体热门度的计算方法及装置、知识图谱中实体热门度在人机对话中的应用方法及装置,旨在解决现有的人工智能对话系统在人机对话过程中遇到同名实体时,无法根据用户输入句的意图确定应该触发知识类回答还是闲聊类回答,以及同名实体触发的优先级无法确定的问题。本专利技术解决其技术问题所采用的技术方案是:一种知识图谱中实体热门度的计算方法,包括:抓取知识图谱中实体的百科页面,对所述实体的百科页面的基础属性进行统计,获取基础属性的统计结果;所述基础属性包括属性数量、链接数量、页面篇幅、出品日期/上映时间、百科页面浏览次数统计、百科页面最近更新统计、日常用语的实体出现频率中的一种或多种;根据所述基础属性的统计结果,设置各基础属性的初始热门度;对各基础属性的初始热门度进行归一化处理,获取各基础属性的归一化热门度;获取各基础属性的加权系数;根据各基础属性的加权系数,对各基础属性的归一化热门度进行加权求和,获取实体热门度。在上述实施例的基础上,进一步地,还包括:定期更新实体热门度。在上述实施例的基础上,进一步地,所述定期更新实体热门度的步骤,具体为:对各基础属性的初始热门度进行更新;根据更新后的各基础属性的初始热门度,对各基础属性的归一化热门度进行更新;根据更新后的各基础属性的归一化热门度,对实体热门度进行更新;或者,根据搜索网站的热搜榜单、排名及排名变化,获取热搜数据;对社区网站的短评与长评按时间序列进行计数,获取社区数据;对人机对话记录中的实体按时间序列进行计数,获取对话数据;将所述热搜数据、所述社区数据、所述对话数据作为标定数据集,根据所述标定数据集,对各基础属性的加权系数进行更新;根据更新后的各基础属性的加权系数,对实体热门度进行更新。在上述任意实施例的基础上,进一步地,还包括:对知识图谱中相邻实体的实体热门度进行修正。一种知识图谱中实体热门度在人机对话中的应用方法,包括:根据用户输入的信息,获取知识类回答和闲聊类回答;所述知识类回答中包括实体;上述任一项实施例中的知识图谱中实体热门度的计算方法;根据实体热门度,获取知识类回答分数;获取闲聊类回答分数;根据所述知识类回答分数、所述闲聊类回答分数,对知识类回答和闲聊类回答进行排序,获取排序结果;根据所述排序结果,对用户进行回应。一种知识图谱中实体热门度的计算装置,包括:统计模块,用于抓取知识图谱中实体的百科页面,对所述实体的百科页面的基础属性进行统计,获取基础属性的统计结果;所述基础属性包括属性数量、链接数量、页面篇幅、出品日期/上映时间、百科页面浏览次数统计、百科页面最近更新统计、日常用语的实体出现频率中的一种或多种;设置模块,用于根据所述基础属性的统计结果,设置各基础属性的初始热门度;归一化模块,用于对各基础属性的初始热门度进行归一化处理,获取各基础属性的归一化热门度;系数获取模块,用于获取各基础属性的加权系数;计算模块,用于根据各基础属性的加权系数,对各基础属性的归一化热门度进行加权求和,获取实体热门度。在上述实施例的基础上,进一步地,还包括:更新模块,用于定期更新实体热门度。在上述实施例的基础上,进一步地,所述更新模块用于:对各基础属性的初始热门度进行更新;根据更新后的各基础属性的初始热门度,对各基础属性的归一化热门度进行更新;根据更新后的各基础属性的归一化热门度,对实体热门度进行更新;或者,根据搜索网站的热搜榜单、排名及排名变化,获取热搜数据;对社区网站的短评与长评按时间序列进行计数,获取社区数据;对人机对话记录中的实体按时间序列进行计数,获取对话数据;将所述热搜数据、所述社区数据、所述对话数据作为标定数据集,根据所述标定数据集,对各基础属性的加权系数进行更新;根据更新后的各基础属性的加权系数,对实体热门度进行更新。在上述任意实施例的基础上,进一步地,还包括:修正模块,用于对知识图谱中相邻实体的实体热门度进行修正。一种知识图谱中实体热门度在人机对话中的应用装置,包括:回答获取模块,用于根据用户输入的信息,获取知识类回答和闲聊类回答;所述知识类回答中包括实体;上述任一项实施例中的知识图谱中实体热门度的计算装置;第一分数模块,用于根据实体热门度,获取知识类回答分数;第二分数模块,用于获取闲聊类回答分数;排序模块,用于根据所述知识类回答分数、所述闲聊类回答分数,对知识类回答和闲聊类回答进行排序,获取排序结果;回应模块,用于根据所述排序结果,对用户进行回应。本专利技术的有益效果是:本专利技术提供了知识图谱中实体热门度的计算方法及装置、知识图谱中实体热门度在人机对话中的应用方法及装置,通过对知识图谱中实体热门度的计算,将其应用在人机对话过程中,使知识类的问答的给分能有效得到定量化。本专利技术实现了知识类回答的自信分数设定,减少日常用语抢答闲聊类的回答;实现了在人与情感聊天机器人对话中的话题延伸,比如对话中聊到某一话题,机器人可以主动发问相关热门词条的应用;实现了知识类回答中对于实体多义词的处理,在对话上下文没出现其他线索时输出默认(热门度最高)实体词条的回答。附图说明下面结合附图和实施例对本专利技术进一步说明。图1示出了本专利技术实施例提供的知识图谱中实体热门度的计算方法的流程图;图2示出了本专利技术实施例提供的知识图谱中实体热门度的计算装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不限定本专利技术。具体实施例一如图1所示,本专利技术实施例提供了一种知识图谱中实体热门度的计算方法,包括以下步骤。步骤S101,抓取知识图谱中实体的百科页面,对所述实体的百科页面的基础属性进行统计,获取基础属性的统计结果;本专利技术实施例对基础属性不做限定,所述基础属性可以包括属性数量、链接数量、页面篇幅、出品日期/上映时间、百科页面浏览次数统计、百科页面最近更新统计、日常用语的实体出现频率中的一种或多种。步骤S102,根据所述基础属性的统计结果,设置各基础属性的初始热本文档来自技高网...
实体热门度的计算方法及装置、应用方法及装置

【技术保护点】
一种知识图谱中实体热门度的计算方法,其特征在于,包括:抓取知识图谱中实体的百科页面,对所述实体的百科页面的基础属性进行统计,获取基础属性的统计结果;所述基础属性包括属性数量、链接数量、页面篇幅、出品日期/上映时间、百科页面浏览次数统计、百科页面最近更新统计、日常用语的实体出现频率中的一种或多种;根据所述基础属性的统计结果,设置各基础属性的初始热门度;对各基础属性的初始热门度进行归一化处理,获取各基础属性的归一化热门度;获取各基础属性的加权系数;根据各基础属性的加权系数,对各基础属性的归一化热门度进行加权求和,获取实体热门度。

【技术特征摘要】
1.一种知识图谱中实体热门度的计算方法,其特征在于,包括:抓取知识图谱中实体的百科页面,对所述实体的百科页面的基础属性进行统计,获取基础属性的统计结果;所述基础属性包括属性数量、链接数量、页面篇幅、出品日期/上映时间、百科页面浏览次数统计、百科页面最近更新统计、日常用语的实体出现频率中的一种或多种;根据所述基础属性的统计结果,设置各基础属性的初始热门度;对各基础属性的初始热门度进行归一化处理,获取各基础属性的归一化热门度;获取各基础属性的加权系数;根据各基础属性的加权系数,对各基础属性的归一化热门度进行加权求和,获取实体热门度。2.根据权利要求1所述的知识图谱中实体热门度的计算方法,其特征在于,还包括:定期更新实体热门度。3.根据权利要求2所述的知识图谱中实体热门度的计算方法,其特征在于,所述定期更新实体热门度的步骤,具体为:对各基础属性的初始热门度进行更新;根据更新后的各基础属性的初始热门度,对各基础属性的归一化热门度进行更新;根据更新后的各基础属性的归一化热门度,对实体热门度进行更新;或者,根据搜索网站的热搜榜单、排名及排名变化,获取热搜数据;对社区网站的短评与长评按时间序列进行计数,获取社区数据;对人机对话记录中的实体按时间序列进行计数,获取对话数据;将所述热搜数据、所述社区数据、所述对话数据作为标定数据集,根据所述标定数据集,对各基础属性的加权系数进行更新;根据更新后的各基础属性的加权系数,对实体热门度进行更新。4.根据权利要求1或2所述的知识图谱中实体热门度的计算方法,其特征在于,还包括:对知识图谱中相邻实体的实体热门度进行修正。5.一种知识图谱中实体热门度在人机对话中的应用方法,其特征在于,包括:根据用户输入的信息,获取知识类回答和闲聊类回答;所述知识类回答中包括实体;权利要求1-4任一项所述的知识图谱中实体热门度的计算方法;根据实体热门度,获取知识类回答分数;获取闲聊类回答分数;根据所述知识类回答分数、所述闲聊类回答分数,对知识类回答和闲聊类回答进行排序,获取排序结果;根据所述排序结果,对用户进行回应。6.一种知识图谱中实体热门度的计算装置,其特征在于,包括:统计模块,用于抓取知识图谱...

【专利技术属性】
技术研发人员:简仁贤陈思聪产文贾陆华叶俊杰董彦均袁皓曹军乔巍靳颖超
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1