用于智能问答系统中的标准问的扩展方法和装置制造方法及图纸

技术编号:15103399 阅读:48 留言:0更新日期:2017-04-08 13:41
本发明专利技术提供了一种用于智能问答系统中的标准问的扩展方法和装置。该智能问答系统包括标准问数据库,该扩展方法包括基于收集的日志集合从该标准问数据库中确定预定数目的标准问作为热点问题;以及扩展该些热点问题以获取扩展问。本发明专利技术由于无需对所有的标准问进行扩展,大大节省了扩展成本,提升了效率。

【技术实现步骤摘要】

本专利技术涉及人机交互
,尤其涉及用于智能问答系统中的标准问的扩展方法和装置
技术介绍
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异构数据通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企业会生成各自的“专属知识”;同领域企业的知识中可以总结出“领域语义库”,如图中的“电信领域语义库”;多个行业的知识还可以总结成“通用语义库和知识库”。知识库的编辑与扩展对于人工智能语义识别系统尤其重要。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。根据本专利技术的一方面,提供了一种用于智能问答系统中的标准问的扩展方法,该智能问答系统包括标准问数据库,该扩展方法包括:基于收集的日志集合从该标准问数据库中确定预定数目的标准问作为热点问题;以及扩展该些热点问题以获取扩展问。在一实例中,该确定预定数目的标准问作为热点问题包括:以该标准问数据库中的标准问为基础对该日志集合中的日志执行聚类分析,以使得各日志被聚集至该标准问数据库中的相应标准问;以及将该标准问数据库中的标准问按照所聚集日志量的多少从高到底进行排序,将排序最靠前的该预定数目的标准问作为热点问题。在一实例中,该数据库中排序最靠前的10%的标准问作为热点问题。在一实例中,该扩展该热点问题包括:从网络数据源采集数据;以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的相似问句集;以及对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。在一实例中,该从网络数据源采集数据包括:通过该网络数据源进行搜索爬取以采集数据。在一实例中,还包括对通过该网络数据源爬取到的所采集数据进行整理以过滤无用数据,该语义相似度计算是以整理后的所采集数据为对象来执行的。在一实例中,该网络数据源包括与该热点问题的所属领域相关的第三方数据库。在一实例中,该语义相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行的。在一实例中,每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。在一实例中,对该相似问句集执行主语修改是至少部分地基于人工选择来执行的。根据本专利技术的另一方面,提供了一种用于智能问答系统中的标准问的扩展装置,该智能问答系统包括标准问数据库,该扩展装置包括:判断单元,用于基于收集的日志集合从该标准问数据库中确定预定数目的标准问作为热点问题;以及扩展单元,用于扩展该些热点问题以获取扩展问。在一实例中,该判断单元包括:聚类分析单元,用于以该标准问数据库中的标准问为基础对该日志集合中的日志执行聚类分析,以使得各日志被聚集至该标准问数据库中的相应标准问;以及排序单元,用于将该标准问数据库中的标准问按照所聚集日志量的多少从高到底进行排序,将排序最靠前的该预定数目的标准问作为热点问题。在一实例中,该数据库中排序最靠前的10%的标准问作为热点问题。在一实例中,该扩展模块包括:数据采集单元,从网络数据源采集数据;语义相似度计算单元,用于以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的相似问句集;以及主语修改单元,用于对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。在一实例中,该数据采集单元包括:爬取单元,用于通过该网络数据源进行搜索爬取以采集数据。在一实例中,该装置还包括:整理单元,用于对通过该网络数据源爬取到的所采集数据进行整理以过滤无用数据。在一实例中,该网络数据源包括与该热点问题的所属领域相关的第三方数据库。在一实例中,该语义相似度计算单元是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行该语义相似度计算的。在一实例中,每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。在一实例中,该主语修改单元至少部分地基于人工选择对该相似问句集执行主语修改。与现有技术相比,本专利技术的有益效果包括:由于热点问题是用户最关心的问题,因此也是智能问答系统最常被问到的问题。如有获取了这些热点标准问的扩展问,则对于提升智能问答系统的答案正确率是极有帮助的。而且,由于无需对所有的标准问进行扩展,大大节省了扩展成本,提升了效率。附图说明在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。图1是示出了根据本专利技术的一方面的用于智能问答系统中的标准问的扩展方法的流程图;图2是示出了根据本专利技术的一方面的扩展热点问题的方法的流程图;图3是示出了根据本专利技术的一方面的用于智能问答系统中的标准问的扩展装置的框图;以及图4是示出了根据本专利技术的一方面的扩展热点问题的装置的框图。具体实施方式以下结合附图和具体实施例对本专利技术作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本专利技术的保护范围进行任何限制。知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本专利技术中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的本文档来自技高网...

【技术保护点】
一种用于智能问答系统中的标准问的扩展方法,所述智能问答系统包括标准问数据库,所述扩展方法包括:基于收集的日志集合从所述标准问数据库中确定预定数目的标准问作为热点问题;以及扩展所述热点问题以获取扩展问。

【技术特征摘要】
1.一种用于智能问答系统中的标准问的扩展方法,所述智能问答系统包括标准问数据
库,所述扩展方法包括:
基于收集的日志集合从所述标准问数据库中确定预定数目的标准问作为热点问题;以

扩展所述热点问题以获取扩展问。
2.如权利要求1所述的扩展方法,其特征在于,所述确定预定数目的标准问作为热点问
题包括:
以所述标准问数据库中的标准问为基础对所述日志集合中的日志执行聚类分析,以使
得各日志被聚集至所述标准问数据库中的相应标准问;以及
将所述标准问数据库中的标准问按照所聚集日志量的多少从高到低进行排序,将排序
最靠前的所述预定数目的标准问作为热点问题。
3.如权利要求2所述的扩展方法,其特征在于,所述数据库中排序最靠前的10%的标准
问作为热点问题。
4.如权利要求1所述的扩展方法,其特征在于,所述扩展所述热点问题包括:
从网络数据源采集数据;
以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的
相似问句集;以及
对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。
5.如权利要求4所述的扩展方法,其特征在于,所述从网络数据源采集数据包括:
通过所述网络数据源进行搜索爬取以采集数据。
6.如权利要求5所述的扩展方法,其特征在于,还包括对通过所述网络数据源爬取到的
所采集数据进行整理以过滤无用数据,所述语义相似度计算是以整理后的所采集数据为对
象来执行的。
7.如权利要求4所述的扩展方法,其特征在于,所述网络数据源包括与所述热点问题的
所属领域相关的第三方数据库。
8.如权利要求4所述的扩展方法,其特征在于,所述语义相似度计算是基于文本聚类分
析、LDA分析、或序列分析中的任一者或任意组合来执行的。
9.如权利要求4所述的扩展方法,其特征在于,每一热点问题的相似问句集是与该热点
问题的语义相似度超过预定阈值的问句的集合。
10.如权利要求4所述的扩展方法,其特征在于,对所述相似问句集执行主语修改是至
少部分地基于人工选择来执行的。
11.一种用于智能问答系统中的标准问的扩展装置,所述智能...

【专利技术属性】
技术研发人员:曾永梅张磊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1