人机交互中基于标准问创建扩展问的方法和装置制造方法及图纸

技术编号:20160505 阅读:33 留言:0更新日期:2019-01-19 00:13
本发明专利技术提供了一种人机交互中基于标准问创建扩展问的方法和装置。所述方法包括:基于标准问所属的数据范围从人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与标准问的问句相似度计算以获得相似问句集;以及对相似问句集执行主语修改以获得标准问的扩展问;基于标准问所属的数据范围从内部数据源或外部数据源采集数据包括:若标准问属于内部数据,则从内部数据源调用所有内部数据,以及若标准问属于外部数据,则通过外部数据源进行搜索爬取;对通过外部数据源爬取到的所采集数据进行整理以过滤无用数据,执行问句相似度计算是以整理后的所采集数据为对象来执行的。

【技术实现步骤摘要】
人机交互中基于标准问创建扩展问的方法和装置本申请是申请日为2015年7月23日,申请号为201510438526.2,专利技术创造名称为“用于基于标准问创建扩展问的方法和装置”的分案申请。
本专利技术涉及知识库的编辑与扩展,尤其涉及人机交互中基于标准问创建扩展问的方法和装置。
技术介绍
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异构数据通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企业会生成各自的“专属知识”;同领域企业的知识中可以总结出“领域语义库”,如图中的“电信领域语义库”;多个行业的知识还可以总结成“通用语义库和知识库”。知识库的编辑与扩展对于人工智能语义识别系统尤其重要。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。根据上面目的,本专利技术实施例提供一种人机交互中基于标准问创建扩展问的方法,标准问和扩展问用于人工智能语义识别系统中,包括:基于所述标准问所属的数据范围从所述人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集;以及对所述相似问句集执行主语修改以获得所述标准问的扩展问;所述基于所述标准问所属的数据范围从内部数据源或外部数据源采集数据包括:若所述标准问属于内部数据,则从所述内部数据源调用所有内部数据,以及若所述标准问属于外部数据,则通过所述外部数据源进行搜索爬取;对通过所述外部数据源爬取到的所采集数据进行整理以过滤无用数据,所述执行问句相似度计算是以整理后的所采集数据为对象来执行的。在一个实施例中,若所述标准问所属领域的词库在所述人工智能语义识别系统的知识库中已存在,则所属标准问为内部数据,否则为外部数据。在一个实施例中,所述内部数据源为所述人工智能语义识别系统的知识库中已存在的关于所述标准问的所属领域的词库,以及所述外部数据源包括与所述标准问的所属领域相关的第三方数据库。在一个实施例中,所述问句相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者来执行的。在一个实施例中,所述相似问句集是与所述标准问的相似度超过预定阈值的问句的集合。在一个实施例中,所述方法还包括至少部分地基于人工选择对所述相似问句集执行筛选以过滤无用数据,所述问句主语修改是对调整后的所述相似问句集来执行的。在一个实施例中,对所述相似问句集执行主语修改是至少部分地基于人工选择来执行的。根据上面目的,本专利技术实施例还提供了一种人机交互中基于标准问创建扩展问的装置,标准问和扩展问用于人工智能语义识别系统中,包括:数据采集单元,用于基于标准问所属的数据范围从所述人工智能语义识别系统的内部数据源或外部数据源采集数据;问句相似度计算单元,用于以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集;以及主语修改单元,用于对所述相似问句集执行主语修改以获得所述标准问的扩展问;所述数据采集单元包括:调用单元,以用于响应于所述标准问属于内部数据,从所述内部数据源调用所有内部数据;以及爬取单元,以用于响应于所述标准问属于外部数据,通过所述外部数据源进行搜索爬取;整理单元,以用于对通过所述外部数据源爬取到的所采集数据进行整理以过滤无用数据。在一个实施例中,所述内部数据源为所述人工智能语义识别系统的知识库中已存在的关于所述标准问的所属领域的词库,以及所述外部数据源包括与所述标准问的所属领域相关的第三方数据库。在一个实施例中,所述主语修改单元至少部分地基于人工选择对所述相似问句集执行主语修改。附图说明在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。图1是示出了根据本专利技术的一方面的创建扩展问的方法的流程图;图2是示出了根据本专利技术的一方面的创建扩展问的装置的框图。具体实施方式以下结合附图和具体实施例对本专利技术作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本专利技术的保护范围进行任何限制。知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本专利技术中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式。例如,若对于收音机的电台切换的标准问形式是“换一个电台”,那么用户可能使用的命令是“切换一个电台”,机器也需要能够识别用户表达的是同一个意思。因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展问与标准问表达形式有略微差异,但是表达相同的含义。传统上,往往依赖人工“想”的形式,想出一个标准问尽可能多的扩展问,但是非常耗费人力,而且“漏想”的概率很高。在本专利技术中,通过大数据分析聚合的方式,最大的利用了已有产品的日志数据与外部数据。快速定位到了语义扩展问的内容,将原来的“想”扩展问,改成了判定其内容准确性。图1是示出了根据本专利技术的一方面的创建扩展问的方法100的流程图。如图1所示,首先提供一标准问,作为扩展的基础。例如,该标准问可为“换一个扫地模式”。在步骤101,可对该标准问的数据范围进行判定。一般而言,数据范围可以分为内部数据和外部数据。这里的内部数据和外部数据是相对于人工智能语义识别系统的知识库而言的。例如,若该标准问是该知识库内已有的数据,则为内部数据,否则为外部数据。更具体地,若该标准问所属的语义领域是知识库中已有的领域,则为内部数据,否则为外部数据。以上述“换一个扫地模式”为例,该标准问用于扫地机器人,属于家电智能领域,若系统的知识库内已经有关于家电智能领域的词库,则该标准问为内部数据,否则该标准问为外部数据。在步骤102,为该标准问添加属性标签,用以指示该标准问的数据范围。在步骤103,根据标准问的属性标签判断该标准问的数据范围。如上所述,该数据范围包括内部数据和外部数据。不同的数据范围对应不同的处理。若该标准问为内部数据,则执行步骤104,即内部数据调用。较优地,该内部数据可以是该标准问所属的语义领域的所有内部数据。例如,该若该标准问属于家电本文档来自技高网...

【技术保护点】
1.一种人机交互中基于标准问创建扩展问的方法,其特征在于,标准问和扩展问用于人工智能语义识别系统中,包括:基于所述标准问所属的数据范围从所述人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集;以及对所述相似问句集执行主语修改以获得所述标准问的扩展问;所述基于所述标准问所属的数据范围从内部数据源或外部数据源采集数据包括:若所述标准问属于内部数据,则从所述内部数据源调用所有内部数据,以及若所述标准问属于外部数据,则通过所述外部数据源进行搜索爬取;对通过所述外部数据源爬取到的所采集数据进行整理以过滤无用数据,所述执行问句相似度计算是以整理后的所采集数据为对象来执行的。

【技术特征摘要】
1.一种人机交互中基于标准问创建扩展问的方法,其特征在于,标准问和扩展问用于人工智能语义识别系统中,包括:基于所述标准问所属的数据范围从所述人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集;以及对所述相似问句集执行主语修改以获得所述标准问的扩展问;所述基于所述标准问所属的数据范围从内部数据源或外部数据源采集数据包括:若所述标准问属于内部数据,则从所述内部数据源调用所有内部数据,以及若所述标准问属于外部数据,则通过所述外部数据源进行搜索爬取;对通过所述外部数据源爬取到的所采集数据进行整理以过滤无用数据,所述执行问句相似度计算是以整理后的所采集数据为对象来执行的。2.如权利要求1所述的方法,其特征在于,若所述标准问所属领域的词库在所述人工智能语义识别系统的知识库中已存在,则所属标准问为内部数据,否则为外部数据。3.如权利要求2所述的方法,其特征在于,所述内部数据源为所述人工智能语义识别系统的知识库中已存在的关于所述标准问的所属领域的词库,以及所述外部数据源包括与所述标准问的所属领域相关的第三方数据库。4.如权利要求1所述的方法,其特征在于,所述问句相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者来执行的。5.如权利要求1所述的方法,其特征在于,所述相似问句集是与所述标准问的相似度超过预定阈值的问句的集合。...

【专利技术属性】
技术研发人员:蔡宏伟朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1