数据处理方法、装置及电子设备制造方法及图纸

技术编号:21629629 阅读:69 留言:0更新日期:2019-07-17 11:18
本发明专利技术实施例提供了一种数据处理方法、装置及电子设备,其中方法包括:获取针对应用环境的问题;将所述问题分别输入到多个不同类型的问答模型中进行处理,生成与各个模型对应的中间答案;基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出。本发明专利技术实施例通过综合利用知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个模型来生成答案,实现了多种模型的优势互补,克服了由单一模型导致的片面性和误差,提升了答案的准确率及全面性。

Data Processing Method, Device and Electronic Equipment

【技术实现步骤摘要】
数据处理方法、装置及电子设备
本专利技术实施例涉及一种数据处理方法、装置及电子设备,属于计算机

技术介绍
在目前的自动问答技术中,较常见的是FAQ(FrequentlyAskedQuestion,常见问题解答)技术,其通过问答对的检索方式,获取同目标问题相似的候选问题,并将候选问题的答案作为目标问题的答案进行输出。对于问答对的检索方式而言,一方面问答对需要人工进行提炼和归纳总结,非常繁琐,例如需要将新闻、百科、业务文档中的提问点进行逐个罗列,然后人工编写回答;另一方面人工往往只能列举高频问题,对长尾问答对无法很好覆盖。随着知识库的兴起和结构化查询技术的推出,基于知识图谱的问答检索方式也逐渐应用到自动问答技术中。基于知识图谱而自动构建的问答,首先需要进行一整套知识工程方法,例如包括实体检测、实体链接、属性填充等,从文本中构建出结构化的知识图谱,并在知识图谱基础上进行问答,整个过程较为繁琐。近年来,随着深度学习在NLP(NatureLanguageProcessing,自然语言处理)的应用,机器阅读理解同样作为自动问答技术的一种技术被逐步采用。机器阅读理解在一定程度降低了前期的人工提取或整理工作,借助端到端的训练也降低了多阶段处理引入的误差,但对于用于回答问题的篇章定位,及长篇章带来的性能影响也会大大降低准确率。综上所述,现有技术中,上述三种自动问答技术均有各自的优缺点,无法满足日益复杂的自动问答环境的需求。
技术实现思路
本专利技术实施例提供了一种数据处理方法、装置及电子设备,有效结合多个自动问答模型的特点,实现优势互补,以应对复杂的自动问答环境。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供了一种数据处理方法,包括:获取针对应用环境的问题;将所述问题分别输入到多个不同类型的问答模型中进行处理,生成与各个模型对应的中间答案,其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据,所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个;基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出。第二方面,提供了一种数据处理方法,包括:获取所述应用环境中的第一文本数据,并对所述第一文本数据进行分类处理,提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据;将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工,生成各个模型的模型数据并进行存储。第三方面,提供了一种数据处理装置,包括:问题获取模块,用于获取针对应用环境的问题;模型处理模块,用于将所述问题分别输入到多个不同类型的问答模型中进行处理,生成与各个模型对应的中间答案,其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据,所述模型数据来自于对所述应用环境的第一文本数据的提取和加工,所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个;答案输出模块,用于基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出。第四方面,提供了一种数据处理装置,包括:环境文本获取模块,用于获取所述应用环境中的第一文本数据,并对所述第一文本数据进行分类处理,提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据;模型数据生成模块,用于将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工,生成各个模型的模型数据并进行存储。第五方面,提供了一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于:获取针对应用环境的问题;将所述问题分别输入到多个不同类型的问答模型中进行处理,生成与各个模型对应的中间答案,其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据,所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个;基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出。第六方面,提供了一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于:获取所述应用环境中的第一文本数据,并对所述第一文本数据进行分类处理,提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据;将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工,生成各个模型的模型数据并进行存储。本专利技术实施例的数据处理方法、装置及电子设备,通过综合利用多个问答模型来生成答案,实现了多种模型的优势互补,克服了由单一模型导致的片面性和误差,提升了答案的准确率及全面性上。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明图1为本专利技术实施例的数据处理系统的结构示意图。图2为本专利技术实施例的数据处理方法的流程图之一。图3为本专利技术实施例的数据处理方法的流程图之二。图4为本专利技术实施例的数据处理装置的结构示意图之一。图5为本专利技术实施例的数据处理装置的结构示意图之二。图6为本专利技术实施例的电子设备的结构示意图之一。图7为本专利技术实施例的电子设备的结构示意图之二。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。术语解释:FAQ:FrequentlyAskedQuestion常见问题解答自动问答技术:自动问答是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。机器阅读理解:一种自动问答技术,旨在让机器阅读文本,在理解文本内在含义的基础上进行自动问答。知识图谱:由知识点相互连接而成的语义网络,常用来进行知识推理和自动问答。本专利技术实施例的技术原理在于将知识图谱模型、FAQ模型以及机器阅读理解模型进行有机结合,使各个模型分别处理能发挥其优势的结构化数据、半结构化数据以及非结构化数据,并通过一定的策略对各个模型输出的中间答案进行筛选或者评估,选择出较为优选的中间答案进行输出,使得各个模型之间构成优势互补,从而能够应对更加复杂的应用环境,也提升了答案的准确率及全面性。如图1所示,其为本专利技术实施例的数据处理系统的结构示意图。该系统作为实际的一个示例,其包括云端的服务器以及第一终端和第二终端。自动问答的数据处理部分可以设置于云端的服务器中,该服务器与第一终端和第二终端对接,其中第一终端用于向服务器输入问题,第二终端用于向服务器中输入与应用环境相关的第一文本数据,当然在实际应用中,第一终端和第二终端也可以是同一终端。这里所说的应用环境是指一个自动问答所针对的信息范畴,比如应用环境可以一次大会,其中该大会的数据涉及大会的议程、参与人员、大会内容等信息,再例如,应用环境可以是某个历史古迹的相关信息等,针对这样的应用环境来构建自动问答的数据处理系统,从而服务于针对这些应用本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取针对应用环境的问题;将所述问题分别输入到多个不同类型的问答模型中进行处理,生成与各个模型对应的中间答案,其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据,所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个;基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取针对应用环境的问题;将所述问题分别输入到多个不同类型的问答模型中进行处理,生成与各个模型对应的中间答案,其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据,所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个;基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出。2.根据权利要求1所述的方法,其特征在于,所述多个不同类型的问答模型包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个,所述知识图谱模型的模型数据为结构化数据,所述FAQ模型的模型数据为半结构化数据,所述机器阅读理解模型的模型数据为非结构化数据。3.根据权利要求2所述的方法,其特征在于,所述知识图谱模型的模型数据包括基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构,将所述问题输入到知识图谱模型进行处理,生成与该知识图谱模型对应的中间答案包括:将对所述问题进行结构化处理,抽取出实体或属性信息,输入到知识图谱模型中的问题结构化的搜索引擎进行搜索,获取与所述实体对应的属性或与所述属性信息对应的属性值,并确定与该属性或该属性值对应的知识点作为该知识图谱模型输出的中间答案;和/或,所述FAQ模型的模型数据包括具有基于问题构建的倒排索引的问题/答案对,将所述问题输入到FAQ模型进行处理,生成与所述FAQ模型对应的答案包括:将所述问题输入到FAQ模型中的FAQ问题搜索引擎进行答案搜索,生成相似问题的答案排序,选择排名最高的相似问题的答案作为该FAQ模型输出的中间答案;和/或,所述机器阅读理解模型的模型数据包括具有按照主题和/或段落进行索引的多个第二文本数据,将所述问题输入到机器阅读理解模型进行处理,生成与所述机器阅读理解模型对应的答案包括:将所述问题输入到机器阅读理解模型中的文档搜索引擎进行搜索,通过所述主题和/或分段的索引确定与所述问题相关的第二文本数据,然后将所述问题作为机器阅读理解处理的输入,对该第二文本数据执行机器阅读处理,生成该机器阅读理解模型输出的中间答案。4.根据权利要求2所述的方法,其特征在于,基于预设的答案输出策略,对各个模型生成的中间答案进行处理,生成最终答案并进行输出包括:将各个模型生成的多个中间答案直接作为最终答案输出;或者,对各个模型生成的中间答案进行基于置信度的打分,选择分数最高的中间答案作为最终答案进行输出;或者,对各个模型生成的中间答案的文本内容进行覆盖率分析,选择覆盖率最高的文本内容作为最终答案进行输出。5.根据权利要求2所述的方法,其特征在于,在获取针对应用环境的问题后,还包括:对所述问题进行归一化处理,使得所述问题能够适应所述知识图谱模型、FAQ模型以及机器阅读理解模型中任意多个模型的输入格式要求。6.根据权利要求2所述的方法,其特征在于,在获取针对应用环境的问题之前还包括:获取所述应用环境中的第一文本数据,并对所述第一文本数据进行分类处理,提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据;将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照知识图谱模型,FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工,生成各个模型的模型数据并进行存储。7.根据权利要求6所述的方法,其特征在于,将所述结构化数据按照所述知识图谱模型的数据形式要求进行加工,生成该知识图谱模型的模型数据包括:将所述结构化数据加工为基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构;和/或,将所述半结构化数据按照所述FAQ模型的数据形式要求进行加工,生成该FAQ模型的模型数据包括:对所述半结构化数据中的答案进行文本聚类,获取所述半结构化数据中问题的多种表达方式,并基于该问题构建倒排索引,生成具有基于问题构建的倒排索引的问题/答案对;和/或,将所述非结构化数据按照所述机器阅读理解模型的数据形式要求进行加工,生成该机器阅读理解模型的模型数据包括:按照主题和/或段落将所述非结构化数据划分为多个第二文本数据,并按照主题和/或段落建立索引。8.根据权利要求1所述的方法,其特征在于,所述模型数据来自于对所述应用环境的第一文本数据的提取和加工。9.一种数据处理方法,其特征在于,包括:获取所述应用环境中的第一文本数据,并对所述第一文本数据进行分类处理,提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据;将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工,生成各个模型的模型数据并进行存储。10.根据权利要求9所述的方法,其特征在于,所述将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工包括:将所述结构化数据、半结构化数据以及非结构化数据中的任意多个...

【专利技术属性】
技术研发人员:李生吴晨夏江南
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1