数据处理方法、装置及电子设备制造方法及图纸

技术编号：21629629 阅读：69 留言：0更新日期：2019-07-17 11:18

本发明专利技术实施例提供了一种数据处理方法、装置及电子设备，其中方法包括：获取针对应用环境的问题；将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案；基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。本发明专利技术实施例通过综合利用知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个模型来生成答案，实现了多种模型的优势互补，克服了由单一模型导致的片面性和误差，提升了答案的准确率及全面性。

Data Processing Method, Device and Electronic Equipment

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置及电子设备
本专利技术实施例涉及一种数据处理方法、装置及电子设备，属于计算机

技术介绍
在目前的自动问答技术中，较常见的是FAQ(FrequentlyAskedQuestion，常见问题解答)技术，其通过问答对的检索方式，获取同目标问题相似的候选问题，并将候选问题的答案作为目标问题的答案进行输出。对于问答对的检索方式而言，一方面问答对需要人工进行提炼和归纳总结，非常繁琐，例如需要将新闻、百科、业务文档中的提问点进行逐个罗列，然后人工编写回答；另一方面人工往往只能列举高频问题，对长尾问答对无法很好覆盖。随着知识库的兴起和结构化查询技术的推出，基于知识图谱的问答检索方式也逐渐应用到自动问答技术中。基于知识图谱而自动构建的问答，首先需要进行一整套知识工程方法，例如包括实体检测、实体链接、属性填充等，从文本中构建出结构化的知识图谱，并在知识图谱基础上进行问答，整个过程较为繁琐。近年来，随着深度学习在NLP(NatureLanguageProcessing，自然语言处理)的应用，机器阅读理解同样作为自动问答技术的一种技术被逐步采用。机器阅读理解在一定程度降低了前期的人工提取或整理工作，借助端到端的训练也降低了多阶段处理引入的误差，但对于用于回答问题的篇章定位，及长篇章带来的性能影响也会大大降低准确率。综上所述，现有技术中，上述三种自动问答技术均有各自的优缺点，无法满足日益复杂的自动问答环境的需求。
技术实现思路
本专利技术实施例提供了一种数据处理方法、装置及电子设备，有效结合多个自动问答模型的特点，实现优势互补，以应对复杂的自动问答环境。为达...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：获取针对应用环境的问题；将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据，所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个；基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取针对应用环境的问题；将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据，所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个；基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。2.根据权利要求1所述的方法，其特征在于，所述多个不同类型的问答模型包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，所述知识图谱模型的模型数据为结构化数据，所述FAQ模型的模型数据为半结构化数据，所述机器阅读理解模型的模型数据为非结构化数据。3.根据权利要求2所述的方法，其特征在于，所述知识图谱模型的模型数据包括基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构，将所述问题输入到知识图谱模型进行处理，生成与该知识图谱模型对应的中间答案包括：将对所述问题进行结构化处理，抽取出实体或属性信息，输入到知识图谱模型中的问题结构化的搜索引擎进行搜索，获取与所述实体对应的属性或与所述属性信息对应的属性值，并确定与该属性或该属性值对应的知识点作为该知识图谱模型输出的中间答案；和/或，所述FAQ模型的模型数据包括具有基于问题构建的倒排索引的问题/答案对，将所述问题输入到FAQ模型进行处理，生成与所述FAQ模型对应的答案包括：将所述问题输入到FAQ模型中的FAQ问题搜索引擎进行答案搜索，生成相似问题的答案排序，选择排名最高的相似问题的答案作为该FAQ模型输出的中间答案；和/或，所述机器阅读理解模型的模型数据包括具有按照主题和/或段落进行索引的多个第二文本数据，将所述问题输入到机器阅读理解模型进行处理，生成与所述机器阅读理解模型对应的答案包括：将所述问题输入到机器阅读理解模型中的文档搜索引擎进行搜索，通过所述主题和/或分段的索引确定与所述问题相关的第二文本数据，然后将所述问题作为机器阅读理解处理的输入，对该第二文本数据执行机器阅读处理，生成该机器阅读理解模型输出的中间答案。4.根据权利要求2所述的方法，其特征在于，基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出包括：将各个模型生成的多个中间答案直接作为最终答案输出；或者，对各个模型生成的中间答案进行基于置信度的打分，选择分数最高的中间答案作为最终答案进行输出；或者，对各个模型生成的中间答案的文本内容进行覆盖率分析，选择覆盖率最高的文本内容作为最终答案进行输出。5.根据权利要求2所述的方法，其特征在于，在获取针对应用环境的问题后，还包括：对所述问题进行归一化处理，使得所述问题能够适应所述知识图谱模型、FAQ模型以及机器阅读理解模型中任意多个模型的输入格式要求。6.根据权利要求2所述的方法，其特征在于，在获取针对应用环境的问题之前还包括：获取所述应用环境中的第一文本数据，并对所述第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据；将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照知识图谱模型，FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。7.根据权利要求6所述的方法，其特征在于，将所述结构化数据按照所述知识图谱模型的数据形式要求进行加工，生成该知识图谱模型的模型数据包括：将所述结构化数据加工为基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构；和/或，将所述半结构化数据按照所述FAQ模型的数据形式要求进行加工，生成该FAQ模型的模型数据包括：对所述半结构化数据中的答案进行文本聚类，获取所述半结构化数据中问题的多种表达方式，并基于该问题构建倒排索引，生成具有基于问题构建的倒排索引的问题/答案对；和/或，将所述非结构化数据按照所述机器阅读理解模型的数据形式要求进行加工，生成该机器阅读理解模型的模型数据包括：按照主题和/或段落将所述非结构化数据划分为多个第二文本数据，并按照主题和/或段落建立索引。8.根据权利要求1所述的方法，其特征在于，所述模型数据来自于对所述应用环境的第一文本数据的提取和加工。9.一种数据处理方法，其特征在于，包括：获取所述应用环境中的第一文本数据，并对所述第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据；将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。10.根据权利要求9所述的方法，其特征在于，所述将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工包括：将所述结构化数据、半结构化数据以及非结构化数据中的任意多个...

【专利技术属性】
技术研发人员：李生，吴晨，夏江南，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人