对话数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：29330609 阅读：10 留言：0更新日期：2021-07-20 17:48

本申请公开了对话数据处理方法和装置，具体实现方案为：获取对话数据，并对对话数据进行解析，得到对话数据对应的各个问题和各个问题对应的问题答复；对各个问题答复进行分析，得到各个问题答复对应的各个分类标识、每个分类标识对应的各个问题答复和标准答复；将各个问题作为输入数据，将与输入的各个问题所对应的标准答复作为输出数据，训练得到信息确定模型，其中，信息确定模型用于表征基于每个问题对应的问题答复、各个分类标识对应的各个问题答复和各个分类标识，确定输入的每个问题与各个标准答复之间的对应结果。该方案通过在训练信息确定模型时，将问题和答案之间的相关性考虑其中，提高了答案召回的效率。

全部详细技术资料下载

【技术实现步骤摘要】
对话数据处理方法、装置、设备以及存储介质
本申请的实施例涉及计算机
，具体涉及人工智能
，尤其涉及对话数据处理方法和装置。
技术介绍
目前工业界主流自动问答系统为检索式问答系统，检索式问答系统主要包含两个模块，答案召回模块和答案匹配模块。当用户输入一个问题后，检索式问答系统首先会通过答案召回模块从问答知识库当中召回n个候选答案，然后通过问题答案匹配模块进行打分排序得到最终答案并返回给用户。一个高质量的检索式问答系统非常依赖于高质量的问答知识库，目前工业界构建检索式问答系统知识库主要通过人工编辑和基于对话日志挖掘两种方式。基于人工编辑构建问答知识库的速度太慢，只适用于一些小规模领域的问答场景，而基于对话日志挖掘构建的大规模检索式问答系统知识库通过对问题建立索引，当用户输入一个问题后，通过倒排索引或语义索引等方式召回候选问答对，其中只考虑问题和问题之间的相关性，没有考虑问题和答案之间的相关性。
技术实现思路
本申请提供了一种对话数据处理方法、装置、设备以及存储介质和一种用于生成信息的方法、装置、设备以及存储介质。根据本申请的第一方面，提供了一种对话数据处理方法，该方法包括：获取对话数据，并对对话数据进行解析，得到对话数据对应的各个问题和各个问题对应的问题答复；对各个问题答复进行分析，得到各个问题答复对应的各个分类标识、每个分类标识对应的各个问题答复和每个分类标识对应的标准答复，其中，各个分类标识基于对各个问题答复进行分类而得到，标准答复基于分类标识对应的各个问题答复而确定；将各个问...

【技术保护点】
1.一种对话数据处理方法，所述方法包括：/n获取对话数据，并对所述对话数据进行解析，得到所述对话数据对应的各个问题和各个问题对应的问题答复；/n对各个所述问题答复进行分析，得到各个所述问题答复对应的各个分类标识、每个所述分类标识对应的各个问题答复和每个所述分类标识对应的标准答复，其中，所述各个分类标识基于对各个所述问题答复进行分类而得到，所述标准答复基于所述分类标识对应的各个问题答复而确定；/n将各个问题作为输入数据，将与输入的各个问题所对应的标准答复作为输出数据，训练得到信息确定模型，其中，所述信息确定模型用于表征基于每个问题对应的所述问题答复、各个所述分类标识对应的各个问题答复和各个所述分类标识，确定输入的每个问题与各个所述标准答复之间的对应结果。/n

【技术特征摘要】
1.一种对话数据处理方法，所述方法包括：
获取对话数据，并对所述对话数据进行解析，得到所述对话数据对应的各个问题和各个问题对应的问题答复；
对各个所述问题答复进行分析，得到各个所述问题答复对应的各个分类标识、每个所述分类标识对应的各个问题答复和每个所述分类标识对应的标准答复，其中，所述各个分类标识基于对各个所述问题答复进行分类而得到，所述标准答复基于所述分类标识对应的各个问题答复而确定；
将各个问题作为输入数据，将与输入的各个问题所对应的标准答复作为输出数据，训练得到信息确定模型，其中，所述信息确定模型用于表征基于每个问题对应的所述问题答复、各个所述分类标识对应的各个问题答复和各个所述分类标识，确定输入的每个问题与各个所述标准答复之间的对应结果。

2.根据权利要求1所述的方法，其中，所述对各个所述问题答复进行分析，得到各个所述问题答复对应的各个分类标识、每个所述分类标识对应的各个问题答复和每个所述分类标识对应的标准答复，包括：
将各个所述问题答复进行向量化；
对向量化后的各个所述问题答复进行聚类，得到各个所述问题答复对应的各个分类标识和每个所述分类标识对应的各个问题答复，其中，所述聚类用于表征利用聚类算法将内容相近的各个所述问题答复进行聚合；
对每个所述分类标识对应的各个问题答复进行选取，得到相应所述分类标识对应的标准答复。

3.根据权利要求1所述的方法，其中，所述信息确定模型包括：第一确定子模型和第二确定子模型，所述第一确定子模型用于表征基于每个问题对应的所述问题答复和各个所述分类标识对应的各个问题答复，确定输入的每个问题与各个所述分类标识之间的对应结果，所述第二确定子模型用于表征基于所述第一确定子模型输出每个问题对应的所述分类标识，确定输入的每个问题与各个所述标准答复之间的对应结果；
所述将各个问题作为输入数据，将与输入的各个问题所对应的标准答复作为输出数据，训练得到信息确定模型，包括：
将各个问题作为输入数据，将与输入的各个问题所对应的分类标识作为输出数据，训练得到所述第一确定子模型；
将各个问题作为输入数据，将与输入的各个问题所对应的标准答复作为输出数据，训练得到所述第二确定子模型；
基于训练完成的所述第一确定子模型和训练完成的所述第二确定子模型，确定所述信息确定模型。

4.根据权利要求1所述的方法，在所述对各个所述问题答复进行分析，得到各个所述问题答复对应的各个分类标识、每个所述分类标识对应的各个问题答复和每个所述分类标识对应的标准答复之前，还包括：
对各个所述问题答复进行数据处理，得到处理后的各个所述问题答复，其中，所述数据处理包括：无效数据修正、数据合并、数据去重和数据归一化中的至少一项。

5.一种用于生成信息的方法，所述方法包括：
获取用户发送的问题；
将所述问题输入至预先训练的信息确定模型，生成所述问题对应的标准答复，其中，所述信息确定模型通过如权利要求1-4之一所述的方法训练得到。

6.根据权利要求5所述的方法，其中，所述信息确定模型包括标识确定子模型和答复确定子模型，所述标识确定子模型用于确定所述问题与分类标识之间的对应结果，所述答复确定子模型用于表征基于所述标识确定子模型输出的所述问题的分类标识，确定所述问题与标准答复之间的对应结果；
所述将所述问题输入至预先训练的信息确定模型，生成所述问题对应的标准答复，包括：
将所述问题输入至预先训练的所述标识确定子模型，生成所述问题对应的分类标识；
将生成的所述问题对应的分类标识输入至预先训练的答复确定子模型，生成所述问题对应的标准答复。

7.根据权利要求5所述的方法，还包括：
利用打分方法，对所述问题对应的标准答复进行打分，得到所述问题对应的标准答复的分值；
基于所述问题对应的各个标准答复的分值排序，确定所述问题的最终答复；
将所述最终答复信息发送至所述用户。

8.一种对话数据处理装置，所述装置包括：
获取单元，被配置成获取对话数据，并对所述对话数据进行解析，得到所述对话数据对应的各个问题和各个所述问题对应的问题答复；
分析单元，被配置成对各个所述问题答复进行分析，...

【专利技术属性】
技术研发人员：宋阳，陈蒙，
申请(专利权)人：京东数字科技控股股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人