问答抽取方法、装置及终端制造方法及图纸

技术编号:15499881 阅读:54 留言:0更新日期:2017-06-03 21:59
一种问答抽取方法、装置及终端,问答抽取方法包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。本发明专利技术技术方案实现了对人工客服问答数据的抽取。

Question and answer extraction method, apparatus and terminal

A question and answer extraction method, device and terminal, including the question and answer extraction method: clustering of at least a portion of the question answering data in question, to get the clustering results, the answering data including records answering the question of artificial customer service, the clustering result including a plurality of groups; the at least part of the answer corresponding to the question the question of clustering results are grouped. The technical proposal of the invention realizes the extraction of the artificial customer service question and answer data.

【技术实现步骤摘要】
问答抽取方法、装置及终端
本专利技术涉及语言处理
,尤其涉及一种问答抽取方法、装置及终端。
技术介绍
随着智能问答技术的发展,在现有的内置有问答系统的智能终端中,对于用户输入问题,该智能终端可以响应用户的问题输出对应的答案。但是,现有的终端存在输出的答案与用户的问题不匹配的情况,以及针对用户的问题回答不上来的情况。那么在使用智能终端时,上述情况将导致对用户问题回答的不准确或缺乏有效应答,用户体验差。
技术实现思路
本专利技术解决的技术问题是如何实现对人工客服问答数据的抽取,用以提高问答准确性。为解决上述技术问题,本专利技术实施例提供一种问答抽取方法,问答抽取方法包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。可选的,所述对问答数据中的至少一部分问句进行聚类之前包括:获取待优化业务类型的关键词列表;利用所述关键词列表对所述问答数据中的问句进行过滤,以得到过滤后的问句,所述问句聚类结果是对所述过滤后的问句进行聚类得到的。可选的,所述对所述过滤后的问答数据中问句进行聚类包括:基于分词词典对所述过滤后的问句进行分词,以得到第一分词结果;基于所述第一分词结果对所述过滤后的问句进行关键词提取处理,以得到关键词;基于所述关键词进行分组,以得到所述问句聚类结果的多个组,其中,包括相同关键词的所述问句处于同一组。可选的,所述对所述过滤后的问句进行聚类还包括:对处于每一组内的问句进行聚类,以得到每一组的多个类。可选的,所述对处于每一组内的所述问句进行聚类包括:计算所述每一组内的问句中每两个问句之间的语义相似度;如果所述语义相似度达到相似度阈值,则确定所述两个问句为相似句;计算所述每一组内每一问句的相似句的数量;确定每一组内所述相似句的数量最大的问句为该组的聚类中心;对于每一组内除所述聚类中心以外的每一其他问句,如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句归类至所述聚类中心所在的类,否则将所述其他问句作为新的聚类中心,直至该组内的所有问句都完成归类。可选的,所述对处于每一组内的所述问句分别进行聚类还包括:如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句的相似问句划分至所述聚类中心所在的类。可选的,所述对处于每一组内的所述问句分别进行聚类还包括:将所述其他问句的相似问句标记为聚类边缘;对于未完成归类的问句,如果所述问句为所述聚类边缘的相似问句,则将所述问句作为新的聚类中心。可选的,采用以下一种或多种方式计算所述相似度:编辑距离、Jaccard距离、WMD距离。可选的,采用DensityPeaks算法对所述每一组内的问句进行聚类。可选的,所述对所述过滤后的问答数据中问句进行聚类之后还包括:统计所述每一组内的问句的频次以及所述每一组内的问句的数量;基于所述每一组内的问句的数量对所述多个组进行排序,以及基于每一组内的各个类内所有问句的所述频次之和对所述每一组内的多个类进行排序。可选的,所述获取待优化业务类型的关键词列表包括以下步骤的一步或多步:针对所述待优化业务类型从预设词类表中获取第一业务关键词,以加入所述关键词列表;将所述关键词加入所述关键词列表。可选的,所述针对所述待优化业务类型从预设词类表中获取第一业务关键词之后还包括:将所述第一业务关键词加入所述分词词典,对所述第一分词结果进行关键词提取是基于所述分词词典完成的。可选的,所述将所述至少一部分问句的回答对应于所述问句聚类结果进行分组之前,还包括:选取距离每一问句的提问时间最近的设定数量的所述回答;过滤反问句式的所述回答;基于客服礼貌用语库对所述回答进行过滤;过滤无用回答句式的所述回答。可选的,所述利用所述关键词列表对所有问答数据进行过滤包括:当问答数据中的问句包括至少一个所述关键词列表中的词语时,保留所述问句。可选的,所述利用所述关键词列表对所有问答数据进行过滤之后还包括以下一个或多个步骤:滤除仅包括单个词的问句;利用预设词语过滤所述问句;去除所述问句中的链接;查询知识库中所述待优化业务类型的知识点,去除可匹配到答案的所述问句;整合所述问答数据之前的历史数据中被过滤掉的问句。可选的,所述预设词语包括以下一种或多种:疑问词、预设的现象词和否定词。可选的,所述对问答数据中至少一部分问句进行聚类之前还包括:过滤不符合设定格式的所述问答数据,其中,所述设定格式包括会话编号字段、问句/回答标识字段、日期字段以及句子内容字段;将所述问答数据统一为文本格式。可选的,所述问答抽取方法还包括:对分组后的所述回答进行聚类,以得到回答聚类结果。可选的,采用K均值算法对所述至少一部分问句进行聚类。可选的,所述问答抽取方法还包括:将所述问句聚类结果以及分组后的回答加入知识库,所述知识库用于自动问答交互。为解决上述技术问题,本专利技术实施例还公开了一种问答抽取装置,问答抽取装置包括问句聚类模块,用以对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;回答分组模块,用以将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。为解决上述技术问题,本专利技术实施例还公开了一种终端,所述终端包括所述问答抽取装置。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术实施例通过对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。本专利技术技术方案通过对人工客服的问答记录的至少一部分问句进行聚类,将至少一部分问句划分为多个组,进而根据聚类结果可以将至少一部分问句的回答也相应地划分为多个组,至此,可以实现对人工客服问答数据的分类和抽取,进而可以从大量的人工客服的问答记录中确定有用、正确的问答对;同时,通过首先对问句进行聚类,然后对回答进行分组的方式,可以减小计算量。进一步地,将所述问句聚类结果以及分组后的回答加入知识库,所述知识库用于自动问答交互。本专利技术实施例通过将人工客服的问答记录聚类和分组后的问句以及回答加入知识库,实现了对知识库的完善和补充,避免了现有技术中问答系统输出的答案与用户的问题不匹配的情况,以及针对用户的问题回答不上来的情况,提高了问答系统回答的准确率,改善了用户体验。进一步,获取待优化业务类型的关键词列表包括以下步骤的一步或多步:针对所述待优化业务类型从预设词类表中获取第一业务关键词,以加入所述关键词列表;将所述关键词加入所述关键词列表。本专利技术技术方案的关键词列表可以同时包括表示待优化业务的第一业务关键词,以及对问答数据中的问句提取到的关键词,通过将两种关键词结合加入关键词列表,从而提高了利用关键词列表进行过滤的准确性,进而提高了问答抽取的准确性。进一步,对处于每一组内的问句进行聚类,以得到每一组的多个类。本专利技术实施例首先对问答数据中至少一部分问句进行聚类得到多个组,然后对每一组进行聚类得到多个类,可以提高聚类的速度,实现快速有效的聚类过程。同时,通过两次聚类过程可以提高聚类的准确性,从而进一步提高问答抽取的本文档来自技高网...
问答抽取方法、装置及终端

【技术保护点】
一种问答抽取方法,其特征在于,包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。

【技术特征摘要】
1.一种问答抽取方法,其特征在于,包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。2.根据权利要求1所述的问答抽取方法,其特征在于,所述对问答数据中的至少一部分问句进行聚类之前还包括:获取待优化业务类型的关键词列表;利用所述关键词列表对所述问答数据中的问句进行过滤,以得到过滤后的问句,所述问句聚类结果是对所述过滤后的问句进行聚类得到的。3.根据权利要求2所述的问答抽取方法,其特征在于,所述对所述过滤后的问句进行聚类包括:基于分词词典对所述过滤后的问句进行分词,以得到第一分词结果;基于所述第一分词结果对所述过滤后的问句进行关键词提取处理,以得到关键词;基于所述关键词进行分组,以得到所述问句聚类结果的多个组,其中,包括相同关键词的所述问句处于同一组。4.根据权利要求3所述的问答抽取方法,其特征在于,所述对所述过滤后的问句进行聚类还包括:对处于每一组内的问句进行聚类,以得到每一组的多个类。5.根据权利要求4所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句进行聚类包括:计算所述每一组内的问句中每两个问句之间的语义相似度;如果所述语义相似度达到相似度阈值,则确定所述两个问句为相似句;计算所述每一组内每一问句的相似句的数量;确定每一组内所述相似句的数量最大的问句为该组的聚类中心;对于每一组内除所述聚类中心以外的每一其他问句,如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句归类至所述聚类中心所在的类,否则将所述其他问句作为新的聚类中心,直至该组内的所有问句都完成归类。6.根据权利要求5所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句分别进行聚类还包括:如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句的相似问句划分至所述聚类中心所在的类。7.根据权利要求6所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句分别进行聚类还包括:将所述其他问句的相似问句标记为聚类边缘;对于未完成归类的问句,如果所述问句为所述聚类边缘的相似问句,则将所述问句作为新的聚类中心。8.根据权利要求5所述的问答抽取方法,其特征在于,根据以下一种或多种参数计算所述相似度:编辑距离、Jaccard距离、WMD距离。9.根据权利要求4所述的问答抽取方法,其特征在于,采用DensityPeaks算法对所述每一组内的问句进行聚类。10.根据权利要求4所述的问答抽取方法,其特征在于,所述对所述过滤后的问答数据中问句进行聚类之后还包括:统计所述每一组内的问句的频次以及所述每一组内的问句的数量;基于所述每一组内的问句的数量对所述多个组进行排序,以及基于每一组内的各个类内所有问句的所述频次之和对所述每一组内的多个类进行排序。11.根据权利要求3所述的问答抽取方法,其特征在于,所述获取待优化业务类型的关键词列表包括以下步骤的一步或多步:针对所述待优化业务类型从预设词类表中获取第一业务关键词,以加入所述关键词列表;将所述关键词加入所述关键词列表。12.根据权利要求11所述的问答抽取方法,其特征在于,所述针对所述待优化业务类型从预设词类表中获取第一业务关键词之后还包括:将所述第一业务关键词加入所述分词词典,对所述第一分词结果进行关键词提取是基于所述分词词典完成的。13.根据权利要求1所述的问答抽取方法,其特征在于,所述将所述至少一部分问句的回答对应于所述问句聚类结果进行分组之前,还包括:选取距离每一问句的提问时间最近的设定数量的所述回答;过滤反问句式的所述回答;基于客服礼貌用语库对所述回答进行过滤;过滤无用回答句式的所述回答。14.根据权利要求2所述的问答抽取方法,其特征在于,所述利用所述关键词列表对所有问答数据进行过滤包括:当问答数据中的问句包括至少一个所述关键词列表中的词语时,保留所述问句。15.根据权利要求2所述的问答抽取方法,其特征在于,所述利用所述关键词列表对所有问答数据进行过滤之后还包括以下一个或多个步骤:滤除仅包括单个词的问句;利用预设词语过滤所述问句;去除所述问句中的链接;查询知识库中所述待优化业务类型的知识点,去除可匹配到答案的所述问句;整合所述问答数据之前的历史数据中被过滤掉的问句。16.根据权利要求15所述的问答抽取方法,其特征在于,所述预设词语包括以下一种或多种:疑问词、预设的现象词和否定词。17.根据权利要求1所述的问答抽取方法,其特征在于,所述对问答数据中至少一部分问句进行聚类之前还包括:过滤不符合设定格式的所述问答数据,其中,所述设定格式包括会话编号字段、问句/回答标识字段、日期字段以及句子内容字段;将所述问答数据统一为文本格式。18.根据权利要求1所述的问答抽取方法,其特征在于,还包括:对分组后的所述回答进行聚类,以得到回答聚类结果。19.根据权利要求1所述的问答抽取方法,其特征在于,采用K均值算法对所述至少一部分问句进行聚类。20.根据权利要求1至19任一项所述的问答抽取方法,其特征在于,还包括:将所述问句聚类结果以及分组后的回答加入知识库,所述知识库用于自动问答交互。21.一种问答抽取装置,其特征在于,包括:问句聚类模块,用以对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记...

【专利技术属性】
技术研发人员:白杨张磊林涵朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1