A question and answer extraction method, device and terminal, including the question and answer extraction method: clustering of at least a portion of the question answering data in question, to get the clustering results, the answering data including records answering the question of artificial customer service, the clustering result including a plurality of groups; the at least part of the answer corresponding to the question the question of clustering results are grouped. The technical proposal of the invention realizes the extraction of the artificial customer service question and answer data.
【技术实现步骤摘要】
问答抽取方法、装置及终端
本专利技术涉及语言处理
,尤其涉及一种问答抽取方法、装置及终端。
技术介绍
随着智能问答技术的发展,在现有的内置有问答系统的智能终端中,对于用户输入问题,该智能终端可以响应用户的问题输出对应的答案。但是,现有的终端存在输出的答案与用户的问题不匹配的情况,以及针对用户的问题回答不上来的情况。那么在使用智能终端时,上述情况将导致对用户问题回答的不准确或缺乏有效应答,用户体验差。
技术实现思路
本专利技术解决的技术问题是如何实现对人工客服问答数据的抽取,用以提高问答准确性。为解决上述技术问题,本专利技术实施例提供一种问答抽取方法,问答抽取方法包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。可选的,所述对问答数据中的至少一部分问句进行聚类之前包括:获取待优化业务类型的关键词列表;利用所述关键词列表对所述问答数据中的问句进行过滤,以得到过滤后的问句,所述问句聚类结果是对所述过滤后的问句进行聚类得到的。可选的,所述对所述过滤后的问答数据中问句进行聚类包括:基于分词词典对所述过滤后的问句进行分词,以得到第一分词结果;基于所述第一分词结果对所述过滤后的问句进行关键词提取处理,以得到关键词;基于所述关键词进行分组,以得到所述问句聚类结果的多个组,其中,包括相同关键词的所述问句处于同一组。可选的,所述对所述过滤后的问句进行聚类还包括:对处于每一组内的问句进行聚类,以得到每一组的多个类。可选的,所述对处于每一组内的所 ...
【技术保护点】
一种问答抽取方法,其特征在于,包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。
【技术特征摘要】
1.一种问答抽取方法,其特征在于,包括:对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;将所述至少一部分问句的回答对应于所述问句聚类结果进行分组。2.根据权利要求1所述的问答抽取方法,其特征在于,所述对问答数据中的至少一部分问句进行聚类之前还包括:获取待优化业务类型的关键词列表;利用所述关键词列表对所述问答数据中的问句进行过滤,以得到过滤后的问句,所述问句聚类结果是对所述过滤后的问句进行聚类得到的。3.根据权利要求2所述的问答抽取方法,其特征在于,所述对所述过滤后的问句进行聚类包括:基于分词词典对所述过滤后的问句进行分词,以得到第一分词结果;基于所述第一分词结果对所述过滤后的问句进行关键词提取处理,以得到关键词;基于所述关键词进行分组,以得到所述问句聚类结果的多个组,其中,包括相同关键词的所述问句处于同一组。4.根据权利要求3所述的问答抽取方法,其特征在于,所述对所述过滤后的问句进行聚类还包括:对处于每一组内的问句进行聚类,以得到每一组的多个类。5.根据权利要求4所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句进行聚类包括:计算所述每一组内的问句中每两个问句之间的语义相似度;如果所述语义相似度达到相似度阈值,则确定所述两个问句为相似句;计算所述每一组内每一问句的相似句的数量;确定每一组内所述相似句的数量最大的问句为该组的聚类中心;对于每一组内除所述聚类中心以外的每一其他问句,如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句归类至所述聚类中心所在的类,否则将所述其他问句作为新的聚类中心,直至该组内的所有问句都完成归类。6.根据权利要求5所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句分别进行聚类还包括:如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句的相似问句划分至所述聚类中心所在的类。7.根据权利要求6所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句分别进行聚类还包括:将所述其他问句的相似问句标记为聚类边缘;对于未完成归类的问句,如果所述问句为所述聚类边缘的相似问句,则将所述问句作为新的聚类中心。8.根据权利要求5所述的问答抽取方法,其特征在于,根据以下一种或多种参数计算所述相似度:编辑距离、Jaccard距离、WMD距离。9.根据权利要求4所述的问答抽取方法,其特征在于,采用DensityPeaks算法对所述每一组内的问句进行聚类。10.根据权利要求4所述的问答抽取方法,其特征在于,所述对所述过滤后的问答数据中问句进行聚类之后还包括:统计所述每一组内的问句的频次以及所述每一组内的问句的数量;基于所述每一组内的问句的数量对所述多个组进行排序,以及基于每一组内的各个类内所有问句的所述频次之和对所述每一组内的多个类进行排序。11.根据权利要求3所述的问答抽取方法,其特征在于,所述获取待优化业务类型的关键词列表包括以下步骤的一步或多步:针对所述待优化业务类型从预设词类表中获取第一业务关键词,以加入所述关键词列表;将所述关键词加入所述关键词列表。12.根据权利要求11所述的问答抽取方法,其特征在于,所述针对所述待优化业务类型从预设词类表中获取第一业务关键词之后还包括:将所述第一业务关键词加入所述分词词典,对所述第一分词结果进行关键词提取是基于所述分词词典完成的。13.根据权利要求1所述的问答抽取方法,其特征在于,所述将所述至少一部分问句的回答对应于所述问句聚类结果进行分组之前,还包括:选取距离每一问句的提问时间最近的设定数量的所述回答;过滤反问句式的所述回答;基于客服礼貌用语库对所述回答进行过滤;过滤无用回答句式的所述回答。14.根据权利要求2所述的问答抽取方法,其特征在于,所述利用所述关键词列表对所有问答数据进行过滤包括:当问答数据中的问句包括至少一个所述关键词列表中的词语时,保留所述问句。15.根据权利要求2所述的问答抽取方法,其特征在于,所述利用所述关键词列表对所有问答数据进行过滤之后还包括以下一个或多个步骤:滤除仅包括单个词的问句;利用预设词语过滤所述问句;去除所述问句中的链接;查询知识库中所述待优化业务类型的知识点,去除可匹配到答案的所述问句;整合所述问答数据之前的历史数据中被过滤掉的问句。16.根据权利要求15所述的问答抽取方法,其特征在于,所述预设词语包括以下一种或多种:疑问词、预设的现象词和否定词。17.根据权利要求1所述的问答抽取方法,其特征在于,所述对问答数据中至少一部分问句进行聚类之前还包括:过滤不符合设定格式的所述问答数据,其中,所述设定格式包括会话编号字段、问句/回答标识字段、日期字段以及句子内容字段;将所述问答数据统一为文本格式。18.根据权利要求1所述的问答抽取方法,其特征在于,还包括:对分组后的所述回答进行聚类,以得到回答聚类结果。19.根据权利要求1所述的问答抽取方法,其特征在于,采用K均值算法对所述至少一部分问句进行聚类。20.根据权利要求1至19任一项所述的问答抽取方法,其特征在于,还包括:将所述问句聚类结果以及分组后的回答加入知识库,所述知识库用于自动问答交互。21.一种问答抽取装置,其特征在于,包括:问句聚类模块,用以对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记...
【专利技术属性】
技术研发人员:白杨,张磊,林涵,朱频频,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。