一种自动生成开放式问题答案的方法技术

技术编号:15895383 阅读:73 留言:0更新日期:2017-07-28 19:51
本发明专利技术提供了一种自动生成开放式问题答案的方法,包括:获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。本发明专利技术能够针对网络应用中的开放式问题提供网络的自主回复。

A method for automatically generating open question answers

The present invention provides a method for automatically generating answers to open-ended questions, including: access to content library, the contents of the items in the library include at least one attribute projects source, content and project title; establish rules and obtain answers that conforms to the rules of the project the answer from the content library to set up answer the answer rules library, including at least source, and the project content, project title in a corresponding screening condition; the input of the project and find word segmentation has all the objectives of the project answer database; comprehensive correlation calculation for the project with the goal of the project and find out the highest correlation the goal of the project to output. The invention can provide an autonomous reply to the open problem in the network application.

【技术实现步骤摘要】
一种自动生成开放式问题答案的方法
本专利技术涉及计算机应用
,特别涉及一种自动生成开放式问题答案的方法。
技术介绍
随着互联网的发展,问答社区逐渐成为深受网民欢迎的一种互联网产品,如国内的“知乎”、“头条问答”,美国的Quora,用户可以在社区中提出各种问题,其它用户看到自己熟悉领域的问题就可以发布自己的答案。这些答案会被所有浏览该问题的用户看到,点赞或点踩,受欢迎的答案会被系统排到靠前的位置。这类社区的一个挑战是,随着用户量的增长,越来越多的问题很少被其它用户关注到,导致无人回答,提问者的积极性大受打击。有些社区提供了答主自动邀请的功能,会根据用户的回答历史为问题自动邀请合适的用户来回答。可是这样会导致活跃的答主收到过多的邀请,没有办法在保证回答质量的情况下及时回答问题。因此,目前这个问题尚没有有效的解决方案。在自动回答方面,现有的技术主要聚焦在解决封闭性问题的回答生成上,比如“奥巴马是美国第几届总统?”。现有的一些系统一般会把利用NLP技术把问题转化为一个结构化的查询语言并通过查询预先构建的知识图谱返回答案。但是现有的自动回答生成技术无法解决开放式问题的回答自动生成问题,比如:“你对乐视的生态化反战略怎么看?”这类问题的提问者需要的不是知识性的答案,而是对问题的分析和观点的阐述,从而达到思想的交流。目前的网络问答社区无法对上述具有开放式特定的网络问题进行自动答复,也没有实现网络问题的自动生成答案的功能。上述功能的欠缺导致网络资源的大量浪费,无法整合网络资源,也不能实现网络自适应地处理问答机制,使得大量用户问题无法得到及时反馈与解决。
技术实现思路
专利技术技术方案所解决的技术问题为:如何针对网络应用中的开放式问题提供网络的自主回复。为了解决上述技术问题,本专利技术技术方案提供了一种自动生成开放式问题答案的方法,包括:获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。可选的,所述获取内容库包括:根据内部提供或外部抓取的文档或视频建立内容库中的项目。可选的,所述建立答案规则包括:从内容库中筛选符合如下条件中的至少一项的项目:所述项目来源的权威度合法;所述项目内容的时效合法;所述项目标题中包含实体词语;所述项目标题是疑问句。可选的,所述建立答案规则包括:从所述内容库中人工筛选所述符合所述答案规则的项目及不符合所述答案规则的项目以分别作为第一正样本及第一负样本;将所述项目的属性、第一正样本及第一负样本输入答案规则建立模型、训练所述答案规则建立模型以建立所述答案规则。可选的,所述训练所述答案规则建立模型以建立所述答案规则包括:获取所述第一正样本/第一负样本相对于所述项目属性的第一真实数据/第二真实数据;使用所述答案规则建立模型预测所述第一正样本/第一负样本相对于所述项目属性的第一预测数据/第二预测数据;调整所述答案规则建立模型的模型参数,当所述第一预测数据与第一真实数据一致且第二预测数据与第二真实数据一致则输出所述模型参数及其答案规则建立模型。可选的,所述答案规则建立模型基于机器学习算法。可选的,所述机器学习算法为朴素贝叶斯算法、GBDT算法、SVM算法及RNN算法中的一种。可选的,所述对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目包括:将所述输入的问题项目分为顺序的单个词组成的序列;若所述答案库中项目标题具备所述序列中的每一个词,则选择该项目标题的项目作为所述目标项目。可选的,所述计算所述问题项目与目标项目的综合相关度包括:分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度;对计算得到的单一相关度分配权重并将所述权重与所对应单一相关度之积累加以得到所述综合相关度。可选的,所述分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度至少包括执行如下几种计算方式的一种或多种:对目标项目标题与问题项目进行分词,通过word2vec工具获取每个词的数值向量,然后把这些词的向量相加得到项目标题的语义向量和问题项目语义向量,最后计算上述两个向量的cosine距离,以获取第一单一相关度;目标项目标题与问题项目进行分词,计算二者共有词的数量占二者所有词的比例,以获取第二单一相关度;获取目标项目标题的关键词,通过word2vec工具获取每个关键词的数值向量,然后把这些向量加和作为目标项目标题的语义向量;对问题项目进行分词,然后通过word2vec工具获取每个词的数值向量并加和作为问题项目的语义向量,最后计算目标项目标题与问题项目语义向量之间的cosine距离,以获得第三单一相关度。可选的,所述自动生成开放式问题答案的方法还包括:从所述答案库中人工筛选所述符合所述问题项目的项目标题及不符合所述问题项目的项目标题以分别作为第二正样本及第二负样本;拆分所述问题项目、第二正样本及第二负样本为单字序列,并基于RNN处理后得到各个序列的语义向量;训练RNN模型以准确预测上述各语义向量间的cosine距离是否符合真实相关度,以获得RNN模型参数;所述计算所述问题项目与目标项目的综合相关度包括:对目标项目标题与问题项目进行分词以获得单字序列;基于所述RNN模型参数使用RNN模型预测所述标项目标题与问题项目单字序列之间的预测相关度。可选的,所述自动生成开放式问题答案的方法还包括:至少提取综合相关度最高的目标项目中的目标内容进行发布。本专利技术技术方案的有益效果至少包括:本专利技术技术方案能够解决现有技术中,社区问答无法回复的问题,为用户提供了一种可结合网络自有资源有效自动生成答案的技术方案,不仅解决了网络配置资源闲置的问题,还提高了社区问答环境的有效性及积极性。本专利技术技术方案通过建立答案规则及项目相关度指标,有效确认了最佳网络答案,并可与用户选择相结合,提供了一种有效获取问题答案的技术方案,提高了答案与问题适配的准确度。本专利技术技术方案可以在投入资源较少的情况下大幅降低问答社区内零回答问题的比例,同时自动生成的答案可以给准备回答问题的用户作为参考,也降低了撰写高质量回答的门槛,提升了用户体验。附图说明图1为本专利技术技术方案提供的一种自动生成开放式问题答案的方法流程示意图;图2为本专利技术技术方案提供的一种建立答案规则的方法流程示意图;图3为本专利技术技术方案提供的一种所述训练所述答案规则建立模型的方法流程示意图;图4为本专利技术技术方案提供的一种对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目的方法流程示意图;图5为本专利技术技术方案提供的一种基于人工规则计算所述问题项目与目标项目的综合相关度的方法流程示意图;图6为本专利技术技术方案提供的另一种自动生成开放式问题答案的方法流程示意图;图7为本专利技术技术方案提供的一种基于机器学习方法计算所述问题项目与目标项目的综合相关度的方法流程示意图;图8为本专利技术技术方案提供的又一种自动生成开放式问题答案的方法流程示意图;图9为本专利技术技术方案提供的再一种自动生成开放式问题答案的方法本文档来自技高网...
一种自动生成开放式问题答案的方法

【技术保护点】
一种自动生成开放式问题答案的方法,其特征在于,包括:获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。

【技术特征摘要】
1.一种自动生成开放式问题答案的方法,其特征在于,包括:获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。2.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述获取内容库包括:根据内部提供或外部抓取的文档或视频建立内容库中的项目。3.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述建立答案规则包括:从内容库中筛选符合如下条件中的至少一项的项目:所述项目来源的权威度合法;所述项目内容的时效合法;所述项目标题中包含实体词语;所述项目标题是疑问句。4.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述建立答案规则包括:从所述内容库中人工筛选所述符合所述答案规则的项目及不符合所述答案规则的项目以分别作为第一正样本及第一负样本;将所述项目的属性、第一正样本及第一负样本输入答案规则建立模型、训练所述答案规则建立模型以建立所述答案规则。5.如权利要求4所述的自动生成开放式问题答案的方法,其特征在于,所述训练所述答案规则建立模型以建立所述答案规则包括:获取所述第一正样本/第一负样本相对于所述项目属性的第一真实数据/第二真实数据;使用所述答案规则建立模型预测所述第一正样本/第一负样本相对于所述项目属性的第一预测数据/第二预测数据;调整所述答案规则建立模型的模型参数,当所述第一预测数据与第一真实数据一致且第二预测数据与第二真实数据一致则输出所述模型参数及其答案规则建立模型。6.如权利要求4所述的自动生成开放式问题答案的方法,其特征在于,所述答案规则建立模型基于机器学习算法。7.如权利要求6所述的自动生成开放式问题答案的方法,其特征在于,所述机器学习算法为朴素贝叶斯算法、GBDT算法、SVM算法及RNN算法中的一种。8.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述对输入的问题项目进行分词并寻找答案库中具备所有分词的目...

【专利技术属性】
技术研发人员:曹欢欢罗立新
申请(专利权)人:北京字节跳动科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1