社区问答系统的答案抽取方法技术方案

技术编号:21478051 阅读:41 留言:0更新日期:2019-06-29 04:54
本发明专利技术涉及社区问答系统的答案抽取方法,首先对问答数据集做分词、去停用词预处理;然后选择词义相似性方案,设定阈值执行同、近义词归一化;再基于问题分类和公共成分移除计算平滑逆频相似度并排序,选取语义最接近的k个候选问题;继而考虑字级别特征、依存金字塔特征对k个候选问句计算相似度并排序,即:基于字向量计算相似度对候选问句排序,对候选问句按综合依存相似度排序;最后以排名与数值综合权衡选取最佳答案。采用问题分类策略,缩小后续计算的范围;在句子层面去除数据集的公共成分且采用平滑逆频相似度作为排序基准,精准筛选前k个候选问题;更高效、准确地在社区问答数据中确定语义最接近的问题,提高答案抽取的效率与准确率。

【技术实现步骤摘要】
社区问答系统的答案抽取方法
本专利技术涉及一种社区问答系统的答案抽取方法,属于自动问答

技术介绍
自动问答是利用计算机自动回答用户所提出的问题以满足用户知识需求的任务,根据目标数据源不同可以分为检索式问答、社区问答和知识库问答三大类。自动社区问答系统在回答用户问题时,需要正确理解用户所提的自然语言问题,抽取其中的关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答案并返回给用户。对社区问答来说,核心问题是从大规模历史问答对数据中找出与用户提问问题语义相似的历史问题并将其答案返回给提问用户。针对这一问题,传统的信息检索模型(如向量空间模型、语言模型等)都可以得到应用。但社区问答的特点在于:用户问题和已有问句都比较短,用户问题和历史问句之间存在“词汇鸿沟”,基于关键词匹配的传统检索模型很难达到较好的准确度。目前,主流研究工作都采用文本相似度的度量来对候选问题排序。当前文本相似度计算方法利用了词频、词序、编辑距离、词语相似度、依存句法等工具或思路提取句子在不同层面的语义特征,力求在历史问答库中找到与用户当前提问最接近的问题。但大多数文本相似度方法主要针本文档来自技高网...

【技术保护点】
1.社区问答系统的答案抽取方法,其特征在于:包括以下步骤:1)对问答数据集做分词、去停用词预处理;2)选择词义相似性方案,设定阈值执行同、近义词归一化;3)基于问题分类和公共成分移除计算平滑逆频相似度并排序,选取语义最接近的k个候选问题;4)考虑字级别特征、依存金字塔特征对k个候选问句计算相似度并排序,即:a、基于字向量计算相似度对候选问句排序;b、对候选问句按综合依存相似度排序;5)以排名与数值综合权衡选取最佳答案。

【技术特征摘要】
1.社区问答系统的答案抽取方法,其特征在于:包括以下步骤:1)对问答数据集做分词、去停用词预处理;2)选择词义相似性方案,设定阈值执行同、近义词归一化;3)基于问题分类和公共成分移除计算平滑逆频相似度并排序,选取语义最接近的k个候选问题;4)考虑字级别特征、依存金字塔特征对k个候选问句计算相似度并排序,即:a、基于字向量计算相似度对候选问句排序;b、对候选问句按综合依存相似度排序;5)以排名与数值综合权衡选取最佳答案。2.根据权利要求1所述的社区问答系统的答案抽取方法,其特征在于:步骤1),利用分词方法或工具对问答数据集做分词预处理,所述分词方法是基于词典的最大匹配方法、全切分路径选择方法、基于字序列标注的方法或基于转移的分词方法,所述分词工具是开源工具或闭源分词工具,分词工具提供多种分词算法与策略供用户选择,支持添加自定义词典、新词发现。3.根据权利要求1所述的社区问答系统的答案抽取方法,其特征在于:步骤1),去停用词预处理按照公开的或者自建的停用词表,去除不含实际意义的虚词、标点、特殊符号。4.根据权利要求1所述的社区问答系统的答案抽取方法,其特征在于:步骤2),对于词义特别接近的词语,可认为语义是一致的,将同义与近义词进行归一化;词语语义的度量方式是词向量的余弦值或欧式距离,或在语义知识库中计算;阈值根据词义度量方法和实际需要设定。5.根据权利要求1所述的社区问答系统的答案抽取方法,其特征在于:步骤3),首先对问句进行领域分类,利用已训练好的词向量,通过转换操作获取句子在语义空间的向量表征,然后在同一领域类别的问句中进行公共成分移除,获取句子向量表征之后通过向量点积计算语义相似度并降序排列,筛选相似度最高的k个候选问题。6.根据权利要求5所述的社区问答系统的答案抽取方法,其特征在于:包括以下步骤:S21:按类别组织问题库,确定当前问题的计算范围:具体类别组织方式因实际业务场景而定,任何场景可按照若干个话题进行归类,问题库按类别组织是事先一次性完成的,不需要每次计算时重新执行;通过带有类别标签的问题库,通过机器学习方法构建分类器,对新接到的问题归类,得到当前问句属于各个类别的概率;将概率最高的N类问题集合作为后续计算范围,N取1~5之间的整数;S22:根据词频确定词语的权重:词频来源方面,采用开放的大规模语料结合业务的问答语料,综合统计得到;将计算后的词权重保存到文件或数据库中备查;对单词的加权,语料中出现频繁的词,其携带的有效语义信息少,给其赋予权重就小;反之则权重大;单词w的权重ω根据公式(1)计算:其中,P(w)是单词w在语料中出现的概率,词频除以语料中总词数;ɑ为平滑调节因子;ɑ取值在0.0001~0.001;S23:选定参与计算的词向量表征方案:词向量方案选择word2vec、GloVe或者自定义的方案;词向量的维度决定语句向量计算所在的语义空间维度,在50~300维;S24:平滑逆频加权计算句子初始向量:对于语句数据集中每个句子S,执行:假设S中包含w1,w2……wn共n个词,按照公式(2)计算初始向量V0;其中ωi表示第i个词的权重,Vwi表示第i个词的词向量;S25:对数据集矩阵执行常见成分移除:对于步骤S24计算得到的一系列问句向量组成的矩阵X,常见成分包含语法结构与停用词的信息;首先对矩阵X进行奇异值分解,X=U·Sigma·VT,得到VT与V;当分解参数设为1时,VT看作X的第一主成分,是需要移除的分量所在方向;然后按照公式(3)对常见成分进行去除,得到新的矩阵X’,其中每一行即为语句数据集中各句子最终的向量表征;X’=X-X·V·VT公式(3)其中VT是奇异值分解的成分之一,V是VT的转置矩阵;S26:计算当前问句与S21范围内问句的平滑逆频相似度,按降序排列并取前k个作为候选问题:根据步骤S25得到的X’两个句子S1、S2的向量V1、V2,按照公式(4)计算两个句子的向量相似度;Simv(S1,S2)=unit(V1)·unit(V2)公式(4)其中,unit(Vec)是将向量转换为单位向量的函数;将待计算的句子按...

【专利技术属性】
技术研发人员:刘继明孟亚磊陈浮刘松金宁
申请(专利权)人:网经科技苏州有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1