一种基于多种特征的问题相似度计算方法技术

技术编号：20363232 阅读：22 留言：0更新日期：2019-02-16 16:41

本发明专利技术公开了一种基于多种特征的问题相似度计算方法，包括步骤：针对输入的新问题句子，将其与存储的历史问题及对应的答案进行比对计算，计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度；最终相似度为上述5个相似度及其各自对应权重的乘积和，权重利用线性回归方法训练得到。本发明专利技术采用多种特征增加了样本属性的多样性，提升了模型的泛化能力。同时利用软余弦距离将TF‑IDF与编辑距离、词语语义等信息进行融合，克服了词语之间的语义鸿沟，提高了相似度计算的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多种特征的问题相似度计算方法
本专利技术涉及计算机自然语言处理与自动问答系统研究领域，特别涉及一种基于多种特征的问题相似度计算方法。
技术介绍
随着数字化信息的快速增加，人们从网络上获取所需的信息资源的难度也随之增大。如何在海量的数字化信息中，精准快速地为用户找到所需的信息给自然语言处理(NLP)技术和信息检索技术带来了严峻的挑战。因此，为了给用户提供实时性强、精确度高的信息获取渠道，研究机构和相关科技公司开始研究自动问答系统(QA)。在自动问答系统中，用户只需要输入问题就可以直接得到对应答案，不再需要用户根据问题提取关键词进行检索以及阅读大量网页寻找答案。自动问答系统比传统搜索引擎更加简单易用、实时、精确，为用户提供了舒适的人机交互体验，成为目前信息技术新一代的研究热点。自动问答系统允许用户以自然语言形式描述问题，然后精确地理解用户的问题，并通过检索问答库或者互联网上搜索到的信息组织答案，最后返回精炼而准确的结果，提供了高效率的信息获取渠道。问题相似度计算是自动问答系统中首要环节，目的是从已有的问题集合中找出与新提出问题最相似的历史问题，从而根据历史问题的答案集给出新问题的答案。目前，国内在自动问答领域也有一些成果。通用型社区问答系统包括Quora、头条问答、百度知道等，专业型社区问答系统涉及多专业，例如StackOverflow、CSDN等IT技术相关的问答系统。因此，问题相似度计算方法直接影响问答系统的准确率，具有很好的产业前景。经过多年的研究积累，自动问答系统形成了通用的框架，主要由信息检索、问题分析和答案获取三个模块组成。其中，问题分析模...

【技术保护点】
1.一种基于多种特征的问题相似度计算方法，其特征在于，包括步骤：针对输入的新问题句子，将其与存储的历史问题及对应的答案进行比对计算，计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度；最终相似度为上述5个相似度及其各自对应权重的乘积和，权重利用线性回归方法训练得到。

【技术特征摘要】
1.一种基于多种特征的问题相似度计算方法，其特征在于，包括步骤：针对输入的新问题句子，将其与存储的历史问题及对应的答案进行比对计算，计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度；最终相似度为上述5个相似度及其各自对应权重的乘积和，权重利用线性回归方法训练得到。2.根据权利要求1所述的基于多种特征的问题相似度计算方法，其特征在于，对于用于比对计算的新问题句子、历史问题及对应的答案先进行预处理，包括去除标点符号处理、大小写转换、去停用词和低频率词。3.根据权利要求1所述的基于多种特征的问题相似度计算方法，其特征在于，计算基于字符特征的相似度的方法是：通过计算每对词语之间的编辑距离得到词语之间的关系矩阵，然后利用问句的TF-IDF表示和关系矩阵计算软余弦距离，将软余弦距离作为基于字符特征的相似度。4.根据权利要求3所述的基于多种特征的问题相似度计算方法，其特征在于，词语之间的关系矩阵计算方法是：定义语料库为用于训练和测试模型的问句和答案文本数据集，假设语料库中词典的大小为n，则词语之间的编辑距离形成的关系矩阵Mlev，Mlev中元素mi,j为词典中第i个词wi与第j个词wj的编辑距离，编辑距离计算公式如下：其中，||wi||是单词wi中包含字符的个数，||wj||是单词wj中包含字符的个数，α是对角元素的加权因子，β是距离得分的强化因子；lev(wi,wj)的递归计算公式如下：其中，m和n代表wi和wj词语的长度，cost表示wi中第m个字符到wj中第n个字符的替换代价，如果两个字符一致，则cost为0，否则cost为1。5.根据权利要求3所述的基于多种特征的问题相似度计算方法，其特征在于，问句的TF-IDF表示计算方法是：在一条句子中，针对词语wi，计算TF值和IDF值，TF值表示词语在当前句子中出现的频率，IDF值表示逆文本频率指数，针对词语wi的TF-IDF计算公式为：TFIDFi＝TFi*IDFi；针对新提出问句Qnew和历史问句Qrel，软余弦距离的计算方法是：问句Qnew、Qrel分别表示为TFIDFnew和TFIDFrel：TFIDFnew＝[dnew,1,dnew,2,…,dnew,n]TTFIDFrel＝[drel,1,drel,2,…,drel,n]Tdnew,i表示wi在Qnew中的TF-IDF值，drel,j表示wj在Qrel中的TF-IDF值，n表示语料库的词典中包含词语的个数，T表示向量的转置；同时根据求得的词语之间关系矩阵Mlev，采用软余弦距离计算Qnew、Qrel之间基于字符特征的相似度Rlev(Qnew,Qrel)，公式如下：其中，“·”是向量与矩阵的点乘。6.根据权利要求1所述的基于多种特征的问题相似度计算方法，其特征在于，计算基于词语语义特征的相似度的方法，步骤是：(6-1)利用word2vec工具训练得到语料库中每个词语的分布式表示，即每个词语对应一个K维的实数向量；(6-2)对词典大小为n的语料库，通过求词向量之间的余弦距离，计算词典中词语两两之间的语义...

【专利技术属性】
技术研发人员：刘波，彭永幸，
申请(专利权)人：暨南大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人