当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于多种特征的问题相似度计算方法技术

技术编号:20363232 阅读:22 留言:0更新日期:2019-02-16 16:41
本发明专利技术公开了一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。本发明专利技术采用多种特征增加了样本属性的多样性,提升了模型的泛化能力。同时利用软余弦距离将TF‑IDF与编辑距离、词语语义等信息进行融合,克服了词语之间的语义鸿沟,提高了相似度计算的准确率。

【技术实现步骤摘要】
一种基于多种特征的问题相似度计算方法
本专利技术涉及计算机自然语言处理与自动问答系统研究领域,特别涉及一种基于多种特征的问题相似度计算方法。
技术介绍
随着数字化信息的快速增加,人们从网络上获取所需的信息资源的难度也随之增大。如何在海量的数字化信息中,精准快速地为用户找到所需的信息给自然语言处理(NLP)技术和信息检索技术带来了严峻的挑战。因此,为了给用户提供实时性强、精确度高的信息获取渠道,研究机构和相关科技公司开始研究自动问答系统(QA)。在自动问答系统中,用户只需要输入问题就可以直接得到对应答案,不再需要用户根据问题提取关键词进行检索以及阅读大量网页寻找答案。自动问答系统比传统搜索引擎更加简单易用、实时、精确,为用户提供了舒适的人机交互体验,成为目前信息技术新一代的研究热点。自动问答系统允许用户以自然语言形式描述问题,然后精确地理解用户的问题,并通过检索问答库或者互联网上搜索到的信息组织答案,最后返回精炼而准确的结果,提供了高效率的信息获取渠道。问题相似度计算是自动问答系统中首要环节,目的是从已有的问题集合中找出与新提出问题最相似的历史问题,从而根据历史问题的答案集给出新问题的答案。目前,国内在自动问答领域也有一些成果。通用型社区问答系统包括Quora、头条问答、百度知道等,专业型社区问答系统涉及多专业,例如StackOverflow、CSDN等IT技术相关的问答系统。因此,问题相似度计算方法直接影响问答系统的准确率,具有很好的产业前景。经过多年的研究积累,自动问答系统形成了通用的框架,主要由信息检索、问题分析和答案获取三个模块组成。其中,问题分析模块的主要任务是对用户输入的问题进行分析,从已有的问题集合中找出与新提出问题最相似的历史问题,研究内容涉及问题相似度分析和问题排序,其中最主要的是问题与问题之间的相似度计算,从而根据相似度对历史问题集合进行排序。答案获取模块主要根据问题检索得到的相似问题集合,得到对应的答案集合。文本相似度相关技术是问题相似度技术的基础(问题和答案均属于文本类型)。文本相似度计算方法主要有三种。第一种是基于向量空间模型(VectorSpaceModel,VSM)的相似度计算,将文本映射到向量空间中的一个点,再利用数学方法计算空间中点与点的距离。有研究人员提出将VSM模型应用到常问问题(FrequentlyAskedQuestions,FAQ)的相似问题检索任务中,并针对FAQ的任务特点对VSM进行了改进。但这种方法文本稀疏导致维度过大,容易出现语义鸿沟问题。第二种是基于句法分析的相似度计算,引入图形化的方式描述一个句子中各个词组相互支配和被支配关系。有研究人员提出基于深层结构的分析方法,首先对问题进行依存关系分析,选取句中最重要的词以及直接依附于该词的有效词进行配对,然后基于依存关系结构进行中文的文本相似度计算。但这种方法句法分析、依存关系分析等工具较为复杂,需要有语言学背景,而且对复杂的长句型的分析效果不好。第三种是基于语义的相似度计算,包含词语语义和句子语义两种相似度。关于词语的语义相似度计算,通常使用WordNet和Hownet等语义词典,语义词典中包含了词与词之间的语义关系。有研究人员认为短句的完整表达不仅依赖于句法结构,而且还依赖于单词及其权重,因此利用WordNet改进了单词的语义表示。在句子的语义相似度计算方面,有研究人员利用IBM的机器翻译模型学习两个问题句子之间的转换概率,从而表示句子的语义相似度,检索相似问题。但这种方法过度依赖语义词典,相似度计算的准确率受语义词典的完备性和正确性影响;同样地,基于语义的相似度计算方法在处理句法复杂的长句型效果较差。同时现有技术中的方法多是基于单一类型的信息抽取文本表示特征,聚焦于单一类型特征,没有考虑到文本表达的含义是由多方面多层次的信息构成,因此计算相似度的准确率不高。
技术实现思路
为了克服现有技术的不足,本专利技术的目的是提供一种基于多种特征的问题相似度计算方法,该方法适用于英文问答系统中问题之间的相似度计算,具有准确率高的优点。本专利技术的目的通过以下的技术方案实现:一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。优选的,对于用于比对计算的新问题句子、历史问题及对应的答案先进行预处理,包括去除标点符号处理、大小写转换(所有大写字母转成小写)、去停用词和低频率词。优选的,计算基于字符特征的相似度的方法是:首先,通过计算每对词语之间的编辑距离,得到词语之间的关系矩阵,然后利用问句的TF-IDF(termfrequency–inversedocumentfrequency)表示和关系矩阵计算软余弦距离,作为基于字符特征的相似度。更进一步的,词语之间的关系矩阵计算方法是:定义语料库为用于训练和测试模型的问句和答案文本数据集,假设语料库中词典的大小为n,则词语之间的编辑距离形成的关系矩阵Mlev∈Rn×n,Rn×n是大小为n×n的实数矩阵集合(下文含义相同),Mlev中元素mi,j为词典中第i个词wi与第j个词wj的编辑距离。编辑距离计算公式如下:其中,||wi||是单词wi中包含字符的个数,||wj||是单词wj中包含字符的个数,α是对角元素的加权因子,β是距离得分的强化因子。lev(wi,wj)的递归计算公式如下:其中,m和n代表wi和wj词语的长度(即包含字符的个数)。cost表示wi中第m个字符到wj中第n个字符的替换代价,如果两个字符一致,则cost为0,否则cost为1。更进一步的,问句的TF-IDF表示计算方法是:在一条句子中,针对词语wi,计算TF值和IDF值,TF值表示词语在当前句子中出现的频率,IDF值表示逆文本频率指数,针对词语wi的TF-IDF计算公式为:TFIDFi=TFi*IDFi。更进一步的,针对新提出问句Qnew和历史问句Qrel,软余弦距离的计算方法是:问句Qnew、Qrel分别表示为TFIDFnew和TFIDFrel:TFIDFnew=[dnew,1,dnew,2,…,dnew,n]TTFIDFrel=[drel,1,drel,2,…,drel,n]Tdnew,i表示wi在Qnew中的TF-IDF值,drel,j表示wj在Qrel中的TF-IDF值,n表示语料库的词典中包含词语的个数,T表示向量的转置。同时根据求得的词语之间关系矩阵为Mlev,采用软余弦距离计算Qnew、Qrel之间基于字符特征的相似度Rlev(Qnew,Qrel),公式如下:其中,“·”是向量与矩阵的点乘(下文含义相同),计算方式如下:优选的,计算基于词语语义特征的相似度的方法,步骤是:(1)利用word2vec工具训练得到语料库中每个词语的分布式表示,即每个词语对应一个K维的实数向量。(2)对词典大小为n的语料库,通过求词向量之间的余弦距离,计算词典中词语两两之间的语义关系mi,j,i,j∈[1,n],得到关系矩本文档来自技高网
...

【技术保护点】
1.一种基于多种特征的问题相似度计算方法,其特征在于,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。

【技术特征摘要】
1.一种基于多种特征的问题相似度计算方法,其特征在于,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。2.根据权利要求1所述的基于多种特征的问题相似度计算方法,其特征在于,对于用于比对计算的新问题句子、历史问题及对应的答案先进行预处理,包括去除标点符号处理、大小写转换、去停用词和低频率词。3.根据权利要求1所述的基于多种特征的问题相似度计算方法,其特征在于,计算基于字符特征的相似度的方法是:通过计算每对词语之间的编辑距离得到词语之间的关系矩阵,然后利用问句的TF-IDF表示和关系矩阵计算软余弦距离,将软余弦距离作为基于字符特征的相似度。4.根据权利要求3所述的基于多种特征的问题相似度计算方法,其特征在于,词语之间的关系矩阵计算方法是:定义语料库为用于训练和测试模型的问句和答案文本数据集,假设语料库中词典的大小为n,则词语之间的编辑距离形成的关系矩阵Mlev,Mlev中元素mi,j为词典中第i个词wi与第j个词wj的编辑距离,编辑距离计算公式如下:其中,||wi||是单词wi中包含字符的个数,||wj||是单词wj中包含字符的个数,α是对角元素的加权因子,β是距离得分的强化因子;lev(wi,wj)的递归计算公式如下:其中,m和n代表wi和wj词语的长度,cost表示wi中第m个字符到wj中第n个字符的替换代价,如果两个字符一致,则cost为0,否则cost为1。5.根据权利要求3所述的基于多种特征的问题相似度计算方法,其特征在于,问句的TF-IDF表示计算方法是:在一条句子中,针对词语wi,计算TF值和IDF值,TF值表示词语在当前句子中出现的频率,IDF值表示逆文本频率指数,针对词语wi的TF-IDF计算公式为:TFIDFi=TFi*IDFi;针对新提出问句Qnew和历史问句Qrel,软余弦距离的计算方法是:问句Qnew、Qrel分别表示为TFIDFnew和TFIDFrel:TFIDFnew=[dnew,1,dnew,2,…,dnew,n]TTFIDFrel=[drel,1,drel,2,…,drel,n]Tdnew,i表示wi在Qnew中的TF-IDF值,drel,j表示wj在Qrel中的TF-IDF值,n表示语料库的词典中包含词语的个数,T表示向量的转置;同时根据求得的词语之间关系矩阵Mlev,采用软余弦距离计算Qnew、Qrel之间基于字符特征的相似度Rlev(Qnew,Qrel),公式如下:其中,“·”是向量与矩阵的点乘。6.根据权利要求1所述的基于多种特征的问题相似度计算方法,其特征在于,计算基于词语语义特征的相似度的方法,步骤是:(6-1)利用word2vec工具训练得到语料库中每个词语的分布式表示,即每个词语对应一个K维的实数向量;(6-2)对词典大小为n的语料库,通过求词向量之间的余弦距离,计算词典中词语两两之间的语义...

【专利技术属性】
技术研发人员:刘波彭永幸
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1