一种句子相似度计算方法和系统技术方案

技术编号：15639269 阅读：163 留言：0更新日期：2017-06-15 22:28

本发明专利技术涉及一种句子相似度计算方法和系统，使用结构化特征来表示句子的相似度。本发明专利技术在浅层句法树的基础上，通过适当修改获得适合句子相似度计算的结构化特征，与平面特征相结合，进行句子相似度计算。

全部详细技术资料下载

【技术实现步骤摘要】
一种句子相似度计算方法和系统
本专利技术涉及自然语言处理领域，尤其涉及一种句子相似度计算方法和系统。
技术介绍
相似度计算是自然语言处理的基础工作。目前句子相似度计算方法主要有4类，分别是基于词重叠的方法、基于语料库统计的方法、基于语言学的方法和混合方法。基于词重叠的方法是用一组通过两个句子所共有的一些词汇量来计算句子的相似度的度量方法。Jacob等[4]提出Jaccard相似系数法，该方法计算两个句子中词语交集与两句子中词语并集的比值来计算句子的相似度。Metzler等[5]使用逆文档频率(IDF)作为两个句子中均出现的词语的权重，改进计算结果。Banerjee等[6]基于短语的长度和它们的使用频率呈Zipfian分布的特点来设计基于短语的句子相似度计算方法。基于语料库的方法将句子对中出现的词语集合用来作为特征集，将基于语料库的向量的余弦夹角值作为相似度。Landauer等[7]通过分析一个大型的自然语言语料库来统计关键词的TF-IDF值形成句子语义向量，用向量的余弦夹角来计算句子语义相似度。Lund等[8]统计词汇之间的共现性得到高维向量空间来计算句子或短文档相似度。基于语言学的方法利用词汇间的语义关系及其语法成分来确定句子的相似度。Kashyap等[9]基于词语语义相似度度量句子间的相似度，考虑单词具有不同的区分能力来进行句子向量的相似度计算方法。Malik等[10]将组成句子对的词之间的相似度的总和的最大值被句子长度归一化所得值作为句子相似度值。混合方法是基于以上方法的混合方法。Chukfong等[11-14]基于以上多种方法实现句子相似度计算。现...
一种句子相似度计算方法和系统

【技术保护点】
一种句子相似度计算方法，其特征在于，包括步骤：S10、对句子对训练文本和句子对测试文本中所有句子调用词性标注、句法分析、命名实体识别、WordNet识别工具分别进行词性标注、句法分析、命名实体识别、WordNet识别获得词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本和词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本，其中，所述句子对训练文本和句子对测试文本为每行含有两句需要计算相似度的句子的文本；S20、基于词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本获得浅层句法树训练文本，基于词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本获得浅层句法树测试文本；S30、基于句子对训练文本对每行一对句子获得多个平面特征，得到平面特征训练文本，将平面特征训练文本，浅层句法树训练文本与句子对人工评分训练文本结合得到浅层句法树特征训练文本，基于句子对测试文本对每行一对句子获得多个平面特征，得到平面特征测试文本，将平面特征测试文本与浅层句法树测试文本结合得到浅层句法树特征测试文本；S40、使用SVR模型基于...

【技术特征摘要】
1.一种句子相似度计算方法，其特征在于，包括步骤：S10、对句子对训练文本和句子对测试文本中所有句子调用词性标注、句法分析、命名实体识别、WordNet识别工具分别进行词性标注、句法分析、命名实体识别、WordNet识别获得词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本和词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本，其中，所述句子对训练文本和句子对测试文本为每行含有两句需要计算相似度的句子的文本；S20、基于词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本获得浅层句法树训练文本，基于词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本获得浅层句法树测试文本；S30、基于句子对训练文本对每行一对句子获得多个平面特征，得到平面特征训练文本，将平面特征训练文本，浅层句法树训练文本与句子对人工评分训练文本结合得到浅层句法树特征训练文本，基于句子对测试文本对每行一对句子获得多个平面特征，得到平面特征测试文本，将平面特征测试文本与浅层句法树测试文本结合得到浅层句法树特征测试文本；S40、使用SVR模型基于浅层句法树特征训练文本进行训练，得到训练模型，由训练模型和浅层句法树特征测试文本获得相似度计算结果文本。2.根据权利要求1所述的句子相似度计算方法，其特征在于：所述步骤S10的具体过程如下：S101、对句子对训练文本中所有句子使用词性标注工具获得句子中每个单词的词性，获得对应的词性标注训练文本；对句子对测试文本进行相同处理获得词性标注测试文本；S102、对句子对训练文本中所有句子使用句法分析工具获得每个单词所属的短语，获得短语训练文本；对句子对测试文本进行相同处理获得短语测试文本；S103、基于句子对训练文本使用命名实体识别工具得到单词所属的命名实体识别结果，获得命名实体训练文本；对句子对测试文本进行相同处理获得命名实体测试文本；S104、基于句子对训练文本使用WordNet识别工具获得单词所属的WordNet上义，如果没有WordNet上义用空格表示，得到WordNet训练文本；对句子对测试文本进行相同处理获得WordNet测试文本。3.根据权利要求1所述的句子相似度计算方法，其特征在于：所述步骤S20的具体过程如下：S201、根据词性标注训练文本，为句子对训练文本中的每个句子构造浅层句法树，得到基本浅层句法树训练文本；由句子对测试文本和词性标注测试文本得到基本浅层句法树测试文本；其中，浅层句法树构造方法如下：把一个句子中的词语生成为最底层的叶子节点；把每个叶子节点对应词的词性作为每个叶子节点的父节点；最后，设置所有的词性节点的父节点为根节点；S202、根据短语训练文本，为基本浅层句法树训练文本中的每个句子构造更深一层的浅层句法树获得短语浅层句法树训练文本；基于短语测试文本和基本浅层句法树测试文本获得短语浅层句法树测试文本；其中，更深一层的浅层句法树构造方法如下：由句子短语识别结果，获得属于同一短语单词的信息；将属于同一短语的单词叶节点的词性父节点上连接到同一chunker节点；断开根节点与词性节点之间的联系，将chunker节点连接到对应的词性节点；最后，设置所有的词性节点的父节点为根节点；S203、基于短语浅层句法树训练文本、命名实体训练文本和WordNet训练文本获得语义浅层句法树训练文本；基于短语浅层句法树测试文本、命名实体测试文本和WordNet测试文本获得语义浅层句法树测试文本；语义浅层句法树训练文本是在短语浅层句法树训练文本上加入语义信息，具体方法如下：如果短语浅层句法树训练文本中的一个单词在命名实体训练文本和WordNet训练文本中有NER或WNSS信息，将包含该单词的chunker节点的句法信息修改成NER或WNSS信息；如果一个词组节点中含有多个单词符合上述情况，使用词组内最后一个单词的NER和WNSS信息；S204、基于语义浅层句法树训练文本删除定冠词和连词相关节点，获得修剪浅层句法树训练文本；基于语义浅层句法树测试文本删除定冠词和连词相关节点，获得修剪浅层句法树测试文本；S205、基于修剪浅层句法树训练文本，将一对句子的浅层句法树相关部分关联起来获得浅层句法树训练文本；基于修剪浅层句法树测试文本，将一对句子的浅层句法树相关部分关联起来获得浅层句法树测试文本；其中，将一对句子对应的浅层句法树关联起来的方法：两个句子中某个单词如果相同，得到它们的父亲节点、祖父节点且为非终节点，标记上REL。4.根据权利要求1所述的句子相似度计算方法，其特征在于：所述步骤S30的具体过程如下：S301、基于句子对训练文本获得平面特征训练文本，基于句子对测试文本获得平面特征测试文本；其中，平面特征训练文本和平面特征测试文本分别为句子对训练文本和句子对测试文本中每行一对句子的相似度计算平面特征；S302、由平面特征训练文本与浅层句法树训练文本获得浅层句法树特征训练文本；由平面特征测试文本与浅层句法树测试文本获得浅层句法树特征测试文本。5.根据权利要求1所述的句子相似度计算方法，其特征在于：所述步骤S40的具体过程如下：S401、使用SVR获得相似度计算模型，由浅层句法树特征训练文本在SVR模型中进行训练获得训练模型；S402、把训练模型以及浅层句法树特征测试文本作为输入，利用SVR工具获得相似度计算结果文本；其中，相似度计算结果文本每行的数值对应于句子对测试文本每行一对句子的相似度计算结果。6.一种句子相似度计算系统，其特征在于，包括：-预处理模块，对句子对训练文本和句子对测试文本中所有句子调...

【专利技术属性】
技术研发人员：杨萌，李培峰，朱巧明，周国栋，朱晓旭，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人