利用句义结构特征的句子相似度计算方法技术

技术编号：14688505 阅读：80 留言：0更新日期：2017-02-23 10:51

本发明专利技术为解决社交短文本句子相似度计算的特征稀疏问题，提出利用句义结构特征的句子相似度计算方法。首先基于句义结构模型分析句子语义，并利用主题模型挖掘潜在的主题知识，根据主题‑词语分布扩充句子特征，得到基于句子本身特征的句子向量，然后引入Paragraph Vector深度学习模型学习句子上下文特征，得到基于上下文信息的句子向量，最后加权由两种句子向量计算得到的句子相似度。本发明专利技术通过深度挖掘句子的语义信息和上下文信息，更加全面、准确地刻画了句子之间的内在联系，提高了相似度计算的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及利用句义结构特征的句子相似度计算方法，属于计算机科学及自然语言处理领域。
技术介绍
句子相似度计算用于衡量两个文本内容的语义相似程度，是自然语言处理中信息检索、自动摘要等任务的基础环节。伴随社交网站的快速发展，以微博为代表的社交短文本大量涌现，其篇幅短小、表示方式多样化，由于缺失长文档的结构化信息造成传统的句子相似度计算方法无法直接适用于此类短文本的句子相似度计算。目前，根据对句子语义分析的深度不同，针对社交短文本中句子的相似度计算方法主要包括基于词特征、基于词义特征和基于句法分析特征三类。基于词特征的方法是早期的句子相似度计算方法，该方法主要是将句子视为词的线性组合，采用统计的手段计算句子的词频、词性、句长、词序等词语表层信息，典型方法包括JaccardSimilarityCoefficient字符串匹配，其通过统计两个句子中包含的相同词数目作为句子的相似度、TF-IDF词频统计方法将句子表征为向量，计算余弦距离作为相似度结果。基于词义特征的方法从语义分析的角度，通过借助语义知识资源捕捉词语的语义信息。根据利用的资源不同，分为基于语义词典的方法和基于语料库的方法。基于语义词典的方法主要是借助WordNet、HowNet等基于词义组织词汇信息的词汇数据库，结合词义消歧的技术挖掘句子中词语在给定的上下文语境下所表达的涵义，从而提高整个句子的语义分辨率。基于语料库的方法主要通过引入语言模型框架，以两个词共同出现的概率大小来推断其相似性，常用的技术是利用潜在语言分析(LatentSemanticAnalysis，LSA)方法将词-文档矩阵进行奇异...

【技术保护点】
利用句义结构特征的句子相似度计算方法，所述方法包括以下步骤：步骤1，对短文本集进行预处理，先进行分句，然后进行分词和词性标注，去停用词；步骤2，结合句义结构特征和主题‑词语分布特征，对句子进行特征扩充，并计算句子相似度；步骤2.1，在步骤1的基础上，对每条句子进行句义结构分析，提取句子的话题、述题、基本项、一般项；步骤2.2，利用LDA(Latent Dirichlet Allocation)主题模型对短文本集进行分析，提取文本中的主题和主题下的词语分布，得到主题‑词语矩阵；步骤2.3，根据话题对句子进行特征扩充，得到基于话题的句子向量；步骤2.4，根据述题对句子进行特征扩充，得到基于述题的句子向量；步骤2.5，分别基于步骤2.3和2.4得到的两种句子向量计算句子相似度，对两个相似度值进行加权，得到句子间的最终相似度值，具体计算公式如下，sim1(SA,SB)=ω*SAt→·SBt→|SAt→||SBt→|+(1-ω)*SAc→&Ce...

【技术特征摘要】
1.利用句义结构特征的句子相似度计算方法，所述方法包括以下步骤：步骤1，对短文本集进行预处理，先进行分句，然后进行分词和词性标注，去停用词；步骤2，结合句义结构特征和主题-词语分布特征，对句子进行特征扩充，并计算句子相似度；步骤2.1，在步骤1的基础上，对每条句子进行句义结构分析，提取句子的话题、述题、基本项、一般项；步骤2.2，利用LDA(LatentDirichletAllocation)主题模型对短文本集进行分析，提取文本中的主题和主题下的词语分布，得到主题-词语矩阵；步骤2.3，根据话题对句子进行特征扩充，得到基于话题的句子向量；步骤2.4，根据述题对句子进行特征扩充，得到基于述题的句子向量；步骤2.5，分别基于步骤2.3和2.4得到的两种句子向量计算句子相似度，对两个相似度值进行加权，得到句子间的最终相似度值，具体计算公式如下，sim1(SA,SB)=ω*SAt→·SBt→|SAt→||SBt→|+(1-ω)*SAc→·SBc→|SAc→||SBc→|]]>其中，SA和SB代表任意两个句子，sim1(SA,SB)表示两个句子的相似度值，和分别表示句子SA和SB的基于话题的句子向量，和分别表示句子SA和SB的表示基于述题的句子向量，ω为可调参数，取值范围为[0,1]；步骤3，将经过步骤1预处理后的所有句子输入到PV(ParagraphVector)深度学习模型，利用PV模型学习文本特征，得到句子向量，并基于该句子向量计算句子间的余弦距离作为句子间的相似度，计算公式如下，sim2(SA,SB)=SAp→·SBp→|SAp→||SBp→|]]>其中，SA和SB代表任意两个句子，sim2(SA,SB)表示两个句子的相似度值，和分别表示用PV模型学习得到的句子向量；步骤4，将...

【专利技术属性】
技术研发人员：罗森林，陈倩柔，潘丽敏，原玉娇，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人