基于语义的短文本相似度计算方法技术

技术编号：14526668 阅读：294 留言：0更新日期：2017-02-02 06:20

本发明专利技术公开了一种基于语义的短文本相似度计算方法。其包括语料库数据预处理并建立词语Embedding，构建词语语义树，计算短文本中词语之间的语义相似度，计算短文本之间的语义相似度。本发明专利技术以深度学习的词语Embedding为基础，结合分层聚类方法创建词语语义树，计算短文本中词语之间的相似度，并且在此基础上结合短文本的多种特征，计算短文本之间的语义相似度，有效解决了现有技术中词语语义树不能刻画新鲜词语与已知词语语义关系的缺点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于短文本相似度计算
，尤其涉及一种基于语义的短文本相似度计算方法。
技术介绍
短文本间的语义相似度计算在人工智能、自然语言处理、认知学、语义学、心理学、生物信息学等领域里都具有理论的研究价值和应用背景。利用短文本相似度能很好地克服语料库中的信息冗余。目前，许多研究都表明短文本相似度计算能促进许多自然语言处理任务，如事件检测，信息检索，文本正规化，自动文本摘要，文本分类和聚类等。短文本相似度计算的应用领域非常广泛，一个好的语义相似度计算方法能在很大程度上改进现有很多系统的性能。目前，短文本相似度的计算方法有很多，主要可以分为如下几类：基于语义词典的方法、基于语料库的方法、基于特征的方法、借助互联网资源的方法。基于语义词典的方法是指通过语义词典，如WordNet[],PPDB,FrameNet等，计算词与词之间的语义相似度，最后将词语语义相似度综合起来得到文本语义相似度的方法。基于语料库的方法是指对大规模文本集进行统计分析，典型的方法有LSA(LatentSemanticAnalysis)[]和HAL(HyperspaceAnaloguestoLanguage)[]。基于特征的方法[]试图用一些事先定义好的特征来表示短文本，然后通过分类器来获取短文本的语义相似度。借助互联网资源的方法[]大多数都利用搜索引擎的返回结果来丰富短文本的上下文信息或者计算词或实体的相似度从而计算短文本的语义相似度。基于语义词典的方法非常依赖于所查询的语义词典的完备性，因为短文本中可能会包含词典中不存在的词，从而造成无法计算该短文本与其他短文本的语义相似度。其次，词...

【技术保护点】
一种基于语义的短文本相似度计算方法，其特征在于，包括以下步骤：A、对语料库数据进行预处理，根据word2vec超参数建立词语Embedding；B、采用分层聚类方法构建语料库的词语语义树；C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度；D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。

【技术特征摘要】
1.一种基于语义的短文本相似度计算方法，其特征在于，包括以下步骤：A、对语料库数据进行预处理，根据word2vec超参数建立词语Embedding；B、采用分层聚类方法构建语料库的词语语义树；C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度；D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。2.如权利要求1所述的基于语义的短文本相似度计算方法，其特征在于，所述步骤A中对语料库数据进行预处理，具体为：将语料库中的所有词语都转换为小写，并进行分词；同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表，其中N为预设出现次数阈值。3.如权利要求2所述的基于语义的短文本相似度计算方法，其特征在于，所述步骤A中根据word2vec超参数建立词语Embedding，具体为：采用不同超参数训练word2vec的CBoW和SG模型，利用余弦距离作为词语Embedding的语义相似度，筛选前三个相似度最高的词语作为同义词，采用WordNet作为同义词知识库，通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数，从而建立词语Embedding；其中，准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例，召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例，F1分数表示为4.如权利要求3所述的基于语义的短文本相似度计算方法，其特征在于，所述步骤B采用分层聚类方法构建语料库的词语语义树，具体为：利用SimLex-999数据集确定距离度量和连接度量，采用分层聚类方法根...

【专利技术属性】
技术研发人员：费高雷，胡馨月，胡光岷，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人