一种基于检索结果数量的短文本相似度计算方法技术

技术编号:7526513 阅读:443 留言:0更新日期:2012-07-12 07:04
本发明专利技术公开了一种基于检索结果数量的短文本相似度计算方法,包括如下步骤:(1)对短文本进行预处理;(2)将单个短文本和短文本的两两组合作为检索查询词分别提交给大规模语料库;(3)利用返回的检索结果数量来计算短文本两两之间的相似度。本计算方法不依赖传统的文本处理,而且能够快速和有效地得到计算结果。将短文本作为检索词,大规模语料库将返回包含该短文本的检索结果。检索结果内容包含该短文本的文本解释,而其数量可以看作是一个压缩器,蕴含着该短文本在该语料库的语义解释。

【技术实现步骤摘要】

本专利技术设计短文本的相似度计算,具体地指,属于文本挖掘领域。
技术介绍
短文本(Short Text)指那些长度较短的文本形式,它具有广泛的外延,越来越多的交流平台更加频繁地使用短文本,如手机短信息、即时消息、BBS标题、微博、在线聊天记录、博客及新闻评论等。目前,短文本数据量日益庞大,对短文本的文本挖掘在话题跟踪与发现、流行语分析、舆情预警、图像检索等领域有广泛的应用前景。但是,由于短文本的文本长度短,导致其样本特征非常稀疏,不利于检索分析。另外短文本表达简洁或者使用不符合规范的要求,往往会超出传统或者正常的文字表达意思,如现下网络流行的“微博”,网络用语中常常使用其谐音“围脖”进行代指。短文本的这些独特语言特征大大降低了短文本相似度计算的精度,所以如何有效地提高计算精度是短文本挖掘的一个难点。为解决该难点,我们提出,利用大规模语料库覆盖面广的特点,从语义上理解短文本的含义。
技术实现思路
本专利技术的目的是提供,能克服短文本自身样本特征不足和用语不规范的缺点,通过语义分析提高相似度计算的精度。为实现上述目的,本专利技术包括如下步骤(1)对短文本进行预处理;(2)将预处理后的单个短文本以及预处理后的短文本的两两组合作为检索查询词分别提交给语料库;(3)利用语料库返回的检索结果数量计算短文本两两之间的相似度。在上述技术方案中,所述步骤(1)具体为(1-1)利用通用的停用词列表对短文本进行过滤,所述通用的停用词为语气助词、 副词、介词和连接词;(1-2)过滤组成短文本的各个单词分词变换形式的结尾,提取出单词的词干,并计算所述词干的词频。在上述技术方案中,所述步骤O)中的语料库为Web搜索引擎或维基百科。在上述技术方案中,所述步骤C3)利用下述的公式计算短文本Sl和S2之间的相似度。权利要求1.,其特征在于,包括如下步骤(1)对短文本进行预处理;(2)将预处理后的单个短文本以及预处理后的短文本的两两组合作为检索查询词分别提交给语料库;(3)利用语料库返回的检索结果数量计算短文本两两之间的相似度。2.根据权利要求1所述基于检索结果数量的短文本相似度计算方法,其特征在于,所述步骤(1)具体为(1-1)利用通用的停用词列表对短文本进行过滤,所述通用的停用词为语气助词、副词、介词和连接词;(1-2)过滤组成短文本的各个单词分词变换形式的结尾,提取出单词的词干,并计算所述词干的词频。3.根据权利要求1所述基于检索结果数量的短文本相似度计算方法,其特征在于步骤O)中所用搜索引擎为Web搜索引擎或维基百科。4.根据权利要求1所述基于检索结果数量的短文本相似度计算方法,其特征在于,步骤(3)中相似度通过下式计算Similarity (si, s2) =-log/(^1^2)-log/(.1) +log/(.2)-log/(.1,.2)式中,f(sl)为将短文本si作为语料库的检索查询词得到的检索结果的数量;f(s2)是将短文本s2作为语料库的检索查询词得到的检索结果的数量;f (sl,s2)则将si和s2的组合作为语料库的检索查询词得到的检索结果的数量。5.根据权利要求1 4任一项所述基于检索结果数量的短文本相似度计算方法,其特征在于所述短文本的长度小于或者等于200字符。全文摘要本专利技术公开了,包括如下步骤(1)对短文本进行预处理;(2)将单个短文本和短文本的两两组合作为检索查询词分别提交给大规模语料库;(3)利用返回的检索结果数量来计算短文本两两之间的相似度。本计算方法不依赖传统的文本处理,而且能够快速和有效地得到计算结果。将短文本作为检索词,大规模语料库将返回包含该短文本的检索结果。检索结果内容包含该短文本的文本解释,而其数量可以看作是一个压缩器,蕴含着该短文本在该语料库的语义解释。文档编号G06F17/30GK102567537SQ20111045837公开日2012年7月11日 申请日期2011年12月31日 优先权日2011年12月31日专利技术者刘东飞, 夏红霞, 李琳, 袁景凌, 钟珞 申请人:武汉理工大学本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李琳钟珞袁景凌夏红霞刘东飞
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术