【技术实现步骤摘要】
本专利技术设计短文本的相似度计算,具体地指,属于文本挖掘领域。
技术介绍
短文本(Short Text)指那些长度较短的文本形式,它具有广泛的外延,越来越多的交流平台更加频繁地使用短文本,如手机短信息、即时消息、BBS标题、微博、在线聊天记录、博客及新闻评论等。目前,短文本数据量日益庞大,对短文本的文本挖掘在话题跟踪与发现、流行语分析、舆情预警、图像检索等领域有广泛的应用前景。但是,由于短文本的文本长度短,导致其样本特征非常稀疏,不利于检索分析。另外短文本表达简洁或者使用不符合规范的要求,往往会超出传统或者正常的文字表达意思,如现下网络流行的“微博”,网络用语中常常使用其谐音“围脖”进行代指。短文本的这些独特语言特征大大降低了短文本相似度计算的精度,所以如何有效地提高计算精度是短文本挖掘的一个难点。为解决该难点,我们提出,利用大规模语料库覆盖面广的特点,从语义上理解短文本的含义。
技术实现思路
本专利技术的目的是提供,能克服短文本自身样本特征不足和用语不规范的缺点,通过语义分析提高相似度计算的精度。为实现上述目的,本专利技术包括如下步骤(1)对短文本进行预处理;(2)将预处理后的单个短文本以及预处理后的短文本的两两组合作为检索查询词分别提交给语料库;(3)利用语料库返回的检索结果数量计算短文本两两之间的相似度。在上述技术方案中,所述步骤(1)具体为(1-1)利用通用的停用词列表对短文本进行过滤,所述通用的停用词为语气助词、 副词、介词和连接词;(1-2)过滤组成短文本的各个单词分词变换形式的结尾,提取出单词的词干,并计算所述词干的词频。在上述技术方案中,所述 ...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:李琳,钟珞,袁景凌,夏红霞,刘东飞,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。