一种用于短文本的去重方法及装置制造方法及图纸

技术编号:15192089 阅读:102 留言:0更新日期:2017-04-20 11:13
本发明专利技术实施例公开了一种用于短文本的去重方法,该方法包括获取短文本的文本串信息;对所述文本串进行分词,根据所述文本串的分词信息得到所述文本串的关键词;根据所述关键词对应的权重得到文本子串,所述文本子串包括阈值个数的关键词;去除所述文本子串的重复项。本发明专利技术实施例提供的技术方案,通过获取文本串的关键词,达到了对原文本串的泛化效果,提高了去重的泛化能力和效率,计算量小,实现了多个文本串间去重的效果。

【技术实现步骤摘要】

本专利技术实施例涉及文本处理
,尤其涉及一种用于短文本的去重方法及装置。
技术介绍
文本去重是指去除文本串中相同的字、词语或者语义相近的成分。随着互联网技术的不断发展,出现了大量的短信息流,这些信息的数量巨大,但是长度一般都很短,此类信息多被称为短文本,具体的,短文本是指长度非常短,一般在200个字符以内的文本,例如常见的通过移动通信网络发出的手机短消息,通过即时通信软件发出的即时消息,网络日志的评论、互联网新闻的评论等等。当前文本去重方法主要是文本哈希方法和相似度比较法。文本哈希方法分为一致性哈希和局部敏感性哈希,一致性哈希不具有泛化性,判断条件过于严格;局部敏感性哈希比较适合网页等相对长的文本;相似度比较方法需要两两比较,计算量过大,无法适应海量文本的计算。由于短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征,且短文本实时性特别强,数量异常庞大,对短文本的处理相对于长文本处理具有更高的效率要求;短文本语言表达简洁,错误拼写、不规范用户和噪音比较多,可利用的信息有限,词语稀疏严重,采用长文本的去重方法直接处理短文本的去重问题效果就会下降。
技术实现思路
有鉴于此,本专利技术提出一种用于短文本的去重方法及装置,解决了文本去重中判断条件过于严格等问题,提高了短文本去重的泛化能力和效率。第一方面,本专利技术实施例提供了一种用于短文本的去重方法,所述方法包括:获取短文本的文本串信息;对所述文本串进行分词,根据所述文本串的分词信息得到所述文本串的关键词;根据所述关键词对应的权重得到文本子串,所述文本子串包括阈值个数的关键词;去除所述文本子串的重复项。第二方面,本专利技术实施例提供了一种用于短文本的去重装置,所述装置包括:获取单元,用于获取短文本的文本串信息;提取单元,与所述获取单元相连,用于对所述文本串进行分词,根据所述文本串的分词信息得到所述文本串的关键词;处理单元,与所述提取单元相连,用于根据所述关键词对应的权重得到文本子串,所述文本子串包括阈值个数的关键词;操作单元,与所述处理单元相连,用于去除所述文本子串的重复项。本专利技术实施例中,通过对短文本的文本串进行分词、提取关键词等泛化操作,并根据关键词的权重信息获取文本子串,去除文本子串中的重复项,达到了对原文本串的泛化效果,提高了去重的泛化能力和效率,计算量小,实现了一个文本串内或多个文本串间去重的效果。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术实施例一中的一种用于短文本的去重方法的流程图;图2是本专利技术实施例二中的一种用于短文本的去重方法的流程图;图3是本专利技术实施例三中的一种短文本的去重方法的流程图;图4是本专利技术实施例四中的一种用于短文本的去重装置的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。另外还需要说明的是,为了便于说明,以下实施例中示出了与本专利技术相关的示例,这些示例仅作为说明本专利技术实施例的原理所用,并不作为对本专利技术实施例的限定,同时,这些示例的具体数值会根据不同的应用环境和装置或者组件的参数不同而不同。本专利技术实施例的用于短文本去重的方法及装置可以运行于安装有Windows(微软公司开发的操作系统平台)、Android(谷歌公司开发的用于便携式可移动智能设备的操作系统平台)、iOS(苹果公司开发的用于便携式可移动智能设备的操作系统平台)、WindowsPhone(微软公司开发的用于便携式可移动智能设备的操作系统平台)等操作系统的终端中,该终端可以是台式机、笔记本电脑、移动电话、掌上电脑、平板电脑、数码相机、数码摄像机等等中的任意一种。实施例一图1是本专利技术实施例一中的一种用于短文本去重的方法的流程图,该方法用于短文本的去重操作,该方法可以由具有文档处理功能的装置来执行,该装置可以由软件和/或硬件方式实现,例如典型的是用户终端设备,例如手机、电脑等。本实施例中,泛化关系是指元素的一般描述和具体描述的关系,具体描述建立在一般描述的基础之上,并对其进行了扩展。泛化是指对元素进行操作使其更一般化。本实施例中的用于短文本去重的方法包括:步骤S110、步骤S120、步骤S130和步骤S140。步骤S110,获取短文本的文本串信息。具体的,用户输入需要处理的文本串,获得文本串的信息。可选的,文本串的信息可以包括但不限于文本串的名称、文本串的内容、文本串的长度和文本串中各词语的语义。可选的,文本串的名称可以是S。步骤S120,对所述文本串进行分词,根据所述文本串的分词信息得到所述文本串的关键词。具体的,对所述文本串进行分词。分词技术是信息处理的基础环节,分词的主要任务是通过计算机自动完成对句子的切分,识别出独立的词。可选的,该分词算法可以选为最短路径法,最短路径法用于计算一个节点到其他所有节点的最短路径,主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。可选的,对文本串S:我要去工商银行了,利用最短路径法分词结果为:我要去工商银行了。对文本串的分词信息进行处理,获得文本串的关键词信息。其中,关键词信息可以包括但不限于:能表达文本串实际含义的动词、名词和形容词。文本串S:我要去工商银行了,关键词信息为:我去工商银行。步骤S130,根据所述关键词对应的权重得到文本子串,所述文本子串包括阈值个数的关键词。具体的,计算各关键词的权重,系统设定一个个数阈值,以各关键词对应的权重为判断依据,选择阈值个数的关键词作为文本子串。步骤S140,去除所述文本子串的重复项。具体的,经过对文本串进行分词、提取关键词等一系列的泛化操作后,得到对应文本子串,此时,去除文本子串中的重复项。该该重复项可以包括但不限于:文本串中相同的字或词、语义相近的字或词。可选的,综合应用一致性哈希算法和局部敏感性哈希算法。一致性哈希算法,例如消息摘要算法(Message-DigestAlgorithm5,MD5),murmur哈希算法等,利用一致性哈希算法,对经过泛化处理后的文本串进行操作,生成的哈希串值是文本串的唯一标识。局部敏感性哈希算法,如SimHash算法,通过对生成的哈希串值进一步通过海明距离计算相似度判断是否为相同或同类文本。海明距离是指,在信息编码中,两个合法代码对应位上编码不同的位数,海明距离小于3认为两个文本串相同。综合应用一致性哈希算法和局部敏感性哈希算法,根据生成的哈希串值和海明距离对文本子串进行去重操作本专利技术实施例中,通过对短文本的文本串进行分词、提取关键词等泛化操作,并根据关键词的权重信息获取文本子串,去除文本子串中的重复项,达到了对原文本串的泛化效果,提高了去重的泛化能力和效率,计算量小,实现了一个文本串内或多个文本串间去重的效果。实施例二图2是本专利技术实施例二中的一种用于短文本去重的方法的流程图,本实施例在实施例一的基础上,进一步解释了步骤S120、步骤S130和步骤S140。步骤S120中,根据所述文本串的分词信息得到所述文本串的关键词包括:去除所述分词信息中的停用词,并进行归一化处理。步骤S130中,本文档来自技高网...
一种用于短文本的去重方法及装置

【技术保护点】
一种用于短文本的去重方法,其特征在于,包括:获取短文本的文本串信息;对所述文本串进行分词,根据所述文本串的分词信息得到所述文本串的关键词;根据所述关键词对应的权重得到文本子串,所述文本子串包括阈值个数的关键词;去除所述文本子串的重复项。

【技术特征摘要】
1.一种用于短文本的去重方法,其特征在于,包括:获取短文本的文本串信息;对所述文本串进行分词,根据所述文本串的分词信息得到所述文本串的关键词;根据所述关键词对应的权重得到文本子串,所述文本子串包括阈值个数的关键词;去除所述文本子串的重复项。2.根据权利要求1所述的短文本的去重方法,其特征在于,所述文本子串包括阈值个数的关键词包括:去除所述文本串中关键词的权重小于预设权重阈值的关键词;或者,依据所述关键词对应的权重,选取所述文本串中阈值个数的关键词。3.根据权利要求1所述的短文本的去重方法,其特征在于,根据所述文本串的分词信息得到所述文本串的关键词包括:去除所述分词信息中的停用词,并进行归一化处理。4.根据权利要求1所述的短文本的去重方法,其特征在于,根据所述关键词对应的权重,得到文本子串,所述文本子串包括阈值个数的关键词还包括:影响所述关键词权重的因素至少包括各关键词的频次和/或逆向文档频率。5.根据权利要求1所述的短文本的去重方法,其特征在于,根据所述关键词对应的权重,得到文本子串,所述文本子串包括阈值个数的关键词,还包括:通过预设分隔符或分割串将所述文本串中两个或两个以上的关键词连成短语。6.根据权利要求1所述的短文本的去重方法,其特征在于,去除所述文本子串的重复项包括:如果所述文本子串为一个...

【专利技术属性】
技术研发人员:李苗苗
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1