一种文本相似度比对方法及装置制造方法及图纸

技术编号：12810250 阅读：83 留言：0更新日期：2016-02-05 09:07

本申请一种文本相似度比对方法及装置，首先以文本为粗粒度，采用词的浅层相似度筛选出第一文本集合，进一步，通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度，确定第一文本与待对比文本的细粒度文本相似度，筛选出细粒度文本相似度超过第二阈值的第一文本，确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关，因此增强了对比效果和精确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息处理
，更具体地说，涉及一种文本相似度比对方法及装置。
技术介绍
随着互联网的飞速发展，信息技术的发展也突飞猛进，各类信息资源的数量以惊人的速度增长，如何对互联网上发布的文档进行侵权比对，成为亟待解决的问题。现有的技术一般采用基于媒体指纹的比对方式，媒体指纹比对方式中的参考文本的特征是固定的，通过将待对比文本的内容表示为与参考文本的特征同类型的特征，进而对比该特征，确定两份文本的相似度。由于媒体指纹比对方式中参考文本的特征是固定的，其不随着待对比文本的变化而变化，因此其文本相似度比对结果的精确度偏低。
技术实现思路
有鉴于此，本申请提供了一种文本相似度比对方法及装置，用于解决现有基于媒体指纹的比对方式所存在的文本相似度比对结果精确度低的问题。为了实现上述目的，现提出的方案如下:一种文本相似度比对方法，包括:接收待对比文本；从预置的参考文本集合中选取第一文本集合，所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值；以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，其中，细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定；筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。优选地，在所述从预置的参考文本集合中选取第一文本集合之前，该方法还包括:对所述待对比文本进行停用词、同义词过滤处理。优选地，所述从预置...

【技术保护点】
一种文本相似度比对方法，其特征在于，包括：接收待对比文本；从预置的参考文本集合中选取第一文本集合，所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值；以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，其中，细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定；筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。

【技术特征摘要】

【专利技术属性】
技术研发人员：姜晓丹，
申请(专利权)人：北京慧点科技有限公司，中国新闻出版研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人