一种面向开源情报的文本去重方法技术

技术编号:39179663 阅读:9 留言:0更新日期:2023-10-27 08:27
本发明专利技术公开了一种面向开源情报的文本去重方法,包括以下方法:建立开源情报文本集;建立专业领域词库基础集;建立临时扩展集;建立专业领域词库;利用通用词典和专业领域词库对开源情报文本集中的文本进行分词;计算文档j中非停用词的TFIDF值;将TFIDF值作为词汇i在文档j中的信息权重;计算文档j的simhash特征向量、文本相似度以及文本信息量;对于任意文档,设定相似度阈值,与其相似度大于阈值的文档被认定为重复文档,对于这些重复文档,将元数据进行合并,选取文本信息量最大的文档保留,将合并后的元数据附加为保留文档的元数据。通过这种方式能够在去重时有效保留素材中的元数据,避免了由素材去重造成的信息丢失。避免了由素材去重造成的信息丢失。避免了由素材去重造成的信息丢失。

【技术实现步骤摘要】
一种面向开源情报的文本去重方法


[0001]本专利技术属于文本去重
,具体为一种面向开源情报的文本去重方法。

技术介绍

[0002]随着网络分享便利性的提升和自媒体的发展,开源信息素材一方面在数量上持续增长,另一方面信息冗余也大幅提高。通过网络爬虫收集的信息素材中存在大量相互转发的同质内容,相较于单纯的文本去重,对这些素材进行去重处理时需要考虑的情况要更复杂一些。对于分析人员而言,一方面文本去重能够有效减少原始素材的数量,降低分析和审阅的工作量;另一方面在去重时保留最大信息素材,能够确保信息不因去重而发生丢失。
[0003]现有技术中,许多同内容素材经过转发者的编辑、整合和二次创作,无法依赖单纯的文本匹配进行重复判别,必须考虑语义层面的文本相似性。许多素材之间的内容属于部分重复,可能各自包含一些非重叠的独有内容,因此在通过文本相似度筛选重复素材时,还应考虑素材信息含量的高低,尽量保留信息含量最高的素材;由于开源情报搜集的特殊性,情报文本素材在爬取时会附带一些元数据,如来源(网站、机构等)、作者(包括作者和转发者)、关键词等,这些信息本身具有其情报价值,不能单纯因为素材文本去重而被一并丢弃。
[0004]在公开号为CN108345586A的专利中公开了一种文本去重方法及系统,其采用的技术方案为“目标文本数据预处理步骤;生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤;去重步骤。本专利技术针对网络文本独有的特性,在应用SimHash算法的策略上做出调整”。这种方式也只是单纯的实现了文本去重,适用的范围较小。

技术实现思路

[0005]本专利技术的目的在于提供一种面向开源情报的文本去重方法,以解决
技术介绍
中提出的以下技术问题:现有技术在去重时往往只关注相似度,而没有考虑待去重文本的信息量,因而可能在去重时导致信息丢失。
[0006]为解决上述技术问题,本专利技术所采用的技术方案是:一种面向开源情报的文本去重方法,包括以下方法:S1,收集开源情报,保留文本来源的元数据,建立开源情报文本集;S2,提取元数据字段,合并元数据字段建立专业领域词库基础集;S3,对专业领域词库基础集中的主题词汇组合拼接后形成临时扩展集;S4,将临时扩展集中的主题词汇在开源情报文本集中分别对标题和正文进行全文匹配,获得命中得分;设定阈值,保留命中得分大于阈值的主题词汇;保留的主题词汇形成专业领域词库;S5,利用通用词典和专业领域词库对开源情报文本集中的文本进行分词;计算文档j中非停用词的TFIDF值;将TFIDF值作为词汇i在文档j中的信息权重;S6,计算文档j的simhash特征向量、文本相似度以及文本信息量;其中,文本信息
量由以下方式计算:其中,为S5中计算的信息权重;为专业领域词库的放大因子,取值为:其中;S7,对于任意文档,设定相似度阈值,与其相似度大于阈值的文档被认定为重复文档,对于这些重复文档,将元数据进行合并,选取文本信息量最大的文档保留,将合并后的元数据附加为保留文档的元数据。
[0007]进一步地,开源情报通过网络爬虫技术获取。
[0008]进一步地,元数据为文本来源的格式化数据,此处元数据包含标题、作者、发布机构、日期、关键字、主体分类以及话题标签。
[0009]进一步地,专业领域词库基础集包括关键字、主题分类、话题标签;对专业领域词库基础集中属于关键字、主题分类、话题标签中的任意一至两个主题词汇进行组合拼接后形成临时扩展集。
[0010]进一步地,命中得分依据标题命中和正文命中按不同权重加权获得,计算方法如下:其中S代表得分,N代表文集中的文本数量,和分别为标题命中权重和正文命中权重,和分别为在第i篇文本标题中和正文中的命中次数。
[0011]进一步地,信息权重的计算方式如下:其中i是词汇编号,j是文档编号,表示词汇i在文档j中的出现次数,代表文档j的词量,N代表文集中的文档总数,为文集中包含词汇i的文档个数。
[0012]进一步地,文档j的simhash特征向量计算方式如下:其中,为取值全1的n维向量,bin为向量按位操作,对于向量中的任意元素x,有:。
[0013]进一步地,文本相似度的计算方法为两个文档的simhash特征向量异或运算后乘以取值全1的n维向量。
[0014]与现有技术相比,本专利技术具有以下有益效果:本专利技术在去重时兼顾了文本相似度和文本信息量,减少了可能由去重导致的信息丢失。
[0015]本专利技术结合开源情报的特点,在去重时有效保留了素材中的元数据,避免了由素材去重造成的信息丢失。
[0016]本专利技术能够根据设定的相似度阈值,对于相似度大于阈值的文档认定为重复文档,并对其元数据进行合并。然后从重复文档中选择文本信息量最大的文档作为保留文档,并将合并后的元数据附加到保留文档的元数据中。这样可以减少重复文档的冗余信息,提高文档的整体质量和准确性。
附图说明
[0017]图1为本专利技术的流程图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]实施例一种面向开源情报的文本去重方法,包括以下方法:S1,收集开源情报,保留文本来源的元数据,建立开源情报文本集;收集开源情报并保留文本来源的元数据,可以帮助建立一个开源情报文本集。这个文本集可以包含从各种开源来源收集到的文本数据,例如新闻报道、博客、论坛、企业专题报告、智库研究报告等。通过保留文本来源的元数据,可以追溯文本数据的来源,了解数据的可靠性和可信度,同时也方便后面的步骤。
[0020]S2,提取元数据字段,合并元数据字段建立专业领域词库基础集;提取元数据字段是指从原始文本数据中提取出与专业领域相关的元数据字段。元数据字段可以包括文本的标题、作者、时间、来源等信息。通过提取这些字段,可以对文本数据进行初步的整理和分类,为后续的处理和分析做准备。合并元数据字段是指将从不同文本数据中提取的元数据字段进行合并,建立一个统一的专业领域词库基础集。合并的目的是将不同来源的文本数据中的关键属性整合在一起,形成一个更全面和丰富的资源。
[0021]S3,对专业领域词库基础集中的主题词汇组合拼接后形成临时扩展集;在专业领域词库基础集中,可以根据不同的主题或领域进行词汇的组合。将主题词汇进行拼接,即将不同的主题词汇组合在一起,形成临时扩展集。这样的扩展集可以用于临时的文本分析任务,例如针对某个特定主题的文本进行关键词提取或实体识别。通过临时扩展集,可以更全面地覆盖特定主题相关的词汇,提高文本分析的准确性和效果。
[0022]S4,将临时扩展集中的主题词汇在开源情报文本集中分别对标题和正文进行全文
匹配,获得命中得分;设定阈值,保留命中得分大于阈值的主题词汇;保留的主题词汇形本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向开源情报的文本去重方法,其特征在于:包括以下方法:S1,收集开源情报,保留文本来源的元数据,建立开源情报文本集;S2,提取元数据字段,合并元数据字段建立专业领域词库基础集;S3,对专业领域词库基础集中的主题词汇组合拼接后形成临时扩展集;S4,将临时扩展集中的主题词汇在开源情报文本集中分别对标题和正文进行全文匹配,获得命中得分;设定阈值,保留命中得分大于阈值的主题词汇;保留的主题词汇形成专业领域词库;S5,利用通用词典和专业领域词库对开源情报文本集中的文本进行分词;计算文档j中非停用词的TFIDF值;将TFIDF值作为词汇i在文档j中的信息权重;S6,计算文档j的simhash特征向量、文本相似度以及文本信息量;其中,文本信息量由以下方式计算:其中,为S5中计算的信息权重;为专业领域词库的放大因子,取值为:其中;S7,对于任意文档,设定相似度阈值,与其相似度大于阈值的文档被认定为重复文档,对于这些重复文档,将元数据进行合并,选取文本信息量最大的文档保留,将合并后的元数据附加为保留文档的元数据。2.根据权利要求1所述的一种面向开源情报的文本去重方法,其特征在于:开源情报通过网络爬虫技术获取。3.根据权利要求1所述的一种面向开源情报的文本去重方法,其特征在于:元数据为文本来源的格式化数据,元数据包含标题、作...

【专利技术属性】
技术研发人员:刘婷
申请(专利权)人:天泽智慧科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1