一种面向开源情报的文本去重方法技术

技术编号：39179663 阅读：9 留言：0更新日期：2023-10-27 08:27

本发明专利技术公开了一种面向开源情报的文本去重方法，包括以下方法：建立开源情报文本集；建立专业领域词库基础集；建立临时扩展集；建立专业领域词库；利用通用词典和专业领域词库对开源情报文本集中的文本进行分词；计算文档j中非停用词的TFIDF值；将TFIDF值作为词汇i在文档j中的信息权重；计算文档j的simhash特征向量、文本相似度以及文本信息量；对于任意文档，设定相似度阈值，与其相似度大于阈值的文档被认定为重复文档，对于这些重复文档，将元数据进行合并，选取文本信息量最大的文档保留，将合并后的元数据附加为保留文档的元数据。通过这种方式能够在去重时有效保留素材中的元数据，避免了由素材去重造成的信息丢失。避免了由素材去重造成的信息丢失。避免了由素材去重造成的信息丢失。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向开源情报的文本去重方法

[0001]本专利技术属于文本去重
，具体为一种面向开源情报的文本去重方法。

技术介绍

[0002]随着网络分享便利性的提升和自媒体的发展，开源信息素材一方面在数量上持续增长，另一方面信息冗余也大幅提高。通过网络爬虫收集的信息素材中存在大量相互转发的同质内容，相较于单纯的文本去重，对这些素材进行去重处理时需要考虑的情况要更复杂一些。对于分析人员而言，一方面文本去重能够有效减少原始素材的数量，降低分析和审阅的工作量；另一方面在去重时保留最大信息素材，能够确保信息不因去重而发生丢失。
[0003]现有技术中，许多同内容素材经过转发者的编辑、整合和二次创作，无法依赖单纯的文本匹配进行重复判别,必须考虑语义层面的文本相似性。许多素材之间的内容属于部分重复，可能各自包含一些非重叠的独有内容，因此在通过文本相似度筛选重复素材时，还应考虑素材信息含量的高低，尽量保留信息含量最高的素材；由于开源情报搜集的特殊性，情报文本素材在爬取时会附带一些元数据，如来源（网站、机构等）、作者（包括作者和转发者）、关键词等，这些信息本身具有其情报价值，不能单纯因为素材文本去重而被一并丢弃。
[0004]在公开号为CN108345586A的专利中公开了一种文本去重方法及系统，其采用的技术方案为“目标文本数据预处理步骤；生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤；去重步骤。本专利技术针对网络文本独有的特性，在应用SimHash算法的策略上做出调整”。这种方式也只是单纯的实现了文本...

【技术保护点】

【技术特征摘要】
1.一种面向开源情报的文本去重方法，其特征在于：包括以下方法：S1，收集开源情报，保留文本来源的元数据，建立开源情报文本集；S2，提取元数据字段，合并元数据字段建立专业领域词库基础集；S3，对专业领域词库基础集中的主题词汇组合拼接后形成临时扩展集；S4，将临时扩展集中的主题词汇在开源情报文本集中分别对标题和正文进行全文匹配，获得命中得分；设定阈值，保留命中得分大于阈值的主题词汇；保留的主题词汇形成专业领域词库；S5，利用通用词典和专业领域词库对开源情报文本集中的文本进行分词；计算文档j中非停用词的TFIDF值；将TFIDF值作为词汇i在文档j中的信息权重；S6，计算文档j的simhash特征向量、文本相似度以及文本信息量；其中，文本信息量由以下方式计算：其中，为S5中计算的信息权重；为专业领域词库的放大因子，取值为：其中；S7，对于任意文档，设定相似度阈值，与其相似度大于阈值的文档被认定为重复文档，对于这些重复文档，将元数据进行合并，选取文本信息量最大的文档保留，将合并后的元数据附加为保留文档的元数据。2.根据权利要求1所述的一种面向开源情报的文本去重方法，其特征在于：开源情报通过网络爬虫技术获取。3.根据权利要求1所述的一种面向开源情报的文本去重方法，其特征在于：元数据为文本来源的格式化数据，元数据包含标题、作...

【专利技术属性】
技术研发人员：刘婷，
申请(专利权)人：天泽智慧科技成都有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人