工作票文本去重方法、装置、系统及计算机存储介质制造方法及图纸

技术编号:23672218 阅读:39 留言:0更新日期:2020-04-04 17:43
本申请涉及一种工作票文本去重方法、装置、系统及计算机存储介质,其中,所述方法包括以下步骤:依次获取工作票数据库中的第一待检测工作票数据;依次将各第一待检测工作票数据与第一剩余的工作票数据进行比对;根据比对的结果,删除重复的工作票数据,得到第二剩余的工作票数据;依次获取工作票数据库中的第二待检测工作票数据;依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据,进而实现对工作票数据库的工作票文本去重。本申请能够在去重过程中,有效地剔除重复文本,提高去重效率,以及提高数据库的使用效率。

Method, device, system and computer storage medium for text de duplication of work order

【技术实现步骤摘要】
工作票文本去重方法、装置、系统及计算机存储介质
本申请涉及文本信息处理
,特别是涉及一种工作票文本去重方法、装置、系统及计算机存储介质。
技术介绍
工作票是国标中明确要求在电气设备或线路上工作的重要组织措施;是明确安全职责、履行工作许可手续和实施安全技术措施的书面依据;是电力系统保障人身安全、电网安全和设备安全的手段之一。目前,工作票已经建立了庞大的数据库。长期以来的数量积累使得大量的数据堆积在数据库中,没有得到进一步的处理以及深度数据发掘,尤其是工作票数据中,同样的工作任务可能会持续地出现,使得数据库中有大量的数据是重复出现的,使得对数据库的利用效率有所下降。在实现过程中,专利技术人发现传统技术中至少存在如下问题:传统的工作票数据库中,通常任由数据进行重复累积,导致数据库的高相似度文本内容大量堆积,降低了数据库的使用效率。
技术实现思路
基于此,有必要传统的工作票数据库中,通常任由数据进行重复累积,导致数据库的高相似度文本内容大量堆积,降低了数据库的使用效率的问题,提供一种工作票文本去重方法、装置、系统及计算本文档来自技高网...

【技术保护点】
1.一种工作票文本去重方法,其特征在于,包括以下步骤:/n依次获取工作票数据库中的第一待检测工作票数据;/n依次将各所述第一待检测工作票数据与所述工作票数据库中第一剩余的工作票数据进行比对;/n根据比对的结果,删除所述第一剩余的工作票数据中与所述待检测工作票数据相同的工作票数据,得到所述工作票数据库中第二剩余的工作票数据;/n依次获取所述工作票数据库中的第二待检测工作票数据;所述第二待检测工作票数据为所述第二剩余的工作票数据中的工作票数据;/n依次将各所述第二待检测工作票数据与所述第二剩余的工作票数据进行相似度匹配;/n根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的...

【技术特征摘要】
1.一种工作票文本去重方法,其特征在于,包括以下步骤:
依次获取工作票数据库中的第一待检测工作票数据;
依次将各所述第一待检测工作票数据与所述工作票数据库中第一剩余的工作票数据进行比对;
根据比对的结果,删除所述第一剩余的工作票数据中与所述待检测工作票数据相同的工作票数据,得到所述工作票数据库中第二剩余的工作票数据;
依次获取所述工作票数据库中的第二待检测工作票数据;所述第二待检测工作票数据为所述第二剩余的工作票数据中的工作票数据;
依次将各所述第二待检测工作票数据与所述第二剩余的工作票数据进行相似度匹配;
根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据。


2.根据权利要求1所述的工作票文本去重方法,其特征在于,所述根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
获取对应所述相似度大于预设阈值的工作票数据的索引号;
根据所述索引号,删除所述相似度大于预设阈值的工作票数据。


3.根据权利要求1所述的工作票文本去重方法,其特征在于,所述根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
基于TF-IDF算法处理所述第二待检测工作票数据和所述第二剩余的工作票数据,得到所述相似度。


4.根据权利要求3所述的工作票文本去重方法,其特征在于,所述基于TF-IDF算法处理所述第二待检测工作票数据和所述第二剩余的工作票数据,得到所述相似度的步骤包括:
对所述第二待检测工作票数据进行分词,得到工作票分词信息;
将所述工作票分词信息输入TF-IDF模型进行处理,得到对应所述第二待检测工作票数据的次数;
基于TF-IDF算法处理所述次数,得到所述相似度。


5.根据权利要求1所述的工作票文本去重方法,其特征在于,依次获取所述工作票数据库中的第二待检测工作票数据的步骤之前还包括:
将所述第二待检测工作票数据与所述工作票数据库的典型工作票数据进行匹配;
依次获取所述工作票数据库中的第二待检测工作票...

【专利技术属性】
技术研发人员:黎颖刘晶黄宇黄薇蓉易满成
申请(专利权)人:广州供电局有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1