文本判重方法、装置、电子设备、存储介质及车辆制造方法及图纸

技术编号:40979231 阅读:12 留言:0更新日期:2024-04-18 21:26
本申请提供一种文本判重方法、装置、电子设备、存储介质及车辆,所述方法包括:获取库存文本数据和待判文本数据;对所述库存文本数据和所述待判文本数据进行分词处理,得到与所述库存文本数据对应的库存分词数据和与所述待判文本数据对应的待判分词数据;按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果;按照所述库存分词数据对所述待判分词数据进行语义判重,得到语义判重结果;按照所述库存分词数据对所述待判分词数据进行业务类别判重,得到类别判重结果;对所述关键词判重结果、语义判重结果和类别判重结果进行相加确定所述待判文本数据的判重结果。

【技术实现步骤摘要】

本申请涉及数据管理,特别是涉及一种文本判重方法、装置、电子设备、存储介质及车辆


技术介绍

1、在信息时代,文本数据的获取手段多种多样,获取的文本数据量也爆炸式增长,为了增加文本数据之间的独立性,需要对文本数据进行重复性判断,即文本判重。通过文本判重,可以识别出与库存文本数据相似性较高的待判文本数据,为后续删除相似性较高的文本数据提高整体文本数据的参考价值提供判断依据。

2、通常,文本判重是对文本数据中的全文关键词进行判重得到判重结果,例如,文本判重可以采用simhash对通用文本数据进行重复文本提取,得到对应的判重结果,但是该判重结果没有考虑文本的上下文语义关系,只是从词语重复的维度进行判重,导致判重结果中重复性维度单一,从而得到片面的判重结果。


技术实现思路

1、有鉴于此,本申请的目的在于提出一种文本判重方法、装置、电子设备、存储介质及车辆,用以解决或部分解决上述技术问题。

2、基于上述目的,本申请的第一方面提供了一种文本判重方法,所述方法包括:

3、获取库存文本数据和本文档来自技高网...

【技术保护点】

1.一种文本判重方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果,包括:

3.如权利要求2所述的方法,其特征在于,所述采用SimHash对所述库存分词数据和所述待判分词数据进行关键词判重,得到全文关键词判重结果,包括:

4.如权利要求2所述的方法,其特征在于,所述采用所述SimHash对所述库存车辆分词和所述待判车辆分词进行关键词判重,得到车辆关键词判重结果,包括:

5.如权利要求2所述的方法,其特征在于,所述按照所述库存分词数据对所述待判...

【技术特征摘要】

1.一种文本判重方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果,包括:

3.如权利要求2所述的方法,其特征在于,所述采用simhash对所述库存分词数据和所述待判分词数据进行关键词判重,得到全文关键词判重结果,包括:

4.如权利要求2所述的方法,其特征在于,所述采用所述simhash对所述库存车辆分词和所述待判车辆分词进行关键词判重,得到车辆关键词判重结果,包括:

5.如权利要求2所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行语义判重,得到语义判重结果,包括:

6.如权利要求5所述的方法,其特征在于,所述采用语义相似度算法对所述库存分词数据和所述待判分词数据进行语义判重,得到全文语义判重结果,包括:

7.如权利要求5所述的方法,其特征在于,所述采用所述语义相似度算法对所述库存车辆分词和所述...

【专利技术属性】
技术研发人员:黄海涛焦俊铭杜鹏乔举义王阳杨鲛
申请(专利权)人:北京罗克维尔斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1