一种数据分类清理方法技术

技术编号:39873693 阅读:12 留言:0更新日期:2023-12-30 12:59
本发明专利技术公开了一种数据分类清理方法,包括:获取对数据源的标记结果,并根据标记结果以及预设保存规则来判断数据源是否为需要保存的数据源;若是,则对数据源所产生的数据进行重复化检索来获取重复数据,将重复数据中时间在先的数据进行保留,并对其他重复数据进行折叠,对保留的重复数据以及折叠的重复数据进行关联;若否,则对数据源所产生的数据进行关键词检索,已检索到关键词时,将检索到的若干个关键词按照联想规则匹配到类别后保留数据源所产生的数据,未检索到关键词时,删除将数据源所产生的数据

【技术实现步骤摘要】
一种数据分类清理方法


[0001]本专利技术涉及数据处理领域,特别是涉及一种数据分类清理方法


技术介绍

[0002]随着社交软件越来越频繁的使用,社交软件往往占用了电子设备大量的内存空间,电子设备也会因为内存不足而变得卡顿

因此,大量数据需要被清理来释放内存空间

现有技术,人们往往采用手动的方式来清理社交软件的数据,手动删除的效率低,十分浪费时间,还容易导致将重要信息删除

除此之外,人们在查看社交软件产生的数据,举例来讲查看聊天记录时,重复数据也都一一展示在用户面前,这样,重复数据也浪费了大量的显示空间,在展示界面一定的情况下,用户也无法获取更多的信息

现有技术中,申请号为
CN201610276389.1
公开的聊天记录保存方法无区别对待聊天记录,没办法对重要聊天记录予以区别保存,申请号为
CN202110036760.8
是对重复文件的处理,不适用聊天记录方面

因此,本专利技术人提供了一种数据分类清理方法来解决上述问题


技术实现思路

[0003]为了解决上述问题,本专利技术的目的是提供一种数据分类清理方法,可以对不重要的数据进行直接清理,对重要数据进行保存并对重要数据中的重复数据进行区分标记折叠等来释放更多的显示空间

[0004]基于此,本专利技术提供了一种数据分类清理方法,所述方法包括:
[0005]获取对数据源的标记结果,并根据标记结果以及预设保存规则来判断所述数据源是否为需要保存的数据源;
[0006]若是,则对所述数据源所产生的数据进行重复化检索来获取重复数据,将重复数据中时间在先的数据进行保留,并对其他所述重复数据进行折叠,对保留的所述重复数据以及折叠的所述重复数据进行关联;
[0007]若否,则对所述数据源所产生的数据进行关键词检索,已检索到所述关键词时,将检索到的若干个关键词按照联想规则匹配到类别后保留所述数据源所产生的数据,未检索到所述关键词时,删除将所述数据源所产生的数据

[0008]其中,所述获取对数据源进行标记结果包括:
[0009]获取用户根据与所述数据源所属用户之间的用户关系来对所述数据源进行的标记,还包括获取用户根据所述数据源所属用户的职业即他方职业来对所述数据源进行的补充标记

[0010]其中,所述根据标记结果以及预设保存规则来判断所述数据源是否为需要保存的数据源包括:
[0011]所述标记结果包括:用户关系以及他方职业;根据所述用户关系以及他方职业来判断亲密度;
[0012]所述保存规则包括:所述亲密度大于亲密度阈值时,将保存所述亲密度对应数据
源中的数据,所述亲密度不大于亲密度阈值时,将不保存所述亲密度对应数据源中的数据

[0013]其中,根据所述用户关系以及他方职业来判断亲密度包括:
[0014]所述用户关系包括:亲属关系

同学关系

同事关系

普通关系,根据用户关系来获取第一得分,其中,所述亲属关系的得分大于所述同学关系的得分大于所述同事关系的得分大于所述普通关系的得分;
[0015]判断所述他方职业与自身职业的匹配度,根据所述匹配度来获取第二得分,所述自身职业预先设定;
[0016]所述第一得分与第二得分相加来得到所述亲密度

[0017]其中,所述对保存的所述重复数据以及折叠的所述重复数据进行关联包括:
[0018]将用户显示界面的时间在先的重复数据采用预设标记方法来进行标记,所述标记方法包括:判断所述重复数据的数量,若所述重复数据的数量为一,则对所述重复数据中时间在先的进行标记;若所述重复数据的数量为多个,则对所述重复数据中时间在先的进行颜色区分后标记,折叠的所述重复数据颜色与时间在先的所述重复数据的颜色一致,所述标记方式为在所述重复数据的右上角或左上角标明重复次数,折叠的所述重复数据在接收到展开请求时,折叠的所述重复数据展开显示所述重复数据

[0019]其中,对所述数据源所产生的数据进行重复化检索来获取重复数据包括:
[0020]分析所述数据源所产生的数据类型,所述数据类型包括:图片

文字数据

语音数据以及视频数据;
[0021]当所述数据类型为图片时,任意所述图片之间的相似度大于相似度阈值时,所述图片为重复数据;
[0022]当所述数据类型为文字数据时,所述文字数据对应文字相同且文字长度相同时,所述文字数据为重复数据;
[0023]当所述数据类型为语音数据时,将所述语音数据识别为所述文字数据,所述文字数据对应文字相同且文字长度相同时,所述文字数据为重复数据;
[0024]当所述数据类型为视频数据时,获取所述视频数据之间的重复度,任意所述视频之间的重复度大于重复度阈值时,所述视频数据为重复数据

[0025]其中,获取所述视频数据之间的重复度包括:
[0026]获取两个视频的播放时长,并将所述播放时长来进行比对;
[0027]若所述播放时长不一致,则所述两个视频不为重复数据;
[0028]若所述播放时长一致,则分别获取两个视频的封面帧图片;
[0029]将两个所述封面帧图片进行比对来获取相似度;
[0030]若所述相似度不大于相似度阈值时,所述两个视频不为重复数据;
[0031]若所述相似度大于所述相似度阈值,则根据所述播放时长来确定选取第一数量的视频帧,并在所述两个视频中分别选取第一数量的视频帧;
[0032]将所述两个视频中对应选取的视频帧进行比对来获取所述第一数量的相似度,所述相似度之和大于预设的与所述第一数量相匹配的相似度和值且每个所述相似度均大于所述相似度阈值时,所述两个视频为重复数据

[0033]其中,根据所述播放时长来确定选取第一数量的视频帧,并在所述两个视频中分别选取第一数量的视频帧包括
:
[0034]采用所述播放时长除以单位播放时长,若所述播放时长除以单位播放时长能够除尽,则所述第一数量为播放时长除以单位播放时长的商,若播放时长除以单位播放时长不能够除尽即有余数,则所述第一数量为播放时长除以单位播放时长的商再加上一;
[0035]在播放时长内随机选取所述第一数量的播放时间点,获取所述播放时间点所对应的视频帧,一个所述播放时间点对应一个所述视频帧

[0036]其中,所述将检索到的若干个关键词按照联想规则匹配到类别后保留所述数据源所产生的数据包括:
[0037]若干个所述关键词按照联想规则对应一个关键词类别,所述联想规则是将若干个所述关键词匹配至所述关键词类别,所述关键词类别是对若干个所述关键词之间关系的概括

[0038]其中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据分类清理方法,其特征在于,包括:获取对数据源的标记结果,并根据所述标记结果以及预设保存规则来判断所述数据源是否为需要保存的数据源;若是,则对所述数据源所产生的数据进行重复化检索来获取重复数据,将重复数据中时间在先的数据进行保留,并对其他所述重复数据进行折叠,对保留的所述重复数据以及折叠的所述重复数据进行关联;若否,则对所述数据源所产生的数据进行关键词检索,已检索到所述关键词时,将检索到的若干个关键词按照联想规则匹配到类别后保留所述数据源所产生的数据,未检索到所述关键词时,删除将所述数据源所产生的数据
。2.
如权利要求1所述的数据分类清理方法,其特征在于,所述获取对数据源进行标记结果包括:获取用户根据与所述数据源所属用户之间的用户关系来对所述数据源进行的标记,还包括获取用户根据所述数据源所属用户的职业即他方职业来对所述数据源进行的补充标记
。3.
如权利要求2所述的数据分类清理方法,其特征在于,所述根据标记结果以及预设保存规则来判断所述数据源是否为需要保存的数据源包括:所述标记结果包括:用户关系以及他方职业;根据所述用户关系以及他方职业来判断亲密度;所述保存规则包括:所述亲密度大于亲密度阈值时,将保存所述亲密度对应数据源中的数据,所述亲密度不大于亲密度阈值时,将不保存所述亲密度对应数据源中的数据
。4.
如权利要求3所述的数据分类清理方法,其特征在于,根据所述用户关系以及他方职业来判断亲密度包括:所述用户关系包括:亲属关系

同学关系

同事关系

普通关系,根据用户关系来获取第一得分,其中,所述亲属关系的得分大于所述同学关系的得分大于所述同事关系的得分大于所述普通关系的得分;判断所述他方职业与自身职业的匹配度,根据所述匹配度来获取第二得分,所述自身职业预先设定;所述第一得分与第二得分相加来得到所述亲密度
。5.
如权利要求1所述的数据分类清理方法,其特征在于,所述对保存的所述重复数据以及折叠的所述重复数据进行关联包括:将用户显示界面的时间在先的重复数据采用预设标记方法来进行标记,所述标记方法包括:判断所述重复数据的数量,若所述重复数据的数量为一,则对所述重复数据中时间在先的进行标记;若所述重复数据的数量为多个,则对所述重复数据中时间在先的进行颜色区分后标记,折叠的所述重复数据颜色与时间在先的所述重复数据的颜色一致,所述标记方式为在所述重复数据的右上角或左上角标明重复次数,折叠的所述重复数据在接收到展开请求时,折叠的所述重复数据展开显示所述重复数据
。6.
如权利要求1所述的数据分类清理方法,其特征在于,对所述数据源所产生的数据...

【专利技术属性】
技术研发人员:程惠茹闫娟王雅宁
申请(专利权)人:河南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1