基于重复数据筛选的数据排序方法、装置、设备及介质制造方法及图纸

技术编号:30348183 阅读:16 留言:0更新日期:2021-10-16 16:41
本发明专利技术涉及智能决策领域,揭露一种基于重复数据筛选的数据排序方法,包括:根据接收的查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列;对查询结果序列进行标签分类,得到第一分类结果序列;对第一分类结果序列进行相关度分类,得到第二分类结果序列;对第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列;将第三分类结果序列中所有资源数据按照每个资源数据对应相关度分数进行排序,得到目标查询结果序列。本发明专利技术还涉及一种区块链技术,所述查询结果序列可以存储在区块链节点中。本发明专利技术还提出一种基于重复数据筛选的数据排序装置、设备以及介质。本发明专利技术可以提高数据排序的效率。高数据排序的效率。高数据排序的效率。

【技术实现步骤摘要】
基于重复数据筛选的数据排序方法、装置、设备及介质


[0001]本专利技术涉及智能决策领域,尤其涉及一种基于重复数据筛选的数据排序方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前,数据排序在数据检索及数据推荐领域应用的非常广泛。在这种检索和推荐场景下,通常对检索或推荐的数据进行相关度打分,将所有数据按照分值从高到低降序进行排序展示。
[0003]但是由于检索或推荐的数据通常是非常丰富甚至会出现重复的,目前的数据排序方式会存在将相同或相似的数据堆在一起进行展示的问题,相似内容扎堆出现覆盖占据了大量的显示空间,导致对有效信息的获取变得困难,数据排序的效率低。

技术实现思路

[0004]本专利技术提供一种基于重复数据筛选的数据排序方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高数据排序的效率。
[0005]为实现上述目的,本专利技术提供的一种基于重复数据筛选的数据排序方法,包括:
[0006]根据接收的查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列;
[0007]对所述查询结果序列进行标签分类,得到第一分类结果序列;
[0008]对所述第一分类结果序列进行相关度分类,得到第二分类结果序列;
[0009]对所述第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列;
[0010]将所述第三分类结果序列中所有资源数据按照每个资源数据对应相关度分数进行排序,得到目标查询结果序列;<br/>[0011]将所述目标查询结果序列发送至所述查询请求对应的终端设备。
[0012]可选地,所述根据所述查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列,包括:
[0013]提取所述查询请求中的查询字段,将所述查询字段转换为向量,得到查询向量;
[0014]将所述资源数据集中的每个资源数据转换为向量,得到对应的资源向量;
[0015]计算所述查询向量及所述资源向量的相关度,得到对应的相关度分数;
[0016]筛选所述资源数据集中所述相关度分数大于预设相关度的资源数据,得到所述初始查询结果序列;
[0017]将所述初始查询结果序列中所有资源数据按照对应的相关度分数大小进行排序,得到所述查询结果序列。
[0018]可选地,所述对所述第一分类结果序列进行相关度分类,得到第二分类结果序列,包括:
[0019]根据所述查询结果序列构建分值区间;
[0020]利用所述分值区间对所述第一分类结果序列进行分类,得到所述第二分类结果序列。
[0021]可选地,所述根据所述查询结果序列构建分值区间,包括:
[0022]筛选所述查询结果序列的最大相关度分数,得到第一区间数据;
[0023]筛选所述查询结果序列的最小相关度分数,得到第二区间数据;
[0024]将所述第一区间数据及所述第二区间数据进行平均计算,得到第三区间数据;
[0025]将所述第一区间数据、第二区间数据及所述第三区间数据作为区间端点值构建两个连续区间,得到所述分值区间。
[0026]可选地,所述对所述第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列,包括:
[0027]利用预设算法对所述第二分类结果序列中每个资源数据进行编码,得到对应的数据编码;
[0028]计算所述第二分类结果序列对应的所有数据编码中任意两个数据编码的文本距离;
[0029]将小于预设阈值的所述文本距离确定为相似文本距离;
[0030]将所述第二分类结果序列中所有相似文本距离对应的资源数据进行关联分类,得到重复数据列表;
[0031]将所述第二分类结果序列对应的重复数据列表中的资源数据进行指数降分计算,得到所述第三分类结果序列。
[0032]可选地,所述将所述第二分类结果序列中所有相似文本距离对应的资源数据进行关联分类,得到重复数据列表,包括:
[0033]将所述第二分类结果序列中所有相似文本距离对应的资源数据作为节点进行树状分类,得到分类树;
[0034]将所述分类树对应的所有资源数据按照每个资源数据对应相关度分数进行排序,得到所述重复数据列表。
[0035]可选地,所述将所述第二分类结果序列对应的重复数据列表中的资源数据进行指数降分计算,得到所述第三分类结果序列,包括:
[0036]对所述第二分类结果序列对应的重复数据列表中预设排序位置及之后的所有资源数据对应的相关度分数进行指数计算,得到对应的更新后的相关度分数;
[0037]利用所述更新后的相关度分数替换对应的所述相关度分数,得到所述第三分类结果序列。
[0038]为了解决上述问题,本专利技术还提供一种基于重复数据筛选的数据排序装置,所述装置包括:
[0039]数据分类模块,用于根据接收的查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列;对所述查询结果序列进行标签分类,得到第一分类结果序列;对所述第一分类结果序列进行相关度分类,得到第二分类结果序列;
[0040]数据筛选模块,用于对所述第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列;
[0041]数据排序模块,用于将所述第三分类结果序列中所有资源数据按照每个资源数据对应相关度分数进行排序,得到目标查询结果序列;将所述目标查询结果序列发送至所述查询请求对应的终端设备。
[0042]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0043]存储器,存储至少一个计算机程序;及
[0044]处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于重复数据筛选的数据排序方法。
[0045]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于重复数据筛选的数据排序方法。
[0046]本专利技术实施例通过根据接收的查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列;对所述查询结果序列进行标签分类,得到第一分类结果序列,将不同标签的数据进行分类,避免同类数据扎堆显示;对所述第一分类结果序列进行相关度分类,得到第二分类结果序列,将每类标签的数据按照高相关度分和地相关度分进行分类,基于重复数据筛选的数据排序更加均衡;对所述第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列;将所述第三分类结果序列中所有资源数据按照每个资源数据对应相关度分数进行排序,得到目标查询结果序列,将重复数据的相关度分数进行降分,避免相似数据扎堆,使得排序后的数据显示更加多样,提高了基于重复数据筛选的数据排序的效率更高;将所述目标查询结果序列发送至所述查询请求对应的终端设备。因此本专利技术实施例提出的基于重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重复数据筛选的数据排序方法,其特征在于,所述方法包括:根据接收的查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列;对所述查询结果序列进行标签分类,得到第一分类结果序列;对所述第一分类结果序列进行相关度分类,得到第二分类结果序列;对所述第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列;将所述第三分类结果序列中所有资源数据按照每个资源数据对应相关度分数进行排序,得到目标查询结果序列;将所述目标查询结果序列发送至所述查询请求对应的终端设备。2.如权利要求1所述的基于重复数据筛选的数据排序方法,其特征在于,所述根据所述查询请求对预设的资源数据集进行相关性筛选排序,得到查询结果序列,包括:提取所述查询请求中的查询字段,将所述查询字段转换为向量,得到查询向量;将所述资源数据集中的每个资源数据转换为向量,得到对应的资源向量;计算所述查询向量及所述资源向量的相关度,得到对应的相关度分数;筛选所述资源数据集中所述相关度分数大于预设相关度的资源数据,得到所述初始查询结果序列;将所述初始查询结果序列中所有资源数据按照对应的相关度分数大小进行排序,得到所述查询结果序列。3.如权利要求1所述的基于重复数据筛选的数据排序方法,其特征在于,所述对所述第一分类结果序列进行相关度分类,得到第二分类结果序列,包括:根据所述查询结果序列构建分值区间;利用所述分值区间对所述第一分类结果序列进行分类,得到所述第二分类结果序列。4.如权利要求3所述的基于重复数据筛选的数据排序方法,其特征在于,所述根据所述查询结果序列构建分值区间,包括:筛选所述查询结果序列的最大相关度分数,得到第一区间数据;筛选所述查询结果序列的最小相关度分数,得到第二区间数据;将所述第一区间数据及所述第二区间数据进行平均计算,得到第三区间数据;将所述第一区间数据、第二区间数据及所述第三区间数据作为区间端点值构建两个连续区间,得到所述分值区间。5.如权利要求1至4中任意一项所述的基于重复数据筛选的数据排序方法,其特征在于,所述对所述第二分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到第三分类结果序列,包括:利用预设算法对所述第二分类结果序列中每个资源数据进行编码,得到对应的数据编码;计算所述第二分类结果序列对应的所有数据编码中任意两个数据编码的文本距离;...

【专利技术属性】
技术研发人员:李珊
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1