一种基于文本信息相似度的文本排序方法、设备和存储介质技术

技术编号：38835086 阅读：16 留言：0更新日期：2023-09-17 09:52

本发明专利技术公开了一种基于文本信息相似度的文本排序方法、设备和存储介质，包括：获取用户检索文本，根据用户检索文本获取初始候选集；对初始候选集中数据的主题进行切词，将切出词与原数据进行关联规则计算和权重计算，根据计算结果对初始候选集进行相似度与聚类计算获得分类候选集；计算用户检索文本与分类候选集中各聚类中心的距离，选取符合要求的分类数据作为相似数据集；分别计算用户检索文本与相似数据集中数据的相似度并排序，获得匹配结果。本发明专利技术根据用户意图对数据进行筛选，然后对每一条数据进行分词，根据各数据之间的相似度完成初始候选集的分类，获得相似度设定范围内的分类，为用户提供符合意图的具有多样性的更贴切的信息。切的信息。切的信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本信息相似度的文本排序方法、设备和存储介质

[0001]本专利技术属于智能文本排序
，特别是涉及一种基于文本信息相似度的文本排序方法、设备和存储介质。

技术介绍

[0002]互联网时刻产生着海量的信息，新闻、论坛、博客等媒体不停地生成供用户浏览的网页，这些网页中承载了各种文本信息。一方面，网络信息的丰富性与透明性为用户提供了前所未有的便利；另一方面，由于信息的数量过于庞大，因此给用户查询带来了很大的困难，其中大量的用户不感兴趣的信息或者垃圾信息将很多有意义的信息淹没。大量激增的数据中往往又隐藏着许多重要的信息，如果能把这些信息从数据库中提取出来，就能为用户创造很多潜在的利润。因此，对大量历史数据进行分析处理，挖掘出有用的知识就显得非常迫切。
[0003]目前，很多网站通过将热门信息推荐给用户来提高服务质量。然而，热门信息的量仍然非常大，并且所有用户接收到的信息是完全相同的。在现实中，由于不同的人对信息种类的需求不同，用户希望能够将有限的精力用在阅读自己关心的内容上。

技术实现思路

[0004]本专利技术的目的是提供一种基于文本信息相似度的文本排序方法、设备和存储介质，以解决上述现有技术存在的问题。
[0005]为实现上述目的，本专利技术提供了一种基于文本信息相似度的文本排序方法，包括：
[0006]获取用户检索文本，根据所述用户检索文本获取初始候选集；
[0007]将所述初始候选集中的每一条数据的主题进行切词，将切词获得的切出词与原数据进行关联规则计算和...

【技术保护点】

【技术特征摘要】
1.一种基于文本信息相似度的文本排序方法，其特征在于，包括以下步骤：获取用户检索文本，根据所述用户检索文本获取初始候选集；将所述初始候选集中的每一条数据的主题进行切词，将切词获得的切出词与原数据进行关联规则计算和权重计算，根据计算结果对所述初始候选集进行相似度计算与聚类计算获得分类候选集；对所述用户检索文本依次进行校验、分词与权重计算；计算所述用户检索文本与所述分类候选集中数据各聚类中心的距离，根据所述距离选取相似度在设定范围内的分类，作为相似数据集；分别计算所述用户检索文本与所述相似数据集中每一条数据的相似度并排序，将排序后的相似数据集作为匹配数据集结果返回。2.根据权利要求1所述的基于文本信息相似度的文本排序方法，其特征在于，获取初始候选集的过程包括：对所述用户检索文本进行粗处理，根据预设用户意图分类体系，通过文本分类确定与粗处理后的用户检索文本相关的若干垂直领域，将相关领域内的信息作为初始候选集。3.根据权利要求2所述的基于文本信息相似度的文本排序方法，其特征在于，所述粗处理包括文本中无效字符的剔除与过滤。4.根据权利要求1所述的基于文本信息相似度的文本排序方法，其特征在于，获得分类候选集的过程还包括：将切出词与所述初始候选集中的数据进行关联后分别进行关联规则计算和权重计算，获得初始候选集中每个词语的权重...

【专利技术属性】
技术研发人员：王少华，马海宝，
申请(专利权)人：盛询科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人