一种基于文本信息相似度的文本排序方法、设备和存储介质技术

技术编号:38835086 阅读:16 留言:0更新日期:2023-09-17 09:52
本发明专利技术公开了一种基于文本信息相似度的文本排序方法、设备和存储介质,包括:获取用户检索文本,根据用户检索文本获取初始候选集;对初始候选集中数据的主题进行切词,将切出词与原数据进行关联规则计算和权重计算,根据计算结果对初始候选集进行相似度与聚类计算获得分类候选集;计算用户检索文本与分类候选集中各聚类中心的距离,选取符合要求的分类数据作为相似数据集;分别计算用户检索文本与相似数据集中数据的相似度并排序,获得匹配结果。本发明专利技术根据用户意图对数据进行筛选,然后对每一条数据进行分词,根据各数据之间的相似度完成初始候选集的分类,获得相似度设定范围内的分类,为用户提供符合意图的具有多样性的更贴切的信息。切的信息。切的信息。

【技术实现步骤摘要】
一种基于文本信息相似度的文本排序方法、设备和存储介质


[0001]本专利技术属于智能文本排序
,特别是涉及一种基于文本信息相似度的文本排序方法、设备和存储介质。

技术介绍

[0002]互联网时刻产生着海量的信息,新闻、论坛、博客等媒体不停地生成供用户浏览的网页,这些网页中承载了各种文本信息。一方面,网络信息的丰富性与透明性为用户提供了前所未有的便利;另一方面,由于信息的数量过于庞大,因此给用户查询带来了很大的困难,其中大量的用户不感兴趣的信息或者垃圾信息将很多有意义的信息淹没。大量激增的数据中往往又隐藏着许多重要的信息,如果能把这些信息从数据库中提取出来,就能为用户创造很多潜在的利润。因此,对大量历史数据进行分析处理,挖掘出有用的知识就显得非常迫切。
[0003]目前,很多网站通过将热门信息推荐给用户来提高服务质量。然而,热门信息的量仍然非常大,并且所有用户接收到的信息是完全相同的。在现实中,由于不同的人对信息种类的需求不同,用户希望能够将有限的精力用在阅读自己关心的内容上。

技术实现思路

[0004]本专利技术的目的是提供一种基于文本信息相似度的文本排序方法、设备和存储介质,以解决上述现有技术存在的问题。
[0005]为实现上述目的,本专利技术提供了一种基于文本信息相似度的文本排序方法,包括:
[0006]获取用户检索文本,根据所述用户检索文本获取初始候选集;
[0007]将所述初始候选集中的每一条数据的主题进行切词,将切词获得的切出词与原数据进行关联规则计算和权重计算,根据计算结果对所述初始候选集进行相似度计算与聚类计算获得分类候选集;
[0008]对所述用户检索文本依次进行校验、分词与权重计算;
[0009]计算所述用户检索文本与所述分类候选集中数据各聚类中心的距离,根据所述距离选取相似度在设定范围内的分类,作为相似数据集;分别计算所述用户检索文本与所述相似数据集中每一条数据的相似度并排序,将排序后的相似数据集作为匹配数据集结果返回。
[0010]可选的,获取初始候选集的过程包括:对所述用户检索文本进行粗处理,根据预设用户意图分类体系,通过文本分类确定与粗处理后的用户检索文本相关的若干垂直领域,将相关领域内的信息作为初始候选集。
[0011]可选的,所述粗处理包括文本中无效字符的剔除与过滤。
[0012]可选的,获得分类候选集的过程还包括:将切出词与所述初始候选集中的数据进行关联后分别进行关联规则计算和权重计算,获得初始候选集中每个词语的权重值和基于关键词的关联规则,将关联规则存储至关联表中,对初始候选集中的数据进行基于小文本
的相似度计算后,采用聚类算法获得初始候选集的分类结果,作为分类候选集。
[0013]可选的,对所述用户检索文本进行校验的依据为预设的检索违禁字典库,所述检索违禁字典库由禁止检索主题的关键词组成。
[0014]可选的,采用双向最大匹配法进行分词并对分词结果分配权重。
[0015]可选的,将所述相似数据集中任一条数据根据分词算法分为独立的词集合;获取所述词集合与所述用户检索文本划分结果的并集;分别计算词频并进行向量表示,计算文本相似度,直至所述相似数据集遍历结束。
[0016]本专利技术还提供了一种电子设备,包括:
[0017]至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1

7中任一项所述的方法。
[0018]本专利技术还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1

7中任一项所述的方法。
[0019]本专利技术的技术效果为:
[0020]本专利技术对用户检索文本粗处理后,分析获得用户意图,并根据用户意图对数据进行初步筛选,获得初始候选集,对初始候选集中的每一条数据进行分词处理,通过计算初始候选集中各数据的相似度完成初始候选集中数据的分类,根据设定的相似度范围获得对应分类,保证相关性的情况下,增强检索结果的多样性,通过计算用户检索文本与分类候选集中每一数据的相似度对信息进行排序,为用户提供符合意图的具有多样性的更贴切的信息。
附图说明
[0021]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1为本专利技术实施例中的方法流程示意图。
具体实施方式
[0023]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0024]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0025]在这里专用的词“在一些实施例中”意为“用作例子、实施例或说明性”。这里所说明的任何实施例不必解释为优于或好于其它实施例。
[0026]另外,为了更好的说明本专利技术,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本专利技术同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
[0027]实施例一
[0028]如图1所示,本实施例中提供一种基于文本信息相似度的文本排序方法、设备和存
储介质,包括:
[0029]获取用户检索文本,根据所述用户检索文本获取初始候选集;
[0030]将所述初始候选集中的每一条数据的主题进行切词,将切词获得的切出词与原数据进行关联规则计算和权重计算,根据计算结果对所述初始候选集进行相似度计算与聚类计算获得分类候选集;
[0031]对所述用户检索文本依次进行校验、分词与权重计算;
[0032]计算所述用户检索文本与所述分类候选集中数据各聚类中心的距离,根据所述距离选取相似度在设定范围内的分类,作为相似数据集;分别计算所述用户检索文本与所述相似数据集中每一条数据的相似度并排序,将排序后的相似数据集作为匹配数据集结果返回。
[0033]具体的,当根据预设的关联表和权重表得出输入的检索文本与当前分类候选集中各聚类中心的距离大于预设值时,表示电网文本信息数据库无相关文本信息,将当前的输入的检索文本信息作为无解问题,存放到无解问题库,等待信息扩充更新后解答。
[0034]在一些实施例中获取初始候选集的过程包括:对所述用户检索文本进行粗处理,根据预设用户意图分类体系,通过文本分类确定与粗处理后的用户检索文本相关的若干垂直领域,将相关领域内的信息作为初始候选集。
[0035]在一些实施例中所述粗处理包括文本中无效字符的剔本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本信息相似度的文本排序方法,其特征在于,包括以下步骤:获取用户检索文本,根据所述用户检索文本获取初始候选集;将所述初始候选集中的每一条数据的主题进行切词,将切词获得的切出词与原数据进行关联规则计算和权重计算,根据计算结果对所述初始候选集进行相似度计算与聚类计算获得分类候选集;对所述用户检索文本依次进行校验、分词与权重计算;计算所述用户检索文本与所述分类候选集中数据各聚类中心的距离,根据所述距离选取相似度在设定范围内的分类,作为相似数据集;分别计算所述用户检索文本与所述相似数据集中每一条数据的相似度并排序,将排序后的相似数据集作为匹配数据集结果返回。2.根据权利要求1所述的基于文本信息相似度的文本排序方法,其特征在于,获取初始候选集的过程包括:对所述用户检索文本进行粗处理,根据预设用户意图分类体系,通过文本分类确定与粗处理后的用户检索文本相关的若干垂直领域,将相关领域内的信息作为初始候选集。3.根据权利要求2所述的基于文本信息相似度的文本排序方法,其特征在于,所述粗处理包括文本中无效字符的剔除与过滤。4.根据权利要求1所述的基于文本信息相似度的文本排序方法,其特征在于,获得分类候选集的过程还包括:将切出词与所述初始候选集中的数据进行关联后分别进行关联规则计算和权重计算,获得初始候选集中每个词语的权重...

【专利技术属性】
技术研发人员:王少华马海宝
申请(专利权)人:盛询科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1