数据处理方法及装置制造方法及图纸

技术编号:37249913 阅读:10 留言:0更新日期:2023-04-20 23:28
本申请提供数据处理方法及装置,数据处理方法包括:确定待搜索文本,并获取过滤字段集合和保留字段集合;基于过滤字段集合在待搜索文本中确定第i个词字段以及第i个词字段对应的第i个分词字段;在第i个分词字段属于保留字段集合的情况下,根据第i个词字段和第i个分词字段生成目标词单元;在第i个分词字段不属于保留字段集合的情况下,根据第i个词字段生成目标词单元;i按序自增,并执行基于过滤字段集合在待搜索文本中确定第i个词字段以及第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据待搜索文本的文本长度确定。k根据待搜索文本的文本长度确定。k根据待搜索文本的文本长度确定。

【技术实现步骤摘要】
数据处理方法及装置


[0001]本申请涉及全文检索
,特别涉及一种数据处理方法。本申请同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的快速发展,人们进入大数据时代且掌握的数据在不断增长。面对海量的数据信息,搜索系统为了将用户预期了解的内容展现在用户面前,需要具有良好的数据筛选、过滤、排序等能力。目前,全文检索系统能够在一定程度上解决用户搜索、筛选内容的问题。但是传统的全文检索系统在对文档数据进行索引创建时,索引中大量无意义的单词会将需要的单词分割开,导致后续基于索引搜索就无法为用户提供准确的搜索结果。因此,在全文检索系统中如何准确地为用户搜索到准确结果是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了数据处理方法,用于优化分词创建更符合预期的索引文本,提高后续检索的精确度。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的分词结果不准确导致无法创建正确的索引文本,进而导致搜索成本高、耗时长且不准确的问题。
[0004]根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
[0005]确定待搜索文本,并获取过滤字段集合和保留字段集合;
[0006]基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;
[0007]在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;
[0008]在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;
[0009]i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。
[0010]根据本申请实施例的第二方面,提供了一种数据处理方法,包括:
[0011]响应于用户搜索请求,确定查询文本;
[0012]将所述查询文本中的查询关键字与文本数据库的索引文本进行匹配,其中,所述文本数据库的索引文本根据数据处理方法获得;
[0013]根据匹配结果在所述文本数据库中确定目标文本,并反馈至所述用户。
[0014]根据本申请实施例的第三方面,提供了一种数据处理装置,包括:
[0015]获取模块,被配置为确定待搜索文本,并获取过滤字段集合和保留字段集合;
[0016]确定模块,被配置为基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;
[0017]生成模块,被配置为在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;
[0018]生成模块,被配置为在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;
[0019]循环模块,被配置为i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。
[0020]根据本申请实施例的第四方面,提供了一种数据处理装置,包括:
[0021]确定模块,被配置为响应于用户搜索请求,确定查询文本;
[0022]匹配模块,被配置为将所述查询文本中的查询关键字与文本数据库的索引文本进行匹配,其中,所述文本数据库的索引文本根据数据处理方法获得;
[0023]反馈模块,被配置为根据匹配结果在所述文本数据库中确定目标文本,并反馈至所述用户。
[0024]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。
[0025]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。
[0026]本申请提供的数据处理方法,确定待搜索文本,并获取过滤字段集合和保留字段集合;基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。
[0027]本申请一实施例实现了通过过滤字段集合和保留字段集合,在分词时能够从待搜索文本中筛选出符合用户预期的目标词单元,从而能够基于目标词单元创建更准确的索引文本,进而为后续提供更准确的检索能力,为用户呈现更精确的检索结果。
附图说明
[0028]图1是本申请一实施例提供的一种数据处理方法的效果示意图;
[0029]图2是本申请一实施例提供的一种数据处理方法的流程图;
[0030]图3是本申请一实施例提供的另一种数据处理方法的流程图;
[0031]图4是本申请一实施例提供的一种应用于索引创建的数据处理方法的处理流程图;
[0032]图5是本申请一实施例提供的一种数据处理装置的结构示意图;
[0033]图6是本申请一实施例提供的另一种数据处理装置的结构示意图;
[0034]图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0035]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0036]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定待搜索文本,并获取过滤字段集合和保留字段集合;基于所述过滤字段集合,在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。2.如权利要求1所述的方法,其特征在于,在i不等于1的情况下,基于所述过滤字段集合,在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段,包括:获取第i

1个目标词单元,并基于所述第i

1个目标词单元在所述待搜索文本中确定第i个初始词字段;基于所述过滤字段集合和所述第i个初始词字段在所述待搜索文本中确定第i个分词字段;根据所述第i个初始词字段和所述第i个分词字段在所述待搜索文本中确定第i个词字段。3.如权利要求2所述的方法,其特征在于,基于所述过滤字段集合和所述第i个初始词字段在所述待搜索文本中确定第i个分词字段,包括:根据所述第i个初始词字段和所述待搜索文本确定待扫描文本;基于所述过滤字段集合对所述待扫描文本进行扫描,根据扫描结果确定第i个分词字段。4.如权利要求2所述的方法,其特征在于,根据所述第i个初始词字段和所述第i个分词字段在所述待搜索文本中确定第i个词字段,包括:在所述待搜索文本中确定第i个初始词字段和所述第i个分词字段之间的补充字段;在所述补充字段包括过滤字段的情况下,对所述补充字段中的过滤字段进行剔除处理,将剔除后的补充字段作为第i个词字段;在所述补充字段不包括过滤字段的情况下,对所述第i个初始词字段和所述补充字段进行组合,根据组合结果获得第i个词字段。5.如权利要求2所述的方法,其特征在于,在i等于1的情况下,基于所述过滤字段集合,在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段,包括:基于所述过滤字段集合对所述待搜索文本进行扫描;根据扫描结果确定第i个词字段以及所述第i个词字段对应的第i个分词字段。6.如权利要求1所述的方法,其特征在于,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,包括:
在所述待搜索文本...

【专利技术属性】
技术研发人员:张君华田晓峰吴肖军周华军叶晶
申请(专利权)人:恒生电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1