数据处理方法及装置制造方法及图纸

技术编号：37249913 阅读：10 留言：0更新日期：2023-04-20 23:28

本申请提供数据处理方法及装置，数据处理方法包括：确定待搜索文本，并获取过滤字段集合和保留字段集合；基于过滤字段集合在待搜索文本中确定第i个词字段以及第i个词字段对应的第i个分词字段；在第i个分词字段属于保留字段集合的情况下，根据第i个词字段和第i个分词字段生成目标词单元；在第i个分词字段不属于保留字段集合的情况下，根据第i个词字段生成目标词单元；i按序自增，并执行基于过滤字段集合在待搜索文本中确定第i个词字段以及第i个词字段对应的第i个分词字段的步骤，直至i自增至k，根据生成的至少一个目标词单元创建待搜索文本的索引文本，其中，i从1开始取值直至为k且为正整数，k根据待搜索文本的文本长度确定。k根据待搜索文本的文本长度确定。k根据待搜索文本的文本长度确定。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法及装置

[0001]本申请涉及全文检索
，特别涉及一种数据处理方法。本申请同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的快速发展，人们进入大数据时代且掌握的数据在不断增长。面对海量的数据信息，搜索系统为了将用户预期了解的内容展现在用户面前，需要具有良好的数据筛选、过滤、排序等能力。目前，全文检索系统能够在一定程度上解决用户搜索、筛选内容的问题。但是传统的全文检索系统在对文档数据进行索引创建时，索引中大量无意义的单词会将需要的单词分割开，导致后续基于索引搜索就无法为用户提供准确的搜索结果。因此，在全文检索系统中如何准确地为用户搜索到准确结果是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此，本申请实施例提供了数据处理方法，用于优化分词创建更符合预期的索引文本，提高后续检索的精确度。本申请同时涉及数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的分词结果不准确导致无法创建正确的索引文本，进而导致搜索成本高、耗时长且不准确的问题。
[0004]根据本申请实施例的第一方面，提供了一种数据处理方法，包括：
[0005]确定待搜索文本，并获取过滤字段集合和保留字段集合；
[0006]基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段；
[0007]在所述第i个分词字段属于所述保留字段集合的情况下，根据所述第i个词字段和所述第...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：确定待搜索文本，并获取过滤字段集合和保留字段集合；基于所述过滤字段集合，在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段；在所述第i个分词字段属于所述保留字段集合的情况下，根据所述第i个词字段和所述第i个分词字段生成目标词单元，其中，目标词单元用于生成第i+1个词字段；在所述第i个分词字段不属于所述保留字段集合的情况下，根据所述第i个词字段生成目标词单元；i按序自增，并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤，直至i自增至k，根据生成的至少一个目标词单元创建所述待搜索文本的索引文本，其中，i从1开始取值直至为k且为正整数，k根据所述待搜索文本的文本长度确定。2.如权利要求1所述的方法，其特征在于，在i不等于1的情况下，基于所述过滤字段集合，在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段，包括：获取第i
‑
1个目标词单元，并基于所述第i
‑
1个目标词单元在所述待搜索文本中确定第i个初始词字段；基于所述过滤字段集合和所述第i个初始词字段在所述待搜索文本中确定第i个分词字段；根据所述第i个初始词字段和所述第i个分词字段在所述待搜索文本中确定第i个词字段。3.如权利要求2所述的方法，其特征在于，基于所述过滤字段集合和所述第i个初始词字段在所述待搜索文本中确定第i个分词字段，包括：根据所述第i个初始词字段和所述待搜索文本确定待扫描文本；基于所述过滤字段集合对所述待扫描文本进行扫描，根据扫描结果确定第i个分词字段。4.如权利要求2所述的方法，其特征在于，根据所述第i个初始词字段和所述第i个分词字段在所述待搜索文本中确定第i个词字段，包括：在所述待搜索文本中确定第i个初始词字段和所述第i个分词字段之间的补充字段；在所述补充字段包括过滤字段的情况下，对所述补充字段中的过滤字段进行剔除处理，将剔除后的补充字段作为第i个词字段；在所述补充字段不包括过滤字段的情况下，对所述第i个初始词字段和所述补充字段进行组合，根据组合结果获得第i个词字段。5.如权利要求2所述的方法，其特征在于，在i等于1的情况下，基于所述过滤字段集合，在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段，包括：基于所述过滤字段集合对所述待搜索文本进行扫描；根据扫描结果确定第i个词字段以及所述第i个词字段对应的第i个分词字段。6.如权利要求1所述的方法，其特征在于，根据生成的至少一个目标词单元创建所述待搜索文本的索引文本，包括：
在所述待搜索文本...

【专利技术属性】
技术研发人员：张君华，田晓峰，吴肖军，周华军，叶晶，
申请(专利权)人：恒生电子股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人