一种基于最细粒度切分的数据索引方法及系统技术方案

技术编号：26762630 阅读：21 留言：0更新日期：2020-12-18 23:14

本发明专利技术公开了一种基于最细粒度切分的数据索引方法及系统，包括：提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；按照各索引关键词的排序进行顺次索引。本发明专利技术索引过程中学习性较强，可以根据用户检索词汇类别权重进行有效的学习并更新存储；能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于最细粒度切分的数据索引方法及系统
本专利技术属于数据索引
，尤其涉及一种基于最细粒度切分的数据索引方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。中文分词(ChineseWordSegmentation)就是将一个汉字序列切分成一个个单独的词的过程，它是进行数据索引的基础。在实际应用领域，分词能够更加细致、准确、快速的匹配、查询、获得结果集。现有技术在进行数据索引时，往往采用分词器进行分词，基于词典中存储的词进行匹配实现分词，但是这种方式的分词结果准确性仅依赖于词典中的词汇量，往往偏离用户真正要表达的意思，从而导致数据检索结果不准确。比如：可能将“山东大学男”分词为“山东大”“学男”。另外，在进行数据索引时，由于分词的准确性和有效性偏低，导致数据处理量大，搜索效率低下，对服务器的性能要求较高。
技术实现思路
本专利技术为了解决上述问题，提出了一种基于最细粒度切分的数据索引方法及系统，能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题，另外通过适配全业务数据中心，极大的保证了搜索结果的准确性和搜索效率。在一些实施方式中，采用如下技术方案：一种基于最细粒度切分的数据索引方法，包括：提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；所述单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；按照优先级顺序对所述索引关键...

【技术保护点】
1.一种基于最细粒度切分的数据索引方法，其特征在于，包括：/n提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；/n所述单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；/n按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；/n按照各索引关键词的排序进行顺次索引。/n

【技术特征摘要】
1.一种基于最细粒度切分的数据索引方法，其特征在于，包括：
提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；
所述单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；
按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；
按照各索引关键词的排序进行顺次索引。

2.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，单个索引关键词进行索引时，优先反馈权重最高的词汇类别对应的索引结果。

3.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，按照各索引关键词的排序进行顺次索引，具体过程为：
在前一个索引关键词对应的索引结果的基础上，检索下一个索引关键词对应的检索结果。

4.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，所述全业务数据中心包括词库，所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重，以及每一个关键词的索引路径。

5.如权利要求4所述的一种基于最细粒度切分的数据索引方法，其特征在于，所述每一个关键词对应的优先级根据业务需求预先设定；所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。

6.如权利要求4所述的一种基于最细粒度切分的数据...

【专利技术属性】
技术研发人员：孔平，靳占新，王刚，戚鲁凤，栾松涛，魏升吉，李玉华，董文杰，朱俞霖，柳明辉，
申请(专利权)人：山东鲁能软件技术有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人