一种基于最细粒度切分的数据索引方法及系统技术方案

技术编号:26762630 阅读:21 留言:0更新日期:2020-12-18 23:14
本发明专利技术公开了一种基于最细粒度切分的数据索引方法及系统,包括:提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;按照各索引关键词的排序进行顺次索引。本发明专利技术索引过程中学习性较强,可以根据用户检索词汇类别权重进行有效的学习并更新存储;能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题。

【技术实现步骤摘要】
一种基于最细粒度切分的数据索引方法及系统
本专利技术属于数据索引
,尤其涉及一种基于最细粒度切分的数据索引方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。中文分词(ChineseWordSegmentation)就是将一个汉字序列切分成一个个单独的词的过程,它是进行数据索引的基础。在实际应用领域,分词能够更加细致、准确、快速的匹配、查询、获得结果集。现有技术在进行数据索引时,往往采用分词器进行分词,基于词典中存储的词进行匹配实现分词,但是这种方式的分词结果准确性仅依赖于词典中的词汇量,往往偏离用户真正要表达的意思,从而导致数据检索结果不准确。比如:可能将“山东大学男”分词为“山东大”“学男”。另外,在进行数据索引时,由于分词的准确性和有效性偏低,导致数据处理量大,搜索效率低下,对服务器的性能要求较高。
技术实现思路
本专利技术为了解决上述问题,提出了一种基于最细粒度切分的数据索引方法及系统,能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题,另外通过适配全业务数据中心,极大的保证了搜索结果的准确性和搜索效率。在一些实施方式中,采用如下技术方案:一种基于最细粒度切分的数据索引方法,包括:提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;按照各索引关键词的排序进行顺次索引。作为进一步地方案,单个索引关键词进行索引时,优先反馈权重最高的词汇类别对应的索引结果。作为进一步地方案,按照各索引关键词的排序进行顺次索引,具体过程为:在前一个索引关键词对应的索引结果的基础上,检索下一个索引关键词对应的检索结果。作为进一步地方案,所述全业务数据中心包括词库,所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重,以及每一个关键词的索引路径。作为进一步地方案,所述每一个关键词对应的优先级根据业务需求预先设定;所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。作为进一步地方案,按照各索引关键词的排序进行顺次索引之后,基于用户对得到的索引结果的响应结果,对全业务数据中心中索引关键词所属词汇类别的权重进行更新。作为进一步地方案,将新出现的关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心,并根据用户对每次索引结果的响应,对关键词所属词汇类别的权重进行更新。在另一些实施方式中,采用如下技术方案:一种基于最细粒度切分的数据索引系统,其特征在于包括:数据切分模块:用于提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;数据匹配模块:用于将单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;关键词排序模块:用于按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;数据索引模块:用于按照各索引关键词的排序进行顺次索引。在另一些实施方式中,采用如下技术方案:一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于最细粒度切分的数据索引方法。在另一些实施方式中,采用如下技术方案:一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于最细粒度切分的数据索引方法。与现有技术相比,本专利技术的有益效果是:本专利技术索引过程中学习性较强,可以根据用户检索词汇类别权重进行有效的学习并更新存储;能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题;本专利技术对索引关键词组进行排序,并顺次检索,逐渐缩小数据索引的范围,减少了数据处理量,降低了对于处理器性能的要求,同时提高数据索引效率。本专利技术通过匹配全业务数据中心这种数据中台级的应用架构,能够直接匹配出索引关键词、其优先级及所属词汇类别的权重,并且全业务数据中心在索引过程中实时更新,极大的保证了搜索结果的准确性并提高搜索效率。附图说明图1是本专利技术实施例中的基于最细粒度切分的数据索引方法流程图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本专利技术使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。实施例一在一个或多个实施方式中,公开了一种基于最细粒度切分的数据索引方法,参照图1,包括以下过程:步骤1:提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;步骤2:所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;步骤3:按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;步骤4:按照各索引关键词的排序进行顺次索引。具体地,采用最细粒度切分算法,将原文本的关键词按照最细粒度进行切分;最新粒度切分算法可以采用现有的算法,比如:IK正向迭代最细粒度切分算法。单个候选微分词与全业务数据中心进行匹配,全数据业务中心存储有不同业务需求下的所有数据,比如:人资、物资和财务等等。同时,全数据业务中心包括词库,词库里面存储有关键词、关键词的优先级关键词所属不同词汇类别的权重以及关键词对应的索引路径。其中,关键词的优先级根据业务需求进行预先设定,比如:“山东大学”优先级>“计算机学院”优先级>“男”优先级。关键词所属不同词汇类别的权重根据客户对于不同词汇类别的索引结果的响应次数确定,比如:山东大学作为毕业院校类的词汇属性的索引结果,被用户点击的次数最多,则该词汇类别的权重最高。假如在后续的检索过程中,山东大学作为居住地址类的词汇属性的索引结果,被用户点击的次数最多,则更新该词汇类别的权重变为最高。按照优先级顺序对索引关键词组中的各索引关键词进行排序,在进行索引时,按照各索引关键词的排序进行顺次索引;即,在前一个索引关键词对应的索引结果的基础上,检索下一个索引关键词对应的检索结果。比如:先检索“山东大学”关键词对应的索本文档来自技高网
...

【技术保护点】
1.一种基于最细粒度切分的数据索引方法,其特征在于,包括:/n提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;/n所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;/n按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;/n按照各索引关键词的排序进行顺次索引。/n

【技术特征摘要】
1.一种基于最细粒度切分的数据索引方法,其特征在于,包括:
提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
按照各索引关键词的排序进行顺次索引。


2.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,单个索引关键词进行索引时,优先反馈权重最高的词汇类别对应的索引结果。


3.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,按照各索引关键词的排序进行顺次索引,具体过程为:
在前一个索引关键词对应的索引结果的基础上,检索下一个索引关键词对应的检索结果。


4.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,所述全业务数据中心包括词库,所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重,以及每一个关键词的索引路径。


5.如权利要求4所述的一种基于最细粒度切分的数据索引方法,其特征在于,所述每一个关键词对应的优先级根据业务需求预先设定;所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。


6.如权利要求4所述的一种基于最细粒度切分的数据...

【专利技术属性】
技术研发人员:孔平靳占新王刚戚鲁凤栾松涛魏升吉李玉华董文杰朱俞霖柳明辉
申请(专利权)人:山东鲁能软件技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1