【技术实现步骤摘要】
本专利技术属于通信
,尤其涉及一种索引文件生成方法及装置。
技术介绍
随着计算机及互联网技术的迅速发展,在网络设备中所存储的信息量也越来越为庞大,为了便于对这些信息进行查询,往往需要通过建立索引文件等方式来协助用户对这些信息进行访问。在现有技术中,一般都需要根据需要进行检索的数据的业务类型生成对应的顺排索引文件,然后对该顺排索引文件进行倒排处理,得到倒排索引文件,以便用户根据该倒排索引文件对该业务类型的数据进行检索。而对于不同业务类型的数据,由于其所涉及的关键字等因素不同,所以,在现有技术中,针对不同业务类型的数据,需要独立建立一个索引生成系统,以生成索引供用户进行检索。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有方案的索引生成系统只能针对一种业务类型,所以,在业务类型较多的场景下,需要搭建多套索引生成系统,而这种系统的建立对操作人员的专业水平要求较高,整个建立的过程较为耗时,效率低。
技术实现思路
本专利技术的目的在于提供一种索引文件生成方法及装置,可针对多种业务数据类型建立索引文件,简化建立过程,提高效率。为解决上述技术问题,本专利技术实施例提供以下技术方案:本专利技术第一方面提供一种索引文件生成方法,其中所述方法包括:获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生 ...
【技术保护点】
一种索引文件生成方法,其特征在于,所述方法包括:获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。
【技术特征摘要】
1.一种索引文件生成方法,其特征在于,所述方法包括:获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。2.根据权利要求1所述的索引文件生成方法,其特征在于,所述获取业务数据之前,还包括:分别生成对应于不同业务类型的配置文件。3.根据权利要求2所述的索引文件生成方法,其特征在于,所述分别生成对应于不同业务类型的配置文件,包括:获取与业务类型对应的字段配置信息,所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段;根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件。4.根据权利要求1至3任一项所述的索引文件生成方法,其特征在于,所述根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,包括:判断所述数据内容中是否存在垃圾字段;若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写,若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;若不需要改写,则将所述
\t删除后的数据内容作为预处理后的数据内容;若不存在垃圾字段,则判断所述数据内容是否需要改写,若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;若不需要改写,则将所述数据内容作为预处理后的数据内容。5.根据权利要求1至3任一项所述的索引文件生成方法,其特征在于,所述根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,包括:判断所述数据内容是否需要改写;若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;若不需要改写,则判断所述数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。6.根据权利要求3所述的索引文件生成方法,其特征在于,所述根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件,包括:根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段,所述文本域字段的属性包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合;根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合;根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到
\t配置后的分类域字段,所述分类域字段的属性包括检索指定类别;根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。7.根据权利要求1至3任一项所述的索引文件生成方法,其特征在于,所述根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理的步骤,包括:对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息;根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词,生成分词处理后的数据内容。8.根据权利要求7所述的索引文件生成方法,其特征在于,所述对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件之后,还包括:将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。9.根据权利要求7所述的索引文件生成方法,其特征在于,所述对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息,包括:获取预置的分词模板;按照所述分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息。10.一种索引文件生...
【专利技术属性】
技术研发人员:朱锴,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。