一种索引文件生成方法及装置制造方法及图纸

技术编号:13798939 阅读:55 留言:0更新日期:2016-10-07 00:19
本发明专利技术公开了一种索引文件生成方法及装置,所述方法包括:获取业务数据,业务数据包括数据内容和业务类型;根据业务类型获取相对应的配置文件,配置文件包括对字段预处理指示以及分词处理指示;根据字段预处理指示,对数据内容进行预处理,生成预处理后的数据内容;根据分词处理指示,对预处理后的数据内容分别进行分词处理,对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。本发明专利技术方案可针对多种业务类型的数据统一建立索引文件,从而可简化建立过程,并提高效率。

【技术实现步骤摘要】

本专利技术属于通信
,尤其涉及一种索引文件生成方法及装置
技术介绍
随着计算机及互联网技术的迅速发展,在网络设备中所存储的信息量也越来越为庞大,为了便于对这些信息进行查询,往往需要通过建立索引文件等方式来协助用户对这些信息进行访问。在现有技术中,一般都需要根据需要进行检索的数据的业务类型生成对应的顺排索引文件,然后对该顺排索引文件进行倒排处理,得到倒排索引文件,以便用户根据该倒排索引文件对该业务类型的数据进行检索。而对于不同业务类型的数据,由于其所涉及的关键字等因素不同,所以,在现有技术中,针对不同业务类型的数据,需要独立建立一个索引生成系统,以生成索引供用户进行检索。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有方案的索引生成系统只能针对一种业务类型,所以,在业务类型较多的场景下,需要搭建多套索引生成系统,而这种系统的建立对操作人员的专业水平要求较高,整个建立的过程较为耗时,效率低。
技术实现思路
本专利技术的目的在于提供一种索引文件生成方法及装置,可针对多种业务数据类型建立索引文件,简化建立过程,提高效率。为解决上述技术问题,本专利技术实施例提供以下技术方案:本专利技术第一方面提供一种索引文件生成方法,其中所述方法包括:获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。为解决上述技术问题,本专利技术实施例提供以下技术方案:本专利技术第二方面提供一种索引文件生成装置,其中所述装置包括:第一获取模块,用于获取业务数据,所述业务数据包括数据内容和业务类型;第二获取模块,用于根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;预处理模块,用于根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;分词模块,用于根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;索引生成模块,用于对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。相对于现有技术,本实施例中,根据多种业务数据的业务类型,获取相对应的配置文件,其后根据配置文件的字段预处理指示,对业务数据的数据内容进行预处理,根据配置文件的分词处理指示,对预处理后的数据内容分别进行分词处理,从而生成统一数据格式的索引文件。本专利技术针对不同业务类型的数据采用相对应的配置文件对数据进行处理,其后采用相同的程序对数据内容进行分词,将不同格式的业务数据归一化为统一数据格式的索引数据,从而可针对多种业务数据类型统一建立索引文件,简化建立过程,提高效率。附图说明下面结合附图,通过对本专利技术的具体实施方式详细描述,将使本专利技术的技术方案及其它有益效果显而易见。图1是本专利技术第一实施例提供的索引文件生成方法的流程示意图;图2a为本专利技术第二实施例提供的索引文件生成方法的流程示意图;图2b和图2c为本专利技术提供的索引文件生成方法字段的配置界面示意图;图3a和图3b为本专利技术第三实施例提供的索引文件生成方法的流程示意图;图4为本专利技术第四实施例提供的索引文件生成装置的结构示意图;图5为本专利技术第五实施例提供的索引文件生成装置的结构示意图;图6为本专利技术第六实施例提供的服务器的结构示意图。具体实施方式请参照图式,其中相同的组件符号代表相同的组件,本专利技术的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本专利技术具体实施例,其不应被视为限制本专利技术未在此详述的其它具体实施例。在以下的说明中,本专利技术的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本专利技术原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本专利技术的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进
行操作。所熟知的适合用于本专利技术的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境,其中包括了任何的上述系统或装置。本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本专利技术保护范围之内。而且本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。第一实施例请参阅图1,图1是本专利技术第一实施例提供的索引文件生成方法的流程示意图。所述方法步骤包括:在步骤S101中,获取业务数据,所述业务数据包括数据内容和业务类型。其中,所述索引文件生成方法是基于BS(浏览器browser,服务器server)的系统结构的,用户通过浏览器使用该系统,该系统支持多种业务类型的数据在同一平台下生成统一数据格式的索引数据。在本实施例中,所述业务类型可以包括:视频、音乐、图片等,相对应的,所述业务数据可以包括视频数据、音乐数据以及图片数据等,此处不作具体限定。可以理解的是,本实施例中的业务数据的数据格式可以分为两个部分,其中一个部分承载指示业务类型的信息,另一个部分承载该业务类型对应的数据内容。在步骤S102中,根据所述业务类型获取相对应的配置文件,所本文档来自技高网
...

【技术保护点】
一种索引文件生成方法,其特征在于,所述方法包括:获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。

【技术特征摘要】
1.一种索引文件生成方法,其特征在于,所述方法包括:获取业务数据,所述业务数据包括数据内容和业务类型;根据所述业务类型获取相对应的配置文件,所述配置文件包括对字段预处理指示以及分词处理指示;根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容;根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理;对分词处理后的数据内容进行顺排处理,生成统一数据格式的索引文件。2.根据权利要求1所述的索引文件生成方法,其特征在于,所述获取业务数据之前,还包括:分别生成对应于不同业务类型的配置文件。3.根据权利要求2所述的索引文件生成方法,其特征在于,所述分别生成对应于不同业务类型的配置文件,包括:获取与业务类型对应的字段配置信息,所述字段配置信息指示预置的多个字段的属性值,所述字段包括文本域字段、数值域字段以及分类域字段;根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件。4.根据权利要求1至3任一项所述的索引文件生成方法,其特征在于,所述根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,包括:判断所述数据内容中是否存在垃圾字段;若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,并判断删除后的数据内容是否需要改写,若需要改写,则将所述删除后的数据内容进行改写,将改写后的数据内容作为预处理后的数据内容;若不需要改写,则将所述
\t删除后的数据内容作为预处理后的数据内容;若不存在垃圾字段,则判断所述数据内容是否需要改写,若需要改写,则将所述数据内容进行改写,将改写后的数据内容作为预处理后的业务数据;若不需要改写,则将所述数据内容作为预处理后的数据内容。5.根据权利要求1至3任一项所述的索引文件生成方法,其特征在于,所述根据所述字段预处理指示,对所述数据内容进行预处理,生成预处理后的数据内容,包括:判断所述数据内容是否需要改写;若需要改写,则将所述数据内容进行改写,并判断将改写后的数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述改写后的数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述改写后的数据内容作为预处理后的数据内容;若不需要改写,则判断所述数据内容中是否存在垃圾字段,若存在垃圾字段,则将所述垃圾字段从所述数据内容中删除,将删除后的数据内容作为预处理后的数据内容,若不存在垃圾字段,则将所述数据内容作为预处理后的数据内容。6.根据权利要求3所述的索引文件生成方法,其特征在于,所述根据所述字段的配置信息的指示对所述多个字段的属性值进行配置,得到与所述业务类型相对应的配置文件,包括:根据所述字段的配置信息的指示对所述文本域字段的属性的属性值进行配置,得到配置后的文本域字段,所述文本域字段的属性包括描述、数据长度、主键、重要性和分词方式中的一个或两个以上的组合;根据所述字段的配置信息的指示对所述数值域字段的属性的属性值进行配置,得到配置后的数值域字段,所述数值域字段的属性包括描述、数据类型、权威、重要性、主键中的一个或两个以上的组合;根据所述字段的配置信息的指示对所述分类域字段的属性进行配置,得到
\t配置后的分类域字段,所述分类域字段的属性包括检索指定类别;根据所述配置后的文本域字段、配置后的数值域字段和配置后的分类域字段生成与所述业务类型相对应的配置文件。7.根据权利要求1至3任一项所述的索引文件生成方法,其特征在于,所述根据所述分词处理指示,对所述预处理后的数据内容分别进行分词处理的步骤,包括:对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息;根据所述分词处理指示以及所述属性信息,对所述预处理后的业务数据进行分词,生成分词处理后的数据内容。8.根据权利要求7所述的索引文件生成方法,其特征在于,所述对分词处理后的数据内容进行顺排处理,生成统一数据格式的顺排索引文件之后,还包括:将所述顺排索引文件转换为倒排索引文件,以便用户根据所述倒排索引文件进行检索。9.根据权利要求7所述的索引文件生成方法,其特征在于,所述对所述预处理后的数据内容进行分析以确定所述数据内容的属性信息,包括:获取预置的分词模板;按照所述分词模板对所述预处理后的数据内容进行分析,确定所述数据内容的属性信息。10.一种索引文件生...

【专利技术属性】
技术研发人员:朱锴
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1