【技术实现步骤摘要】
文件名索引生成方法、装置、及文件查找方法、装置
[0001]本公开涉及计算机
,尤其涉及文件查找、文件索引
,具体涉及一种文件名索引生成方法、装置、及文件查找方法、装置。
技术介绍
[0002]目前的文件名索引技术,是通过切词将文件名切割为单字作为索引词,然后通过索引存储格式写入数据库,并在用户查找相关文件时,将用户输入的查询词按照相同的切词规则切割成单字,并根据单字和索引的对应关系召回文件的技术。
[0003]但该文件名索引技术中存储的索引数据量较大,导致文件查询速度较慢。
技术实现思路
[0004]本公开提供了一种文件名索引生成方法、装置、及文件查找方法、装置,能够通过在生成相应文件的文件名索引时对切词后的各字段进行过滤,减少生成的文件名索引的数据量,提高文件查找时的速度。
[0005]根据本公开的第一方面,提供了一种文件名索引生成方法,包括:获取待处理文件的文件名和文件标识;对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤 ...
【技术保护点】
【技术特征摘要】
1.一种文件名索引生成方法,其特征在于,包括:获取待处理文件的文件名和文件标识;对所述文件名按照预设的切词规则进行切分得到所述文件名中的至少一个字段;对所述至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据所述索引词和所述文件标识生成所述待处理文件的文件名索引。2.根据权利要求1所述的方法,其特征在于,所述预设的切词规则为通过自然语言处理NLP切词工具进行切分。3.根据权利要求2所述的方法,其特征在于,所述根据所述索引词和所述文件标识生成所述待处理文件的文件名索引,包括:根据预设的索引存储格式存储所述索引词和所述文件标识,生成所述待处理文件的文件名索引,所述预设的索引存储格式包括用于存储索引词的索引词位和用于存储所述文件标识的标识位,所述索引词位包括槽位,所述槽位用于存储所述索引词位对应存储的索引词的首字符。4.根据权利要求1至3任一项所述的方法,其特征在于,所述预设的过滤规则包括以下至少一个:过滤包含在预设的无用字段集中的字段;过滤与文件名中的后缀对应的字段;过滤包含特殊字符的字段;过滤包含广告词的字段。5.一种文件查找方法,其特征在于,包括:获取用户输入的查询词;对所述查询词按照预设的切词规则进行切分得到所述查询词中的至少一个字段;根据所述至少一个字段,从预设的文件名索引库中匹配对应的文件名索引,所述预设的文件名索引库中包括各文件对应的文件名索引,所述文件名索引是根据如权利要求1至4任一项所述的文件名索引生成方法生成的;根据匹配得到的文件名索引,确定对应的文件。6.根据权利要求5所述的方法,其特征在于,所述预设的切词规则为通过自然语言处理NLP切词工具进行切分。7.根据权利要求5或6所述的方法,其特征在于,在所述根据匹配得到的文件名索引,确定对应的文件之后,所述方法还包括:以文件名的形式展示确定出的所述文件。8.根据权利要求7所述的方法,其特征在于,确定出的所述文件包括多个,所述以文件名的形式展示确定出的所述文件,包括:根据所述查询词分别对确定出的各所述文件的文件名是否包含完整的所述查询词进行校验;将包含完整的所述查询词的文件名排序在前进行展示。9.一种文件名索引生成装置,其特征在于,包括:获取模块,用于获取待处理文件的文件名和文件标识;
生成模块,用于对所述文件名按照预设的切词规则进行切分得到所述文件名中的至少一个字段;对所述至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据所述索引词和所述文件标识生成所述待处理文...
【专利技术属性】
技术研发人员:唐鑫杰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。