【技术实现步骤摘要】
文件检索方法及装置
[0001]本专利技术涉及大数据
,尤其涉及一种文件检索方法及装置。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着电子化数据的爆炸式增长,应用程序或者网页服务需要检索的文件数量也呈现几何式增长,而文件检索的效率受制于算法模型和硬件处理速度两个维度。当硬件相对固定时,计算模型就能体现出效率优化的巨大优势。
[0004]现有的文件检索方法,一般检索结果的准确性较低,检索效率较低;为了提高文件检索效率以及检索结果的准确性,可以使用机器学习模型或大规模的统计学模型,但是,该方法需要大量的用户行为数据进行模型训练,其成本较高,普适性较差。
技术实现思路
[0005]本专利技术实施例提供一种文件检索方法,用以在降低文件检索成本的同时,提高检索结果的准确性和检索效率,该方法包括:
[0006]对用户输入的检索语句进行语法分割,得到多个检索词汇;
[0007]针 ...
【技术保护点】
【技术特征摘要】
1.一种文件检索方法,其特征在于,包括:对用户输入的检索语句进行语法分割,得到多个检索词汇;针对每一检索词汇,从文件库中检索包含该检索词汇的文件,作为每一检索词汇的待选文件,所述文件库中包括多个文件;根据每一检索词汇的待选文件的数量,计算每一检索词汇的文件数量权重;根据每一检索词汇的词性和预先设置多个词性对应的权重,确定每一检索词汇的语法权重,所述语法权重用于指示检索词汇的词性在检索语句中所占的比重;针对每一检索词汇的每一待选文件,执行如下操作:计算检索词汇在待选文件中的词汇权重和文本版块权重;将词汇权重、文本版块权重、检索词汇的文件数量权重和检索词汇的语法权重相乘,得到待选文件的权重值;所述词汇权重用于指示检索词汇在待选文件的词汇总数量中所占的比重;所述文本版块权重用于指示检索词汇出现在待选文件的不同位置所占的比重;根据每一待选文件的权重值,对待选文件进行降序排列;将排序靠前的预设数目的待选文件作为检索结果。2.如权利要求1所述的方法,其特征在于,所述文件数量权重为每一检索词汇的待选文件的数量与文件库中的总文件数量的比值。3.如权利要求1所述的方法,其特征在于,所述词汇权重为每一检索词汇在每一待选文件中出现的次数与待选文件中的词汇总数量的比值。4.如权利要求1所述的方法,其特征在于,计算检索词汇在待选文件中的文本版块权重,包括:分别统计检索词汇在待选文件的多个指定位置出现的次数;根据预先设置的文件的多个指定位置的权重,对检索词汇在待选文件的多个指定位置出现的次数进行加权平均计算,得到检索词汇在待选文件中的文本版块权重。5.如权利要求1所述的方法,其特征在于,根据每一检索词汇的词性和预先设置多个词性对应的权重,确定每一检索词汇的语法权重,还包括:基于预设的语句侧重性分析算法,确定每一检索词汇的第一词性权重;所述语句侧重性分析算法用于指示对检索语句的检索倾向性进行分析;根据预先设置多个词性对应的权重,确定每一检索词汇的第二词性权重;将每一检索词汇的第一词性权重和第二词性权重相乘,得到每一检索词汇的语法权重。6.一种文件检索装置,其特征在于,包括:语法分割模块,用于对用户输入的检索语句进行语法分割,得到多个检索词汇;文件确定模块,用于针对每一检索词汇,从文件库中检索包含该检索词汇的文件,作为每一检索词汇的待选文件,所述文件库中包括多个文件;文件数量权重计算模块,用...
【专利技术属性】
技术研发人员:郝磊,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。