【技术实现步骤摘要】
文件查询方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种文件查询方法、装置及计算机可读存储介质。
技术介绍
随着技术的发展,信息量呈爆炸性增长,越来越多的文件需要存储在用户的计算机中。计算机的文件系统负责为用户建立文件,通过存入、读出、修改、转储文件,控制文件的存取。当用户不再使用文件时可以撤销、删除文件等,所以计算机的文件系统可以支撑起海量文件的存储。但对于用户来说,面对海量的文件,检索出目标文件就需要耗费一定的时间和精力,在目前业内还没有出现相关技术或产品可以进行快速文件的查询。
技术实现思路
本专利技术提供一种文件查询方法、装置及计算机可读存储介质,其主要目的在于当用户进行对文本中文件查询时,给用户呈现出精准的文件查询结果。为实现上述目的,本专利技术提供的一种文件查询方法,包括:获取客户端的收藏文件集,在文件系统中创建所述收藏文件集的业务描述,并将创建业务描述后的所述收藏文件集存入云存储中;通过关键词提取算法对所述业务描述进行关键词抽取,得到所述业 ...
【技术保护点】
1.一种文件查询方法,其特征在于,所述方法包括:/n获取客户端的收藏文件集,在文件系统中创建所述收藏文件集的业务描述,并将创建业务描述后的所述收藏文件集存入云存储中;/n通过关键词提取算法对所述业务描述进行关键词抽取,得到所述业务描述的关键词,并将所述关键词转换为词向量后存储所述词向量;/n接收用户输入的查询内容,计算出所述查询内容与所述词向量的相似度;/n根据所述相似度选择对应的业务描述,通过多策略检索方式向所述云存储进行收藏文件的查询,并将查询结果返回给所述用户。/n
【技术特征摘要】
1.一种文件查询方法,其特征在于,所述方法包括:
获取客户端的收藏文件集,在文件系统中创建所述收藏文件集的业务描述,并将创建业务描述后的所述收藏文件集存入云存储中;
通过关键词提取算法对所述业务描述进行关键词抽取,得到所述业务描述的关键词,并将所述关键词转换为词向量后存储所述词向量;
接收用户输入的查询内容,计算出所述查询内容与所述词向量的相似度;
根据所述相似度选择对应的业务描述,通过多策略检索方式向所述云存储进行收藏文件的查询,并将查询结果返回给所述用户。
2.如权利要求1所述的文件查询方法,其特征在于,所述获取客户端的收藏文件集包括:
从所述客户端的本地磁盘中进行遍历检索得到所述收藏文件集;或
根据用户的需求利用关键字从搜索引擎中搜索得到所述收藏文件集。
3.如权利要求1所述的文件查询方法,其特征在于,所述通过关键词提取算法对所述业务描述进行关键词抽取,包括:
对所述业务描述进行分词操作;
计算所述业务描述中的任意两个词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述词Wi和Wj的依存关联度,len(Wi,Wj)表示所述词Wi和Wj之间的依存路径长度,b是超参数;
计算所述词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示所述词Wi和Wj的引力,tfidf(Wi)表示词Wi的TF-IDF值,tfidf(Wj)表示词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是词Wi和Wj的词向量之间的欧式距离;
根据计算的所述依存关联度和所述引力得到所述词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
结合所述关联强度计算出所述词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述词Wi的重要度得分选取t个得分最高的词作为所述业务描述的关键词。
4.如权利要求1所述的文件查询方法,其特征在于,所述查询内容与所述词向量的相似度的计算公式为:
其中,X表示所述词向量,Y表示所述查询内容。
5.如权利要求1至4中任一项所述的文件查询方法,其特征在于,所述通过多策略检索方式向所述云存储进行收藏文件的查询,包括:
预设所述用户输入的查询内容中原字符串为m,所述收藏文件的业务描述目标字符串为n;
记录所述原字符串m变换为所述目标字符串n所需的删除、插入、替换操作的编辑次数L;
选取所述L值最小的对应收藏文件作为查询结果...
【专利技术属性】
技术研发人员:钱克功,沈网中,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。