【技术实现步骤摘要】
一种词向量文件加载方法、装置、存储介质及电子设备
本申请涉及自然语言处理
,具体而言,涉及一种词向量文件加载方法、装置、存储介质及电子设备。
技术介绍
随着互联网经济的快速发展,产生了大量的文本信息,因此对文本信息这种非结构化数据的处理越来越重要。由于文本的原生信息计算机无法识别,为了便于计算和处理,人们专利技术了词向量,即以数字化向量的方式来表征一个字、词、短语或者文本,以便于计算文本之间的相似度和关联性,通过词向量的表示可以进一步发现语义之间的内在关联,从而帮助提升解决具体场景下业务问题的能力。但是词向量文件通常都比较大,其每一行由一个词及其对应的向量组成。由于词向量文件通常很大,加载过程就会很慢,对于开发测试都比较不利;而且词向量文件对内存资源的消耗也比较大,这也限制了很多场景的使用。
技术实现思路
本申请的目的在于提供一种词向量文件加载方法、装置、存储介质及电子设备,以解决上述问题。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种词向量文件加载方法,应 ...
【技术保护点】
1.一种词向量文件加载方法,应用于电子设备,其特征在于,所述方法包括:/n依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;/n加载所述启动加载文件,构建词向量查询模型。/n
【技术特征摘要】
1.一种词向量文件加载方法,应用于电子设备,其特征在于,所述方法包括:
依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;
加载所述启动加载文件,构建词向量查询模型。
2.如权利要求1所述的词向量文件加载方法,其特征在于,加载所述启动加载文件,构建词向量查询模型的步骤,包括:
将所述启动加载文件分为多个子片区;
通过N个线程并行加载所述多个子片区,其中,N为所述电子设备的CPU核数;
构建所述词向量查询模型。
3.如权利要求1所述的词向量文件加载方法,其特征在于,所述多个子文件还包括延时加载文件,所述延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇;
在加载所述启动加载文件之后,所述方法还包括:
加载所述延时加载文件,并更新所述词向量查询模型。
4.如权利要求3所述的词向量文件加载方法,其特征在于,所述多个子文件还包括专用词汇文件和生僻词汇文件,所述专用词汇文件包含所述业务领域内的专用词汇,所述生僻词汇文件包含词频小于第二阈值的生僻词汇;
在加载所述延时加载文件,并更新所述词向量查询模型之后,所述方法还包括:
当查询的词汇不属于所述词向量查询模型时,加载所述专用词汇文件和所述生僻词汇文件,并更新所述词向量查询模型。
5.如权利要求1所述的词...
【专利技术属性】
技术研发人员:李亮,杨航,胡姣姣,罗利利,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。