一种词向量文件加载方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24331642 阅读:25 留言:0更新日期:2020-05-29 19:52
本申请提出一种词向量文件加载方法、装置、存储介质及电子设备。首先,依据词频和业务领域对词向量文件进行分割,以获得多个子文件,至少一个子文件为启动加载文件,启动加载文件小于词向量文件,然后,通过加载启动加载文件,构建词向量查询模型,词向量查询模型可以满足用户基础查询,同时缩短了加载的过程,提升了加载效率,并且占用的存储空间更少,更加节省资源。

A loading method, device, storage medium and electronic equipment of word vector file

【技术实现步骤摘要】
一种词向量文件加载方法、装置、存储介质及电子设备
本申请涉及自然语言处理
,具体而言,涉及一种词向量文件加载方法、装置、存储介质及电子设备。
技术介绍
随着互联网经济的快速发展,产生了大量的文本信息,因此对文本信息这种非结构化数据的处理越来越重要。由于文本的原生信息计算机无法识别,为了便于计算和处理,人们专利技术了词向量,即以数字化向量的方式来表征一个字、词、短语或者文本,以便于计算文本之间的相似度和关联性,通过词向量的表示可以进一步发现语义之间的内在关联,从而帮助提升解决具体场景下业务问题的能力。但是词向量文件通常都比较大,其每一行由一个词及其对应的向量组成。由于词向量文件通常很大,加载过程就会很慢,对于开发测试都比较不利;而且词向量文件对内存资源的消耗也比较大,这也限制了很多场景的使用。
技术实现思路
本申请的目的在于提供一种词向量文件加载方法、装置、存储介质及电子设备,以解决上述问题。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种词向量文件加载方法,应用于电子设备,所述方法包括:依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;加载所述启动加载文件,构建词向量查询模型。第二方面,本申请实施例提供一种词向量文件加载装置,应用于电子设备,所述装置包括:词向量管理单元,用于依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;模型管理单元,用于加载所述启动加载文件,构建词向量查询模型。第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。第四方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现上述的方法。相对于现有技术,本申请实施例所提供的一种词向量文件加载方法、装置、存储介质及电子设备的有益效果为:首先,依据词频和业务领域对词向量文件进行分割,以获得多个子文件,至少一个子文件为启动加载文件,启动加载文件小于词向量文件,然后,通过加载启动加载文件,构建词向量查询模型,词向量查询模型可以满足用户基础查询,同时缩短了加载的过程,提升了加载效率,并且占用的存储空间更少,更加节省资源。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。图1为本申请实施例提供的电子设备的结构示意图;图2为本申请实施例提供的词向量文件加载方法的流程示意图;图3为本申请实施例提供的S103的子步骤示意图;图4为本申请实施例提供的词向量文件加载方法的另一种流程示意图;图5为本申请实施例提供的词向量文件加载方法的另一种流程示意图;图6为本申请实施例提供的词向量文件加载方法的另一种流程示意图;图7为本申请实施例提供的词向量文件加载装置的单元示意图。图中:10-处理器;11-存储器;12-总线;13-通信接口;201-词向量管理单元;202-模型管理单元。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。现有技术中,词向量文件通常都比较大,其每一行由一个词及其对应的向量组成:通常是用一个100维以上的数字向量来表示一个词,而每一维通常都会保留小数点后面的10位以上来保证精度。这就导致词向量文件通常在GB级别以上,例如腾讯2018年公开的中文词向量就有16GB大小。由于词向量通常很大,加载过程就会很慢,对于开发测试都比较不利;而且词向量对资源的消耗也比较大,例如16GB的词向量完整加载就大概需要28GB的JAVA内存,这也限制了很多场景的使用。本申请实施例提供了一种电子设备,可以是手机、电脑或者其他电子终端。请参照图1,电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接,处理器10用于执行存储器11中存储的可执行模块,例如计算机本文档来自技高网...

【技术保护点】
1.一种词向量文件加载方法,应用于电子设备,其特征在于,所述方法包括:/n依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;/n加载所述启动加载文件,构建词向量查询模型。/n

【技术特征摘要】
1.一种词向量文件加载方法,应用于电子设备,其特征在于,所述方法包括:
依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;
加载所述启动加载文件,构建词向量查询模型。


2.如权利要求1所述的词向量文件加载方法,其特征在于,加载所述启动加载文件,构建词向量查询模型的步骤,包括:
将所述启动加载文件分为多个子片区;
通过N个线程并行加载所述多个子片区,其中,N为所述电子设备的CPU核数;
构建所述词向量查询模型。


3.如权利要求1所述的词向量文件加载方法,其特征在于,所述多个子文件还包括延时加载文件,所述延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇;
在加载所述启动加载文件之后,所述方法还包括:
加载所述延时加载文件,并更新所述词向量查询模型。


4.如权利要求3所述的词向量文件加载方法,其特征在于,所述多个子文件还包括专用词汇文件和生僻词汇文件,所述专用词汇文件包含所述业务领域内的专用词汇,所述生僻词汇文件包含词频小于第二阈值的生僻词汇;
在加载所述延时加载文件,并更新所述词向量查询模型之后,所述方法还包括:
当查询的词汇不属于所述词向量查询模型时,加载所述专用词汇文件和所述生僻词汇文件,并更新所述词向量查询模型。


5.如权利要求1所述的词...

【专利技术属性】
技术研发人员:李亮杨航胡姣姣罗利利
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1