词向量的配置方法、装置、存储介质、电子装置制造方法及图纸

技术编号:22467646 阅读:18 留言:0更新日期:2019-11-06 11:28
本发明专利技术提供了一种词向量的配置方法、装置、存储介质、电子装置,其中,本发明专利技术提供的词向量的配置方法包括:确定待配置初始词向量的第一词汇;判断第一词汇是否在词向量词典中,其中,词向量词典用于存储多个词汇与多个词向量的一一对应关系;如果判断出第一词汇不在词向量词典中,对第一词汇执行笔画拆解,得到笔画序列;计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度;确定与第一词汇的笔画序列相似度最高的词汇对应的词向量,并配置为第一词汇的初始词向量。通过本发明专利技术,解决了相关技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题。

Collocation method, device, storage medium and electronic device of word vector

【技术实现步骤摘要】
词向量的配置方法、装置、存储介质、电子装置
本专利技术涉及神经网络领域,具体而言,涉及一种词向量的配置方法、装置、存储介质、电子装置。
技术介绍
在处理文本类数据时,通常最基本的步骤就是分词并训练词向量(例如,采用word2vec方法进行训练),然后基于词向量进行后续的文本比对、分类等任务。在实际处理过程中,经常会发生待处理的文本中包含不在词向量词典范围内的新词(未登录词),通常的处理方法是随机对未登录词随机的分配词向量,但是,随机分配的词向量并没有利用到新词的语义信息,造成后续任务精度下降。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种词向量的配置方法、装置、存储介质、电子装置,以至少解决现有技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题。根据本专利技术的一个实施例,提供了一种词向量的配置方法,包括:确定待配置初始词向量的第一词汇;判断第一词汇是否在词向量词典中,其中,词向量词典用于存储多个词汇与多个词向量的一一对应关系;如果判断出第一词汇不在词向量词典中,对第一词汇执行笔画拆解,得到笔画序列;计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度;确定与第一词汇的笔画序列相似度最高的词汇对应的词向量,并配置为第一词汇的初始词向量。进一步地,词向量词典中包括第二词汇,计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度,包括:确定第二词汇的笔画序列与第一词汇的笔画序列的重合序列段的总长度,其中,重合序列段为两个词汇的笔画序列中笔画排列相同的序列段;基于第一词汇与第二词汇的重合序列段的总长度,确定第一词汇的笔画序列与第二词汇的笔画序列的相似度。进一步地,基于第一词汇与第二词汇的重合序列段的总长度,确定第一词汇的笔画序列与第二词汇的笔画序列的相似度,采用如下公式:S=2*p/(n+m)其中,S为第一词汇的笔画序列与第二词汇的笔画序列的相似度,p为第一词汇与第二词汇的重合序列段的总长度,n为第一词汇的笔画序列的长度,m为第二词汇的笔画序列的长度。进一步地,确定待配置初始词向量的第一词汇,包括:获取待分词的语料;对语料进行分词,得到顺序的多个分词;在多个分词中确定未配置初始词向量的首位分词,得到第一词汇。通过本专利技术提供的词向量的配置方法,通过对未登录在词向量词典中的词汇进行拆解,在词向量词典中查找与其笔画最接近的已登录词,进而将笔画相近词的词向量配置为未登录词的初始词向量,解决了相关技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题,利用中文的笔画中所携带的语义信息来为未登录词赋予初始词向量,能够减少后续训练任务的耗时、提高训练任务的精度。根据本专利技术的另一个实施例,提供了一种词向量的配置装置,包括:第一确定模块,用于确定待配置初始词向量的第一词汇;判断模块,用于判断第一词汇是否在词向量词典中,其中,词向量词典用于存储多个词汇与多个词向量的一一对应关系;拆解模块,用于如果判断出第一词汇不在词向量词典中,对第一词汇执行笔画拆解,得到笔画序列;计算模块,用于计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度;第二确定模块,用于确定与第一词汇的笔画序列相似度最高的词汇对应的词向量,并配置为第一词汇的初始词向量。进一步地,词向量词典中包括第二词汇,计算模块包括:第一确定单元,用于确定第二词汇的笔画序列与第一词汇的笔画序列的重合序列段的总长度,其中,重合序列段为两个词汇的笔画序列中笔画排列相同的序列段;第二确定单元,用于基于第一词汇与第二词汇的重合序列段的总长度,确定第一词汇的笔画序列与第二词汇的笔画序列的相似度。进一步地,第二确定单元基于第一词汇与第二词汇的重合序列段的总长度,确定第一词汇的笔画序列与第二词汇的笔画序列的相似度,采用如下公式:S=2*p/(n+m)其中,S为第一词汇的笔画序列与第二词汇的笔画序列的相似度,p为第一词汇与第二词汇的重合序列段的总长度,n为第一词汇的笔画序列的长度,m为第二词汇的笔画序列的长度。进一步地,第一确定模块包括:获取单元,用于获取待分词的语料;分词单元,用于对语料进行分词,得到顺序的多个分词;第三确定单元,用于在多个分词中确定未配置初始词向量的首位分词,得到第一词汇。通过本专利技术提供的词向量的配置装置,通过对未登录在词向量词典中的词汇进行拆解,在词向量词典中查找与其笔画最接近的已登录词,进而将笔画相近词的词向量配置为未登录词的初始词向量,解决了相关技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题,利用中文的笔画中所携带的语义信息来为未登录词赋予初始词向量,能够减少后续训练任务的耗时、提高训练任务的精度。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的词向量的配置方法的流程图;图2是根据本专利技术实施例的词向量的配置装置的示意图;图3是本专利技术实施例的一种电子装置的硬件结构框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1本实施例提供了一种词向量的配置方法,可以应用于移动终端、手持终端或类似的运算设备之中。运行在不同的运算设备仅是方案在执行主体上的差异,本领域人员可预见在不同运算设备中运行能够产生相同的技术效果。本实施例提供的词向量的配置方法,通过对未登录在词向量词典中的词汇进行拆解,在词向量词典中查找与其笔画最接近的已登录词,进而将笔画相近词的词向量配置为未登录词的初始词向量,解决了相关技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题,利用中文的笔画中所携带的语义信息来为未登录词赋予初始词向量,能本文档来自技高网
...

【技术保护点】
1.一种词向量的配置方法,其特征在于,所述方法包括:确定待配置初始词向量的第一词汇;判断所述第一词汇是否在词向量词典中,其中,所述词向量词典用于存储多个词汇与多个词向量的一一对应关系;如果判断出所述第一词汇不在所述词向量词典中,对所述第一词汇执行笔画拆解,得到笔画序列;计算所述词向量词典中的每个词汇的笔画序列与所述第一词汇的笔画序列的相似度;确定与所述第一词汇的笔画序列相似度最高的词汇对应的词向量,并配置为所述第一词汇的初始词向量。

【技术特征摘要】
1.一种词向量的配置方法,其特征在于,所述方法包括:确定待配置初始词向量的第一词汇;判断所述第一词汇是否在词向量词典中,其中,所述词向量词典用于存储多个词汇与多个词向量的一一对应关系;如果判断出所述第一词汇不在所述词向量词典中,对所述第一词汇执行笔画拆解,得到笔画序列;计算所述词向量词典中的每个词汇的笔画序列与所述第一词汇的笔画序列的相似度;确定与所述第一词汇的笔画序列相似度最高的词汇对应的词向量,并配置为所述第一词汇的初始词向量。2.根据权利要求1所述的方法,其特征在于,所述词向量词典中包括第二词汇,所述计算所述词向量词典中的每个词汇的笔画序列与所述第一词汇的笔画序列的相似度,包括:确定所述第二词汇的笔画序列与所述第一词汇的笔画序列的重合序列段的总长度,其中,所述重合序列段为两个词汇的笔画序列中笔画排列相同的序列段;基于所述第一词汇与所述第二词汇的重合序列段的总长度,确定所述第一词汇的笔画序列与所述第二词汇的笔画序列的相似度。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一词汇与所述第二词汇的重合序列段的总长度,确定所述第一词汇的笔画序列与所述第二词汇的笔画序列的相似度,采用如下公式:S=2*p/(n+m)其中,S为所述第一词汇的笔画序列与所述第二词汇的笔画序列的相似度,p为所述第一词汇与所述第二词汇的重合序列段的总长度,n为所述第一词汇的笔画序列的长度,m为所述第二词汇的笔画序列的长度。4.根据权利要求1所述的方法,其特征在于,所述确定待配置初始词向量的第一词汇,包括:获取待分词的语料;对所述语料进行分词,得到顺序的多个分词;在所述多个分词中确定未配置初始词向量的首位分词,得到所述第一词汇。5.一种词向量的配置装置,其特征在于,包括:第一确定模块,用于确定待配置初始词向量的第一词汇;判断模块,用于判断所述第一词汇是否在词向量词典中,其中,所述词向量词典用于存储多个词汇与多...

【专利技术属性】
技术研发人员:郑立颖徐亮阮晓雯
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1