词向量的配置方法、装置、存储介质、电子装置制造方法及图纸

技术编号：22467646 阅读：18 留言：0更新日期：2019-11-06 11:28

本发明专利技术提供了一种词向量的配置方法、装置、存储介质、电子装置，其中，本发明专利技术提供的词向量的配置方法包括：确定待配置初始词向量的第一词汇；判断第一词汇是否在词向量词典中，其中，词向量词典用于存储多个词汇与多个词向量的一一对应关系；如果判断出第一词汇不在词向量词典中，对第一词汇执行笔画拆解，得到笔画序列；计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度；确定与第一词汇的笔画序列相似度最高的词汇对应的词向量，并配置为第一词汇的初始词向量。通过本发明专利技术，解决了相关技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题。

Collocation method, device, storage medium and electronic device of word vector

全部详细技术资料下载

【技术实现步骤摘要】
词向量的配置方法、装置、存储介质、电子装置
本专利技术涉及神经网络领域，具体而言，涉及一种词向量的配置方法、装置、存储介质、电子装置。
技术介绍
在处理文本类数据时，通常最基本的步骤就是分词并训练词向量(例如，采用word2vec方法进行训练)，然后基于词向量进行后续的文本比对、分类等任务。在实际处理过程中，经常会发生待处理的文本中包含不在词向量词典范围内的新词(未登录词)，通常的处理方法是随机对未登录词随机的分配词向量，但是，随机分配的词向量并没有利用到新词的语义信息，造成后续任务精度下降。针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种词向量的配置方法、装置、存储介质、电子装置，以至少解决现有技术中利用随机分配的方式配置未登录词的词向量时导致后续训练任务精度下降的技术问题。根据本专利技术的一个实施例，提供了一种词向量的配置方法，包括：确定待配置初始词向量的第一词汇；判断第一词汇是否在词向量词典中，其中，词向量词典用于存储多个词汇与多个词向量的一一对应关系；如果判断出第一词汇不在词向量词典中，对第一词汇执行笔画拆解，得到笔画序列；计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度；确定与第一词汇的笔画序列相似度最高的词汇对应的词向量，并配置为第一词汇的初始词向量。进一步地，词向量词典中包括第二词汇，计算词向量词典中的每个词汇的笔画序列与第一词汇的笔画序列的相似度，包括：确定第二词汇的笔画序列与第一词汇的笔画序列的重合序列段的总长度，其中，重合序列段为两个词汇的笔画序列中笔画排列相同的序列段；基...

【技术保护点】
1.一种词向量的配置方法，其特征在于，所述方法包括：确定待配置初始词向量的第一词汇；判断所述第一词汇是否在词向量词典中，其中，所述词向量词典用于存储多个词汇与多个词向量的一一对应关系；如果判断出所述第一词汇不在所述词向量词典中，对所述第一词汇执行笔画拆解，得到笔画序列；计算所述词向量词典中的每个词汇的笔画序列与所述第一词汇的笔画序列的相似度；确定与所述第一词汇的笔画序列相似度最高的词汇对应的词向量，并配置为所述第一词汇的初始词向量。

【技术特征摘要】
1.一种词向量的配置方法，其特征在于，所述方法包括：确定待配置初始词向量的第一词汇；判断所述第一词汇是否在词向量词典中，其中，所述词向量词典用于存储多个词汇与多个词向量的一一对应关系；如果判断出所述第一词汇不在所述词向量词典中，对所述第一词汇执行笔画拆解，得到笔画序列；计算所述词向量词典中的每个词汇的笔画序列与所述第一词汇的笔画序列的相似度；确定与所述第一词汇的笔画序列相似度最高的词汇对应的词向量，并配置为所述第一词汇的初始词向量。2.根据权利要求1所述的方法，其特征在于，所述词向量词典中包括第二词汇，所述计算所述词向量词典中的每个词汇的笔画序列与所述第一词汇的笔画序列的相似度，包括：确定所述第二词汇的笔画序列与所述第一词汇的笔画序列的重合序列段的总长度，其中，所述重合序列段为两个词汇的笔画序列中笔画排列相同的序列段；基于所述第一词汇与所述第二词汇的重合序列段的总长度，确定所述第一词汇的笔画序列与所述第二词汇的笔画序列的相似度。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一词汇与所述第二词汇的重合序列段的总长度，确定所述第一词汇的笔画序列与所述第二词汇的笔画序列的相似度，采用如下公式：S＝2*p/(n+m)其中，S为所述第一词汇的笔画序列与所述第二词汇的笔画序列的相似度，p为所述第一词汇与所述第二词汇的重合序列段的总长度，n为所述第一词汇的笔画序列的长度，m为所述第二词汇的笔画序列的长度。4.根据权利要求1所述的方法，其特征在于，所述确定待配置初始词向量的第一词汇，包括：获取待分词的语料；对所述语料进行分词，得到顺序的多个分词；在所述多个分词中确定未配置初始词向量的首位分词，得到所述第一词汇。5.一种词向量的配置装置，其特征在于，包括：第一确定模块，用于确定待配置初始词向量的第一词汇；判断模块，用于判断所述第一词汇是否在词向量词典中，其中，所述词向量词典用于存储多个词汇与多...

【专利技术属性】
技术研发人员：郑立颖，徐亮，阮晓雯，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人