信息处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:31229945 阅读:17 留言:0更新日期:2021-12-08 09:59
本申请公开了一种信息处理方法、装置、电子设备及计算机可读存储介质,属于人工智能技术领域。所述方法包括:基于目标领域的分词词典,对待处理文本信息进行分词处理得到多个单词;基于词向量库中查找的该多个单词中目标单词的目标词向量,对待处理文本信息进行文本处理;词向量库包括:目标领域的多个目标单词的目标词向量;每个目标词向量基于神经网络模型的模型参数确定,模型参数基于目标领域的训练文本信息对神经网络模型进行训练,以对初始模型参数进行更新后得到;初始模型参数基于每个目标单词的初始词向量确定,初始词向量的维数小于该多个目标单词的数量。本申请解决了文本信息的处理效果较差的问题。本申请用于进行文本信息的处理。本信息的处理。本信息的处理。

【技术实现步骤摘要】
信息处理方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及人工智能
,特别涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的快速发展,人工智能(artificial intelligence,AI)技术的应用范围越来越广。人工智能技术包括自然语言处理(nature language processing,NLP)技术,NLP技术被广泛应用在对文本信息的分析处理中。但是目前采用NLP技术对待处理的文本信息进行处理的精确性较低,效果较差。

技术实现思路

[0003]本申请提供了一种信息处理方法、装置、电子设备及计算机可读存储介质,可以解决对待处理的文本信息进行处理的精确性较低,效果较差的问题。所述技术方案如下:
[0004]一方面,提供了一种信息处理方法,所述方法包括:
[0005]获取目标领域的待处理文本信息;
[0006]基于所述目标领域的分词词典,对所述待处理文本信息进行分词处理,得到所述待处理文本信息中的多个单词;
[0007]在所述目标领域的词向量库中,查找所述多个单词的目标词向量,所述目标词向量用于表征对应的单词的语义;
[0008]基于所述多个单词中查找到的目标单词的目标词向量,对所述待处理文本信息进行文本处理;
[0009]其中,所述目标领域的词向量库包括:属于所述目标领域的多个目标单词的目标词向量;所述词向量库中每个目标单词的目标词向量基于神经网络模型的模型参数确定,所述模型参数为基于所述目标领域的训练文本信息对所述神经网络模型进行训练,以对所述神经网络模型的初始模型参数进行更新后得到的;所述训练文本信息包括所述多个目标单词,所述初始模型参数基于为所述多个目标单词中每个目标单词配置的初始词向量确定,所述初始词向量的维数小于所述多个目标单词的数量。
[0010]可选地,所述方法还包括:
[0011]获取所述目标领域的训练文本信息;
[0012]基于所述目标领域的分词词典,对所述训练文本信息进行分词处理,得到所述多个目标单词;
[0013]为所述多个目标单词中每个目标单词配置所述初始词向量;
[0014]基于所述训练文本信息获取训练样本集,所述训练样本集包括多个训练样本以及每个所述训练样本的训练标签;每个所述训练样本用于反映一个样本文本中的目标单词的语义,所述样本文本为所述训练文本信息中包括至少两个目标单词的句子;所述训练样本的训练标签用于反映所述样本文本中的目标单词在所述多个目标单词中的位置;
[0015]基于所述训练样本集中每个训练样本及对应的训练标签对所述神经网络模型进行训练,以更新所述神经网络模型的模型参数中,所述训练样本对应的样本文本中的目标单词的初始词向量,得到训练后的神经网络模型;
[0016]基于所述训练后的神经网络模型的模型参数,得到所述多个目标单词的目标词向量,以构建所述目标领域的词向量库。
[0017]可选地,所述为所述多个目标单词中每个目标单词配置所述初始词向量,包括:
[0018]基于输入的所述初始词向量的维数,对所述多个目标单词中每个目标单词进行词向量的随机初始化,以为所述每个目标单词配置所述初始词向量。
[0019]可选地,所述基于所述训练样本集中每个训练样本及对应的训练标签对所述神经网络模型进行训练,以更新所述神经网络模型的模型参数中,所述训练样本对应的样本文本中的目标单词的初始词向量,包括:
[0020]向所述神经网络模型输入所述训练样本集的每个训练样本,所述每个训练样本包括所述多个目标单词中一个目标单词的2m个周围词的初始词向量;其中,m≥1,所述2m个周围词包括:所述训练样本对应的样本文本中,位于所述目标单词之前且距所述一个目标单词最近的m个目标单词,以及位于所述每个目标单词之后且距所述一个目标单词最近的m个目标单词;
[0021]基于所述一个目标单词的2m个周围词的初始词向量,通过所述神经网络模型输出所述一个目标单词的参考词向量;目标单词的参考词向量用于反映:所述目标单词的2m个周围词的初始词向量表征的词为所述多个目标单词中各个目标单词的概率;
[0022]当基于所述多个目标单词中每个目标单词的参考词向量与所述训练集中的训练标签,确定所述多个目标单词中每个目标单词对应的表征概率均大于或等于概率阈值时,停止对所述神经网络模型的训练;目标单词对应的表征概率为:所述目标单词的2m个周围词的初始词向量表征的词为所述目标单词的概率;
[0023]当基于所述一个目标单词的参考词向量与所述一个目标单词对应的训练标签,确定所述一个目标单词对应的表征概率小于所述概率阈值时,更新所述神经网络模型的模型参数中所述一个目标单词的2m个周围词的初始词向量;返回执行基于所述一个目标单词的2m个周围词的初始词向量,通过所述神经网络模型输出所述一个目标单词的参考词向量的步骤。
[0024]可选地,所述基于所述一个目标单词的2m个周围词的初始词向量,通过所述神经网络模型输出所述一个目标单词的参考词向量,包括:
[0025]通过所述神经网络模型,将所述一个目标单词的2m个周围词的初始词向量相加后再平均所得的向量,确定为所述一个目标单词的隐向量;
[0026]通过所述神经网络模型,将所述一个目标单词的隐向量与输出词矩阵相乘所得的向量,确定为所述一个目标单词的参考词向量,所述输出词矩阵用于反映所述2m个周围词到所述一个目标单词的映射关系。
[0027]可选地,所述训练样本的训练标签包括为所述一个目标单词设定的基准词向量,所述基准词向量用于反映所述一个目标单词在所述多个目标单词中的位置;
[0028]所述基于所述训练样本集中每个训练样本及对应的训练标签对所述神经网络模型进行训练,以更新所述神经网络模型的模型参数中,所述训练样本对应的样本文本中的
目标单词的初始词向量,还包括:
[0029]基于所述一个目标单词的参考词向量以及为所述一个目标单词设定的基准词向量,确定所述每个目标单词对应的损失值,所述损失值用于反映所述参考词向量与所述基准词向量的差异程度;
[0030]当所述一个目标单词对应的损失值小于损失值阈值时,确定所述一个目标单词对应的表征概率小于所述概率阈值;
[0031]所述确定所述一个目标单词对应的表征概率小于所述概率阈值时,更新所述神经网络模型的模型参数中所述一个目标单词的2m个周围词的初始词向量,包括:
[0032]基于所述一个目标单词对应的损失值,更新所述一个目标单词的2m个周围词的初始词向量与所述输出词矩阵。
[0033]可选地,在基于所述目标领域的分词词典,对所述待处理文本信息进行分词处理之前,所述方法还包括:
[0034]获取所述目标领域的多个实体名;
[0035]基于所述多个实体名构建所述分词词典。
[0036]另一方面,提供了一种信息处理装置,所述信息处理装置包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取目标领域的待处理文本信息;基于所述目标领域的分词词典,对所述待处理文本信息进行分词处理,得到所述待处理文本信息中的多个单词;在所述目标领域的词向量库中,查找所述多个单词的目标词向量,所述目标词向量用于表征对应的单词的语义;基于所述多个单词中查找到的目标单词的目标词向量,对所述待处理文本信息进行文本处理;其中,所述目标领域的词向量库包括:属于所述目标领域的多个目标单词的目标词向量;所述词向量库中每个目标单词的目标词向量基于神经网络模型的模型参数确定,所述模型参数为基于所述目标领域的训练文本信息对所述神经网络模型进行训练,以对所述神经网络模型的初始模型参数进行更新后得到的;所述训练文本信息包括所述多个目标单词,所述初始模型参数基于为所述多个目标单词中每个目标单词配置的初始词向量确定,所述初始词向量的维数小于所述多个目标单词的数量。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标领域的训练文本信息;基于所述目标领域的分词词典,对所述训练文本信息进行分词处理,得到所述多个目标单词;为所述多个目标单词中每个目标单词配置所述初始词向量;基于所述训练文本信息获取训练样本集,所述训练样本集包括多个训练样本以及每个所述训练样本的训练标签;每个所述训练样本用于反映一个样本文本中的目标单词的语义,所述样本文本为所述训练文本信息中包括至少两个目标单词的句子;所述训练样本的训练标签用于反映所述样本文本中的目标单词在所述多个目标单词中的位置;基于所述训练样本集中每个训练样本及对应的训练标签对所述神经网络模型进行训练,以更新所述神经网络模型的模型参数中所述每个训练样本对应的样本文本中的目标单词的初始词向量,得到训练后的神经网络模型;基于所述训练后的神经网络模型的模型参数,得到所述多个目标单词的目标词向量,以构建所述目标领域的词向量库。3.根据权利要求2所述的方法,其特征在于,所述为所述多个目标单词中每个目标单词配置所述初始词向量,包括:基于输入的所述初始词向量的维数,对所述多个目标单词中每个目标单词进行词向量的随机初始化,以为所述每个目标单词配置所述初始词向量。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述训练样本集中每个训练样本及对应的训练标签对所述神经网络模型进行训练,以更新所述神经网络模型的模型参数中所述每个训练样本对应的样本文本中的目标单词的初始词向量,包括:向所述神经网络模型输入所述训练样本集的每个训练样本,所述每个训练样本包括所述多个目标单词中一个目标单词的2m个周围词的初始词向量;其中,m≥1,所述2m个周围词包括:所述训练样本对应的样本文本中,位于所述目标单词之前且距所述一个目标单词最近的m个目标单词,以及位于所述每个目标单词之后且距所述一个目标单词最近的m个目标
单词;基于所述一个目标单词的2m个周围词的初始词向量,通过所述神经网络模型输出所述一个目标单词的参考词向量;目标单词的参考词向量用于反映:所述目标单词的2m个周围词的初始词向量表征的词为所述多个目标单词中各个目标单词的概率;当基于所述多个目标单词中每个目标单词的参考词向量与所述训练集中的训练标签,确定所述多个目标单词中每个目标单词对应的表征概率均大于或等于概率阈值时,停止对所述神经网络模型的训练;目标单词对应的表征概率为:所述目标单词的2m个周围词的初始词向量表征的词为所述目标单词的概率;当基于所述一个目标单词的参考词向量与所述一个目标单词对应的训练标签,确定所述一个目标单词对应的表征概率小于所述概率阈值时,更新所述神经网络模型的模型参...

【专利技术属性】
技术研发人员:刘亚飞赵瑞辉王硕佳孙继超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1