【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质
本申请实施例涉及互联网
,涉及但不限于一种文本处理方法、装置、设备及计算机可读存储介质。
技术介绍
在人工智能领域,在对文本进行文本处理时,例如,对文本进行翻译、对文本进行问答匹配、对文本进行搜索等任意一种文本处理时,通常需要预先对文本对应的向量进行处理,得到处理后的特征向量,然后基于处理后的特征向量实现对文本的处理。相关技术中,通常预先采用有序神经元(OrderedNeurons)或自注意力结构(Self-Attention)来实现对文本对应的向量进行处理。但是,相关技术中的向量处理方法,均不能描述文本中的符号之间的语义层次关系,且Self-Attention默认当前符号对应的嵌入表示向量(Embedding)要与其他符号完全交互,因此会使得后续文本处理过程中得到的处理结果的准确性较低。
技术实现思路
本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质,涉及人工智能
由于对待处理文本中的每一词的词向量进行划分,至少形成词向量的全局 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n对待处理文本中的每一词的词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量;/n通过每一词的所述全局信息子向量,对对应词进行注意力计算,得到所述对应词的注意力值;/n对所述对应词的局部信息子向量和所述注意力值进行累加处理,得到所述对应词的加权词向量;/n对所述待处理文本中的至少一个词的所述加权词向量进行合并,形成合并向量;/n将所述合并向量确定为所述待处理文本的特征向量,并采用所述特征向量对所述待处理文本进行文本处理。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
对待处理文本中的每一词的词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量;
通过每一词的所述全局信息子向量,对对应词进行注意力计算,得到所述对应词的注意力值;
对所述对应词的局部信息子向量和所述注意力值进行累加处理,得到所述对应词的加权词向量;
对所述待处理文本中的至少一个词的所述加权词向量进行合并,形成合并向量;
将所述合并向量确定为所述待处理文本的特征向量,并采用所述特征向量对所述待处理文本进行文本处理。
2.根据权利要求1所述的方法,其特征在于,所述对待处理文本中的每一词的词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量,包括:
确定门控向量,所述门控向量中至少包括非零区间;
将所述非零区间,确定为全局位置区间;
将所述门控向量中位于所述非零区间之后的子区间,确定为局部位置区间;
按照所述全局位置区间和所述局部位置区间,对每一词的所述词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量。
3.根据权利要求2所述的方法,其特征在于,所述确定门控向量,包括:
获取第一门控向量和第二门控向量;其中,所述第一门控向量的所有元素之和为1,且所述第一门控向量中的元素按照依次递增的顺序排列;所述第二门控向量的所有元素之和为1,且所述第二门控向量中的元素按照依次递减的顺序排列;所述第一门控向量的维度与所述第二门控向量的维度相同;
依次将所述第一门控向量中每一位置的元素与所述第二门控向量中对应位置的元素相乘,得到所述对应位置的乘积;
按照所述第一门控向量中的每一位置的顺序,依次将每一位置的所述乘积添加至一新的向量中,生成所述门控向量。
4.根据权利要求2所述的方法,其特征在于,所述按照所述全局位置区间和所述局部位置区间,对每一词的所述词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量,包括:
将所述全局位置区间中的第一个元素在所述门控向量中的位置,确定为初始位置;
将所述全局位置区间中的最后一个元素在所述门控向量中的位置,确定为终止位置;
根据所述初始位置和所述终止位置,对每一词的所述词向量进行划分,至少形成所述词向量的全局信息子向量和局部信息子向量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述门控向量的向量维度对应的第一数量;
按照每一词的所述词向量中元素的顺序,将所述词向量等分成所述第一数量的子区间;其中,所...
【专利技术属性】
技术研发人员:王兴光,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。