文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28979863 阅读:27 留言:0更新日期:2021-06-23 09:26
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取第一文本和第二文本;对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;基于所述目标词向量确定所述第一文本的文本向量;基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。采用本方法能够提高文本相关性度量的准确性。

【技术实现步骤摘要】
文本处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,出现了自然语言处理技术,在自然语言处理技术中,经常需要进行文本相关性度量,文本相关性度量指的是两个文本相似性的计算算法,好的文本相关性度量是视频搜索和推荐等相关业务所必需具备的重要能力。相关技术中,在进行文本相关性度,通常只考虑到两个文本之间的共现特征,导致文本相关性度量的准确性不高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高文本相关性度量准确性的文本处理方法、装置、计算机设备和存储介质。一种文本处理方法,所述方法包括:获取第一文本和第二文本;对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;<本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n获取第一文本和第二文本;/n对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;/n确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;/n获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;/n基于所述目标词向量确定所述第一文本的文本向量;/n基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
获取第一文本和第二文本;
对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述第一文本的文本向量;
基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。


2.根据权利要求1所述的方法,其特征在于,所述关联词集合包括同义词集合;所述确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量包括:
将所述第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为所述第一分词对应的同义词集合;所述语义集合是由相同语义的词语组成的;
获取所述第一分词对应的同义词集合中多个同义词的映射词向量,基于所述同义词集合对应的多个映射词向量得到所述同义词集合的同义词平均向量;
基于所述第一分词对应的同义词平均向量确定所述第一分词的关联词向量。


3.根据权利要求2所述的方法,其特征在于,所述知识库中的语义集合之间是通过关系边进行连接的;所述关联词集合还包括上下位语义集合;在所述将所述第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为所述第一分词对应的同义词集合之后,所述方法还包括:
从预先建立的知识库中查找与所述第一分词对应的同义词集合通过关系边连接的语义集合,得到所述第一分词对应的上下位语义集合;
获取所述第一分词对应的上下位语义集合中多个上下位词的映射词向量,基于所述上下位语义集合对应的多个映射词向量得到所述上下位语义集合的上下位平均向量;
所述基于所述第一分词对应的同义词平均向量确定所述第一分词的关联词向量包括:
融合所述第一分词对应的同义词平均向量与上下位平均向量,得到所述第一分词的关联词向量。


4.根据权利要求1所述的方法,其特征在于,所述第一分词包括多个,各个第一分词对应不同的目标词向量;所述基于所述目标词向量确定所述第一文本的文本向量包括:
对各个所述目标词向量按照对应的第一分词在第一文本中的先后顺序进行前向编码,得到各个所述目标词向量的前向编码向量;
对各个所述目标词向量按照对应的第一分词在第一文本中的先后顺序进行后向编码,得到各个所述目标词向量的后向编码向量;
融合各个所述目标词向量的前向编码向量与后向编码向量,得到各个所述目标词向量对应的融合向量;
根据各个所述融合向量得到所述第一文本对应的文本向量。


5.根据权利要求1所述的方法,其特征在于,在所述基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果之前,所述方法还包括:
对所述第二文本进行分词处理,获得所述第二文本对应的第二分词;
确定所述第二分词对应的关联词集合,基于所述第二分词对应的关联词集合得到所述第二分词对应的关联词向量;
获取所述第二分词对应的映射词向量,拼接所述第二分词对应的映射词向量和关联词向量,得到所述第二文本对应的目标词向量;
基于所述第二文本对应的目标词向量确定所述第二文本的文本向量。


6.根据权利要求1所述的方法,其特征在于,所述基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果包括:
获取已训练的文本处理模型;所述文本处理模型包括融合层和分类层;
将所述第二文本的文本向量和所述第一文本的文本向量输入所述融合层,在所述融合层对所述第二文本的文本向量和所述第一文本的文本向量进行融合,得到融合文本向量;
将所述融合文本向量输入所述分类层,在所述分类层对所述融合文本向量进行分类,得到第一文本和所述第二文本之间的相关性度量结果。


7.根据权利要求6所述的方法,其特征在于,所述在所述融合层对所述第二文本的文本向量和所述第一文本的文本向量进行融合,得到融合文本向量包括:
分别获取第二分词集合中各个第二分词与所述第一分词之间的第一相似度;所述第二分词集合是对所述第二文本进行分词处理得到的第二分词组成的集合;
根据各个第一相似度得到所述第一分词的注意力权重;
根据所述注意力权重对所述第一文本的文本向量进行加权,以更新所述第一文本的文本向量;
融合所述第二文本的文本向量与更新后的第一文本的文本向量,得到融合文本向量。


8.根据权利要求7所述的方法,其特征在于,在所述根据各个第一相似度得到所述第一分词的注意力权重之前,所述方法还包括:
获取所述第一分词对应的同义词集合,并获取所述第二分词集合中各个第二分词对应的同义词集合;
分别获取所述第一分词对应的同义词集合与各个第二分词对应的同义词集合之间的第二相似度;
所述根据各个第一相似度得到所述第一分词的注意力权重包括:
根据各个第一相似度及各个第二相似度得到所述第一分词的...

【专利技术属性】
技术研发人员:李伟康陈小帅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1