短文本表征方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:39993998 阅读:27 留言:0更新日期:2024-01-09 02:34
本发明专利技术提供短文本表征方法、装置、电子设备以及存储介质,属于数据处理技术领域,包括:根据预设翻译器翻译目标短文本,获取所述目标短文本对应的译文文本;向量化所述目标短文本,确定文本单元向量;向量化所述译文文本,确定译文文本向量;拼接所述文本单元向量以及所述译文文本向量,获取目标增强向量;输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果。本发明专利技术结合多种形式的译文扩展进行文本向量增强,从而丰富语义特征,进而增强短文本的表征效果。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种短文本表征方法、装置、电子设备以及存储介质


技术介绍

1、短文本相比于长文本而言,所包含的字符数少,文本描述较为随意,且各个实体间的关系比较模糊,完整的语义信息难以准确提取。

2、传统的空间向量模型基于词频、反向文档频率等方法对文本提取特征进行向量化表达,所能提取到的语义特征相对较少,容易产生高维稀疏向量和语义鸿沟,导致其无法取得较好的短文本表征效果,进而在应对下游自然语言处理(natural languageprocessing,nlp)任务时,输出效果较差。


技术实现思路

1、本专利技术提供一种短文本的分类方法,用以解决现有技术中短文本所能提取的语义特征较少,导致短文本的表征效果较差的技术问题。

2、第一方面,本专利技术提供一种短文本表征方法,包括:

3、根据预设翻译器翻译目标短文本,获取所述目标短文本对应的译文文本,所述译文文本为任一语种对应的翻译文本,或,基于多个语种翻译所述目标短文本后形成的多个文本集合,或,采用不同语种分别翻本文档来自技高网...

【技术保护点】

1.一种短文本表征方法,其特征在于,包括:

2.根据权利要求1所述的短文本表征方法,其特征在于,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之前,所述方法还包括:

3.根据权利要求2所述的短文本表征方法,其特征在于,在所述根据第一样本增强向量、第二样本增强向量,所述第一样本增强向量与所述第二样本增强向量之间的样本分类标签构建样本三元组之前,所述方法还包括:

4.根据权利要求3所述的短文本表征方法,其特征在于,所述确定每一样本文本单元组的所述样本分类标签,包括:

5.根据权利要求3所述的短文本表征方法...

【技术特征摘要】

1.一种短文本表征方法,其特征在于,包括:

2.根据权利要求1所述的短文本表征方法,其特征在于,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之前,所述方法还包括:

3.根据权利要求2所述的短文本表征方法,其特征在于,在所述根据第一样本增强向量、第二样本增强向量,所述第一样本增强向量与所述第二样本增强向量之间的样本分类标签构建样本三元组之前,所述方法还包括:

4.根据权利要求3所述的短文本表征方法,其特征在于,所述确定每一样本文本单元组的所述样本分类标签,包括:

5.根据权利要求3所述的短文本表征方法,其特征在于,所述译文向量为如下向量中的任一种:

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:张芃
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1