文本处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:23558617 阅读:24 留言:0更新日期:2020-03-25 04:07
本申请涉及一种文本处理方法、装置、电子设备和计算机可读存储介质,文本处理方法包括:获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。本申请提供的文本处理方法可以更准确地表达目标文本的语义。

Text processing methods, devices, electronic devices and readable storage media

【技术实现步骤摘要】
文本处理方法、装置、电子设备和可读存储介质
本申请涉及自然语言处理
,特别是涉及一种文本处理方法、装置、电子设备和可读存储介质。
技术介绍
在自然语言处理任务中,词向量能够有效捕捉单词的上下文的语义信息以及语法信息,实现单词向量化表示,是计算机理解人类语言的桥梁,为了将文本表示成计算机可以理解和易于处理的数据,通常需要将文本转化为向量。目前,通常直接采用一种算法文本进行转化,例如,直接用Word2Vec模型对文本进行转化,转化后得到的语义往往不够准确。
技术实现思路
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请的目的通过如下技术方案实现:第一方面,提供了一种文本处理方法,该方法包括:获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;获取关键词序列中各个关键词的向量,以构建词向量矩阵;通过预设的随机梯度下降算法获取目标文本的语义权重参数矩阵;根本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;/n分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;/n获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;/n通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;/n根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;
分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;
获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;
通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;
根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。


2.根据权利要求1所述的文本处理方法,其特征在于,所述获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列,包括:
获取目标文本,基于预设的语言处理算法对所述目标文本进行词性还原、词语去重以及去停用词,得到所述目标文本序列;
基于预设的训练后的主题生成算法,从所述目标文本序列中提取出所述主题词序列。


3.根据权利要求1所述的文本处理方法,其特征在于,所述分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,包括:
基于预设的向量生成模型,获取所述目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
分别获取各个词向量和所述主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
基于所述匹配度序列获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离。


4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量,包括:
将所述词向量矩阵和所述语义权重参数矩阵相乘,得到所述语义向量。


5.一种文本处理装置,其特征在于,包括:
提取模块,用于获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;
距离获取模块,用于分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;
构建...

【专利技术属性】
技术研发人员:董毅翟佳陈峰彭实谢晓丹
申请(专利权)人:北京环境特性研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1