【技术实现步骤摘要】
文本处理方法、装置、计算机设备以及存储介质
本申请涉及计算机
,尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。
技术介绍
文本分类是指按照一定的分类体系或者分类标准对文本进行分类标记。文本分类结果可以为文本下游任务提供数据基础,例如,根据文本分类结果进行文本语义理解,根据文本分类结果进行精准推荐等。目前,文本分类主要由人工完成,即人工理解整个文本后,按照预设的分类标准为文本设置对应的类型标签。由于人工分类文本需要经历人工文本理解,人工设置标签等过程,会耗费大量的时间,造成文本分类的效率低下。
技术实现思路
本申请实施例提供一种文本处理方法、装置、计算设备以及存储介质,可以提高文本分类效率。本申请实施例一方面提供了一种文本处理方法,包括:获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。本申请实施例一方面提供了一种文本处理装置,包括:获取模块,用于获取目标文本,所述目标文本包括N个目标词组,所述N是正整数 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;/n根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;/n识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;/n将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。/n
【技术特征摘要】 【专利技术属性】
1.一种文本处理方法,其特征在于,包括:
获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
2.根据权利要求1所述的方法,其特征在于,所述根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,包括:
获取每个目标词组的词向量特征;
根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征;
根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征;
将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。
3.根据权利要求2所述的方法,其特征在于,针对N个目标词组中的任一目标词组,根据N个目标词组的词向量特征确定所述任一目标词组的局部上下文特征的流程包括:
分别确定所述任一目标词组的词向量特征和N个目标词组的词向量特征之间的第一特征相似度;
将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似度;
将N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到所述任一目标词组的局部上下文特征。
4.根据权利要求2所述的方法,其特征在于,所述根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征,包括:
获取每个目标词组在所述目标文本中的词组位置特征,获取每个目标词组在所述目标文本中的语句位置特征;
将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征;
对N个输入特征进行多注意力编码,得到每个目标词组的局部上下文特征。
5.根据权利要求2所述的方法,其特征在于,所述主题词组权重特征集合包括K个主题词组权重特征,任一主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重;
针对N个目标词组中的任一目标词组,根据所述主题词组权重特征集合和所述任一目标词组的局部上下文特征确定所述任一目标词组与K个文本主题的全局主题上下文特征的流程包括:
确定所述任一目标词组的局部上下文特征和每个主题词组权重特征之间的第二特征相似度;
将K个第二特征相似度进行归一化处理,得到K个标准第二特征相似度;
将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到所述任一目标词组与K个文本主题的全局主题上下文特征。
6.根据权利要求1所述的方法,其特征在于,所述识别所述目标文本与所述K个文本主题之间的匹配权重特征,包括:
根据所述V个词汇表词组的排布顺序,将所述目标文本转换为词袋特征;
调用神经主题模型中的编码器对所述词袋特征进行编码处理,得到文本编码特征;
调用所述神经主题模型中的解码器对所述文本编码特征进行重构处理,得到所述目标文本与所述K个文本主题之间的匹配权重特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征,包括:
调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵;
调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;
将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;
将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;
将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征。
技术研发人员:叶志豪,文瑞,陈曦,张子恒,李智勇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。