文本处理方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:26597826 阅读:19 留言:0更新日期:2020-12-04 21:20
本申请实施例公开了一种文本处理方法、装置、计算机设备以及存储介质,文本处理方法可以应用于人工智能领域,文本处理方法包括:获取目标文本,目标文本包括N个目标词组;根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征;识别目标文本与K个文本主题之间的匹配权重特征,根据主题词组权重特征集合、匹配权重特征和每个目标词组的主题上下文特征确定目标文本的扩展主题特征;将扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别目标文本特征,得到目标文本所属的业务文本类型。采用本申请,可以提高文本分类效率。

【技术实现步骤摘要】
文本处理方法、装置、计算机设备以及存储介质
本申请涉及计算机
,尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。
技术介绍
文本分类是指按照一定的分类体系或者分类标准对文本进行分类标记。文本分类结果可以为文本下游任务提供数据基础,例如,根据文本分类结果进行文本语义理解,根据文本分类结果进行精准推荐等。目前,文本分类主要由人工完成,即人工理解整个文本后,按照预设的分类标准为文本设置对应的类型标签。由于人工分类文本需要经历人工文本理解,人工设置标签等过程,会耗费大量的时间,造成文本分类的效率低下。
技术实现思路
本申请实施例提供一种文本处理方法、装置、计算设备以及存储介质,可以提高文本分类效率。本申请实施例一方面提供了一种文本处理方法,包括:获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。本申请实施例一方面提供了一种文本处理装置,包括:获取模块,用于获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;第一确定模块,用于根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;第一识别模块,用于识别所述目标文本与所述K个文本主题之间的匹配权重特征;第二确定模块,用于根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;组合模块,用于将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征;第二识别模块,用于识别所述目标文本特征,得到所述目标文本所属的业务文本类型。本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。本申请不需要人工参与,由终端设备自动提取文本中每个词组的主题上下文特征以及提取文本的扩展主题特征,进而确定文本的文本类型,避免由人工分类所带来的效率低下的情况,可以提高文本分类的效率,丰富文本分类的方式;再有,基于每个词组的主题上下文特征,所确定的扩展主题特征,相比基于上下文无关的词向量所确定的扩展主题特征,可以有效的避免多义词匹配扩展主题特征时产生的错误和噪音,进而提升文本分类的准确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种文本处理的系统架构图;图2是本申请实施例提供的一种文本处理的场景示意图;图3是本申请实施例提供的一种文本处理的流程示意图;图4是本申请实施例提供的一种分类模型的示意图;图5是本申请实施例提供的一种确定主题上下文特征的流程示意图;图6是本申请实施例提供的一种BERT模型结构示意图;图7是本申请实施例提供的一种文本处理方法的整体架构图;图8是本申请实施例提供的一种文本处理装置的结构示意图;图9是本申请实施例提供的一种计算机设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案属于人工智能领域下属的自然语言处理技术。自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。在本申请中,主要涉及基于自然语言处理技术识别出文本的文本类型,确定了文本类型的文本可以用于后续的精准推荐,文本摘要生成任务等。本申请可以应用于如下场景:在医疗口语意图查询场景下(如智能导诊),欲识别出用户意图(例如,疾病判断意图、找医生意图、找科室意图、非本人看病意图等),可以获取用户输入的目标文本,采用本申请的方案确定目标文本中每个词组的主题上下文特征,以及基于每个词组的主题上下文特征确定目标文本的扩展主题特征,以及根据扩展主题特征确定目标文本的意图类型。后续,可以基于确定的意图类型进行医疗业务数据的精准推荐。再例如,在疾病预测场景下,欲识别医生主诉类型(例如,症状描述、体格检查、既往病史),可以获取医疗诊断文本(称为目标文本),采用本申请的方案确定目标文本中每个词组的主题上下文特征,以及基于每个词组的主题上下文特征确定目标文本的扩展主题特征,以及根据扩展主题特征确定目标文本的主诉类型。后续,可以基于确定的主诉类型进行疾病预测,提升疾病预测的性能。本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;/n根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;/n识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;/n将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。


2.根据权利要求1所述的方法,其特征在于,所述根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,包括:
获取每个目标词组的词向量特征;
根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征;
根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征;
将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。


3.根据权利要求2所述的方法,其特征在于,针对N个目标词组中的任一目标词组,根据N个目标词组的词向量特征确定所述任一目标词组的局部上下文特征的流程包括:
分别确定所述任一目标词组的词向量特征和N个目标词组的词向量特征之间的第一特征相似度;
将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似度;
将N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到所述任一目标词组的局部上下文特征。


4.根据权利要求2所述的方法,其特征在于,所述根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征,包括:
获取每个目标词组在所述目标文本中的词组位置特征,获取每个目标词组在所述目标文本中的语句位置特征;
将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征;
对N个输入特征进行多注意力编码,得到每个目标词组的局部上下文特征。


5.根据权利要求2所述的方法,其特征在于,所述主题词组权重特征集合包括K个主题词组权重特征,任一主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重;
针对N个目标词组中的任一目标词组,根据所述主题词组权重特征集合和所述任一目标词组的局部上下文特征确定所述任一目标词组与K个文本主题的全局主题上下文特征的流程包括:
确定所述任一目标词组的局部上下文特征和每个主题词组权重特征之间的第二特征相似度;
将K个第二特征相似度进行归一化处理,得到K个标准第二特征相似度;
将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到所述任一目标词组与K个文本主题的全局主题上下文特征。


6.根据权利要求1所述的方法,其特征在于,所述识别所述目标文本与所述K个文本主题之间的匹配权重特征,包括:
根据所述V个词汇表词组的排布顺序,将所述目标文本转换为词袋特征;
调用神经主题模型中的编码器对所述词袋特征进行编码处理,得到文本编码特征;
调用所述神经主题模型中的解码器对所述文本编码特征进行重构处理,得到所述目标文本与所述K个文本主题之间的匹配权重特征。


7.根据权利要求1所述的方法,其特征在于,所述根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征,包括:
调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵;
调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;
将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;
将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;
将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征。

【专利技术属性】
技术研发人员:叶志豪文瑞陈曦张子恒李智勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1