一种文本分类方法、系统和存储介质技术方案

技术编号:38829654 阅读:20 留言:0更新日期:2023-09-15 20:09
本申请公开了一种文本分类方法、系统和存储介质,所述方法包括:获取待处理文本的领域类型;获取包含领域类型的提示文本;处理待处理文本以及提示文本,得到待处理文本的结论类型。型。型。

【技术实现步骤摘要】
一种文本分类方法、系统和存储介质


[0001]本申请涉及文本处理领域,特别涉及一种文本分类方法、系统和存储介质。

技术介绍

[0002]根据应用场景的不同,作为NLP (Natural Language Processing,自然语言处理)中的一种基础任务,文本分类分为情感分析、主题判断、自然语言推理等。文本分类在金融领域中应用十分广泛,例如:金融参与者希望通过文本分类算法判断货币政策的情感倾向,进而来推测债券利率走向;或是利用文本分类算法分析金融资讯,判断市场情绪,从而达到预知股市波动的目的。
[0003]普通的文本分类方法直接将原始文本作为输入,文本的所属领域对文本分类模型并不可见,由此带来了语义相异问题。例如,“生产力增强”在通用领域中的情感倾向是积极的,但是对金融领域的情感倾向却是负向的。这是因为生产力的增强会引发银行利率上升,导致货币流动性降低,对股市而言是利空的。
[0004]由于金融领域标注数据十分有限,因此数据增强方法被常用来扩充训练数据。若标注数据本身的真实正确率就存在一定问题,那么使用标注数据制作的增强数据集则会传递原有的误差,甚至放大误差。
[0005]基于此,亟需一种应用范围更广的、更准确的文本分类方法。

技术实现思路

[0006]本说明书一个方面提供一种文本分类方法,所述方法包括:获取待处理文本的领域类型;获取包含所述领域类型的提示文本;处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。
[0007]本说明书另一个方面提供一种文本分类系统,所述系统包括:第一获取模块,用于获取待处理文本的领域类型;第二获取模块,用于获取包含所述领域类型的提示文本;确定模块,用于处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。
[0008]本说明书另一个方面提供一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现文本分类方法。
[0009]本说明书另一个方面提供一种文本分类模型训练方法,所述方法包括:获取第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本以及结论类型标签,所述样本提示文本包括所述样本文本的领域类型;通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值;调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异。
[0010]本说明书另一个方面提供一种文本分类模型训练系统,所述系统包括:样本获取模块,用于获取第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本以及结论类型标签,所述样本提示文本包括所述样本待处理文本的领域类型;处理模块,用
于通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值;调参模块,用于调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异。
[0011]本说明书另一个方面提供一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现文本分类模型训练方法。
附图说明
[0012]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的文本分类的应用场景图;图2是根据本说明书一些实施例所示的文本分类系统的示例性模块图;图3是根据本说明书一些实施例所示的文本分类模型训练系统的示例性模块图;图4是根据本说明书一些实施例所示的文本分类方法的示例性流程图;图5是根据本说明书一些实施例所示的文本分类模型的示意图;图6是根据本说明书一些实施例所示的文本分类模型的训练的示例性流程图;图7是根据本说明书一些实施例所示的提示分类模型的结构示意图;图8是根据本说明书一些实施例所示的领域分类模型训练的示例性流程图;图9是根据本说明书一些实施例所示的提示分类模型训练的示例性流程图。
具体实施方式
[0013]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0014]应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0015]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0016]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0017]图1是根据本说明书一些实施例所示的文本分类的应用场景图。
[0018]如图1所示,应用场景100可以包括:处理设备110可以处理从其他设备或系统组成
部分中获得的数据和/或信息。处理设备可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本说明书中描述的功能。例如,处理设备110可以从用户终端130获取待处理文本。又例如,处理设备110可以对待处理文本进行处理,以获得待处理文本的领域类型。再例如,处理设备110还可以对待处理文本进行处理,得到待处理文本的提示文本、结论类型等。在一些实施例中,处理设备110可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。
[0019]存储设备120可以用于存储数据和/或指令。例如,存储设备120可以存储待处理文本。又例如,存储设备120可以存储提示文本。存储设备120可以包括一个或多个存储组件,每个存储组件可以是一个独立的设备,也可以是其他设备的一部分。在一些实施例中,存储设备120可包括随机存取存储器(RAM)、只读存储器(ROM)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。在一些实施例中,所述存储设备120可在云平台上实现。
[0020]用户终端130指用户所使用的一个或多个终端设备或软件。在一些实施例中,用户终端130可以用于与用户进行交互和显示。例如,用户终端130可以向用户显示待处理文本、提示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,所述方法包括:获取待处理文本的领域类型;获取包含所述领域类型的提示文本;通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。2.如权利要求1所述的方法,所述获取待处理文本的领域类型包括:通过领域分类模型处理所述待处理文本,得到所述待处理文本的领域类型。3.如权利要求1所述的方法,所述获取包含所述领域类型的提示文本包括:获取提示文本模板,所述提示文本模板包括领域槽位;在所述领域槽位中添加所述领域类型,得到所述提示文本。4.如权利要求1所述的方法,所述文本分类模型的训练过程包括:训练所述文本分类模型预测出样本文本中被部分遮罩的内容,所述样本文本包括样本提示文本。5.如权利要求4所述的方法,所述获取包含所述领域类型的提示文本,包括:获取提示文本模板,所述提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型;在所述领域槽位中添加所述领域类型,得到所述提示文本。6.如权利要求5所述的方法,所述通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型,包括:通过文本分类模型处理所述待处理文本和所述提示文本,得到所述遮罩槽位对应的预测向量;基于所述预测向量确定所述待处理文本的结论类型。7.一种文本分类模型训练方法,所述方法包括:获取第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本、领域类型标签以及结论类型标签,所述样本提示文本包括所述样本待处理文本的领域类型;通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值;调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异。8.如权利要求7所述的方法,所述文本分类模型的训练过程包括:训练所述文本分类模型预测出样本文本中被部分遮罩的内容,所述样本文本包括样本提示文本。9.如权利要求7所述的方法,获取第一类样本文本,包括:获取文本分类模型对应的提示文本模板,所述提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型;在所述领域槽位中添加相应样本待处理文本的领域类型,得到所述第一类样本文本的样本提示文本。10.如权利要求9所述的方法,所述通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值,
包括:通过文本分类模型处理所述第一类样本文本中的样本待处理文本和样本提示文本,得到所述遮罩槽位对应的预测向量;基于所述预测向量确定对应于第一类样本文本的结论类型预测值。11.如权利要求9所述的方法,所述调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异,包括:通过文本分类模型处理所述第一类样本文本中的样本待处理文本和样...

【专利技术属性】
技术研发人员:吴东明温露露陈超吴志强郭昕
申请(专利权)人:杭州同花顺数据开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1