【技术实现步骤摘要】
一种文本分类方法、系统和存储介质
[0001]本申请涉及文本处理领域,特别涉及一种文本分类方法、系统和存储介质。
技术介绍
[0002]根据应用场景的不同,作为NLP (Natural Language Processing,自然语言处理)中的一种基础任务,文本分类分为情感分析、主题判断、自然语言推理等。文本分类在金融领域中应用十分广泛,例如:金融参与者希望通过文本分类算法判断货币政策的情感倾向,进而来推测债券利率走向;或是利用文本分类算法分析金融资讯,判断市场情绪,从而达到预知股市波动的目的。
[0003]普通的文本分类方法直接将原始文本作为输入,文本的所属领域对文本分类模型并不可见,由此带来了语义相异问题。例如,“生产力增强”在通用领域中的情感倾向是积极的,但是对金融领域的情感倾向却是负向的。这是因为生产力的增强会引发银行利率上升,导致货币流动性降低,对股市而言是利空的。
[0004]由于金融领域标注数据十分有限,因此数据增强方法被常用来扩充训练数据。若标注数据本身的真实正确率就存在一定问题,那么使用标注数据制作的增强数据集则会传递原有的误差,甚至放大误差。
[0005]基于此,亟需一种应用范围更广的、更准确的文本分类方法。
技术实现思路
[0006]本说明书一个方面提供一种文本分类方法,所述方法包括:获取待处理文本的领域类型;获取包含所述领域类型的提示文本;处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。
[0007]本说明书另一个方面提供一种文 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,所述方法包括:获取待处理文本的领域类型;获取包含所述领域类型的提示文本;通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。2.如权利要求1所述的方法,所述获取待处理文本的领域类型包括:通过领域分类模型处理所述待处理文本,得到所述待处理文本的领域类型。3.如权利要求1所述的方法,所述获取包含所述领域类型的提示文本包括:获取提示文本模板,所述提示文本模板包括领域槽位;在所述领域槽位中添加所述领域类型,得到所述提示文本。4.如权利要求1所述的方法,所述文本分类模型的训练过程包括:训练所述文本分类模型预测出样本文本中被部分遮罩的内容,所述样本文本包括样本提示文本。5.如权利要求4所述的方法,所述获取包含所述领域类型的提示文本,包括:获取提示文本模板,所述提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型;在所述领域槽位中添加所述领域类型,得到所述提示文本。6.如权利要求5所述的方法,所述通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型,包括:通过文本分类模型处理所述待处理文本和所述提示文本,得到所述遮罩槽位对应的预测向量;基于所述预测向量确定所述待处理文本的结论类型。7.一种文本分类模型训练方法,所述方法包括:获取第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本、领域类型标签以及结论类型标签,所述样本提示文本包括所述样本待处理文本的领域类型;通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值;调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异。8.如权利要求7所述的方法,所述文本分类模型的训练过程包括:训练所述文本分类模型预测出样本文本中被部分遮罩的内容,所述样本文本包括样本提示文本。9.如权利要求7所述的方法,获取第一类样本文本,包括:获取文本分类模型对应的提示文本模板,所述提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型;在所述领域槽位中添加相应样本待处理文本的领域类型,得到所述第一类样本文本的样本提示文本。10.如权利要求9所述的方法,所述通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值,
包括:通过文本分类模型处理所述第一类样本文本中的样本待处理文本和样本提示文本,得到所述遮罩槽位对应的预测向量;基于所述预测向量确定对应于第一类样本文本的结论类型预测值。11.如权利要求9所述的方法,所述调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异,包括:通过文本分类模型处理所述第一类样本文本中的样本待处理文本和样...
【专利技术属性】
技术研发人员:吴东明,温露露,陈超,吴志强,郭昕,
申请(专利权)人:杭州同花顺数据开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。