一种文本分类方法、装置、系统及介质制造方法及图纸

技术编号:38683129 阅读:11 留言:0更新日期:2023-09-02 22:55
本发明专利技术公开了一种文本分类方法、装置、系统及介质,方法包括:采集原始文本数据,根据所述原始文本数据构建融合了知识数据和提示模板的训练样本,所述训练样本中包含掩码文本;将所述训练样本输入到预先构建的提示学习模型中进行训练,直到模型收敛,所述提示学习模型对所述掩码文本进行预测;将基于待识别文本构建的待识别提示模板输入到所述提示学习模型中,预测得到所述待识别提示模板中的目标掩码文本;根据所述目标掩码文本进行文本类型映射,确定所述待识别文本的目标文本类型。通过融合了知识数据和提示模板的训练样本进行提示学习训练,以完成文本分类任务,可以丰富文本的上下文信息、增强文本分类效果,有效提高文本分类的精准性。文本分类的精准性。文本分类的精准性。

【技术实现步骤摘要】
一种文本分类方法、装置、系统及介质


[0001]本专利技术涉及金融科技
,尤其涉及一种文本分类方法、装置、系统及介质。

技术介绍

[0002]当前金融行业,因为其天然的场景适配以及数据的丰富性,已经大量拥抱人工智能技术,其中文本分类是人工智能中重要的分支领域,被广泛地使用在各类金融场景中。例如在银行的智能客服场景下,可以通过文本分类技术识别用户意图,为用户推送相应问题或回答;在银行软件的内容推送场景下,可以对新闻内容进行识别分类以实现个性化内容推送等等。
[0003]传统的分类方法主要是使用机器学习来提取文本的主题、意图、关键词等信息,然后对这些信息进行分类。这样的方式速度快但是不够精准,意图比较复杂的长文本将很难区分,降低了文本分类结果的准确性,进而影响文本分类在智能客服或内容推送等场景下的应用效果。

技术实现思路

[0004]鉴于上述现有技术的不足,本专利技术的目的在于提供可应用于金融科技或其它相关领域的一种文本分类方法、装置、系统及介质,旨在提高文本分类的精准性。
[0005]本专利技术的技术方案如下:
[0006]一种文本分类方法,包括:
[0007]采集原始文本数据,根据所述原始文本数据构建融合了知识数据和提示模板的训练样本,所述训练样本中包含掩码文本;
[0008]将所述训练样本输入到预先构建的提示学习模型中进行训练,直到模型收敛,所述提示学习模型对所述掩码文本进行预测;
[0009]将基于待识别文本构建的待识别提示模板输入到所述提示学习模型中,预测得到所述待识别提示模板中的目标掩码文本;
[0010]根据所述目标掩码文本进行文本类型映射,确定所述待识别文本的目标文本类型。
[0011]在一个实施例中,所述采集原始文本数据,根据所述原始文本数据构建融合了知识数据和提示模板的训练样本,所述训练样本中包含掩码文本,包括:
[0012]采集原始文本数据,对所述原始文本数据进行知识抽取,并根据知识抽取结果进行分类标注后得到训练文本;
[0013]获取预设的提示模板,根据所述原始文本数据和提示模板生成包含掩码文本的提示训练模板;
[0014]将所述训练文本和提示训练模板一一对应相加后构建得到所述训练样本。
[0015]在一个实施例中,所述采集原始文本数据,对所述原始文本数据进行知识抽取,并根据知识抽取结果进行分类标注后得到训练文本,包括:
[0016]采集原始文本数据,抽取所述原本文本数据中的知识实体和/或实体关系;
[0017]将所述知识实体和/或实体关系与预设文本类型的知识词典进行匹配;
[0018]根据匹配结果对所述原始文本数据进行分类标注后得到训练文本。
[0019]在一个实施例中,所述根据匹配结果对所述原始文本数据进行分类标注后得到训练文本,具体包括:
[0020]将匹配成功的知识词典对应的预设文本类型标注为1,匹配不成功的知识词典对应的预设文本类型标注为0。
[0021]在一个实施例中,所述将所述获取预设的提示模板,根据所述原始文本数据和提示模板生成包含掩码文本的提示训练模板,包括:
[0022]获取预设的提示模板,所述提示模板中包含掩码位置;
[0023]将所述原始文本数据与所述提示模板进行拼接,并根据所述原始文本数据的文本类型标注在所述掩码位置填入掩码文本后生成所述提示训练模板。
[0024]在一个实施例中,所述将基于待识别文本构建的待识别提示模板输入到所述提示学习模型中,预测得到所述待识别提示模板中的目标掩码文本,包括:
[0025]获取待识别文本,根据所述待识别文本和所述提示模板生成待识别提示模板,所述待识别提示模板中包含目标掩码位置;
[0026]将所述待识别提示模板输入到所述提示学习模型中,预测得到所述目标掩码位置处的目标掩码文本。
[0027]在一个实施例中,所述根据所述目标掩码文本进行文本类型映射,确定所述待识别文本的目标文本类型,包括:
[0028]将所述目标掩码文本与预设的掩码提示词典进行匹配,确定与所述目标掩码文本相匹配的目标掩码提示词典;
[0029]根据所述掩码提示词典与预设文本类型之间的映射关系,确定所述目标掩码提示词典对应的目标文本类型。
[0030]一种文本分类装置,包括:
[0031]样本构建模块,用于采集原始文本数据,根据所述原始文本数据构建融合了知识数据和提示模板的训练样本,所述训练样本中包含掩码文本;
[0032]模型训练模块,用于将所述训练样本输入到预先构建的提示学习模型中进行训练,直到模型收敛,所述提示学习模型对所述掩码文本进行预测;
[0033]掩码预测模块,用于将基于待识别文本构建的待识别提示模板输入到所述提示学习模型中,预测得到所述待识别提示模板中的目标掩码文本;
[0034]映射分类模块,用于根据所述目标掩码文本进行文本类型映射,确定所述待识别文本的目标文本类型。
[0035]一种文本分类系统,所述系统包括至少一个处理器;以及,
[0036]与所述至少一个处理器通信连接的存储器;其中,
[0037]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本分类方法。
[0038]一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多
个处理器执行上述的文本分类方法。
[0039]有益效果:本专利技术公开了一种文本分类方法、装置、系统及介质,相比于现有技术,本专利技术实施例通过融合了知识数据和提示模板的训练样本进行提示学习训练,以完成文本分类任务,可以丰富文本的上下文信息、增强文本分类效果,有效提高文本分类的精准性。
附图说明
[0040]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0041]图1为本专利技术实施例提供的文本分类方法的一个流程图;
[0042]图2为本专利技术实施例提供的文本分类方法中步骤S100的流程图;
[0043]图3为本专利技术实施例提供的文本分类方法中步骤S101的流程图;
[0044]图4为本专利技术实施例提供的文本分类方法中步骤S102的流程图;
[0045]图5为本专利技术实施例提供的文本分类方法中步骤S300的流程图;
[0046]图6为本专利技术实施例提供的文本分类方法中步骤S400的流程图;
[0047]图7为本专利技术实施例提供的文本分类装置的功能模块示意图;
[0048]图8为本专利技术实施例提供的文本分类系统的硬件结构示意图。
具体实施方式
[0049]为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合附图对本专利技术实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:采集原始文本数据,根据所述原始文本数据构建融合了知识数据和提示模板的训练样本,所述训练样本中包含掩码文本;将所述训练样本输入到预先构建的提示学习模型中进行训练,直到模型收敛,所述提示学习模型对所述掩码文本进行预测;将基于待识别文本构建的待识别提示模板输入到所述提示学习模型中,预测得到所述待识别提示模板中的目标掩码文本;根据所述目标掩码文本进行文本类型映射,确定所述待识别文本的目标文本类型。2.根据权利要求1所述的文本分类方法,其特征在于,所述采集原始文本数据,根据所述原始文本数据构建融合了知识数据和提示模板的训练样本,所述训练样本中包含掩码文本,包括:采集原始文本数据,对所述原始文本数据进行知识抽取,并根据知识抽取结果进行分类标注后得到训练文本;获取预设的提示模板,根据所述原始文本数据和提示模板生成包含掩码文本的提示训练模板;将所述训练文本和提示训练模板一一对应相加后构建得到所述训练样本。3.根据权利要求2所述的文本分类方法,其特征在于,所述采集原始文本数据,对所述原始文本数据进行知识抽取,并根据知识抽取结果进行分类标注后得到训练文本,包括:采集原始文本数据,抽取所述原本文本数据中的知识实体和/或实体关系;将所述知识实体和/或实体关系与预设文本类型的知识词典进行匹配;根据匹配结果对所述原始文本数据进行分类标注后得到训练文本。4.根据权利要求3所述的文本分类方法,其特征在于,所述根据匹配结果对所述原始文本数据进行分类标注后得到训练文本,具体包括:将匹配成功的知识词典对应的预设文本类型标注为1,匹配不成功的知识词典对应的预设文本类型标注为0。5.根据权利要求2所述的文本分类方法,其特征在于,所述将所述获取预设的提示模板,根据所述原始文本数据和提示模板生成包含掩码文本的提示训练模板,包括:获取预设的提示模板,所述提示模板中包含掩码位置;将所述原始文本数据与所述提示模板进行拼接,并根据所述原始文本数据的文本类型标注在所述掩码位置填入掩码文本后生成所述提示训练模板。6.根据权利要...

【专利技术属性】
技术研发人员:詹乐陈鑫陈明忠
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1