文本识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39178048 阅读:9 留言:0更新日期:2023-10-27 08:25
本公开涉及一种文本识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:从信息发布平台的信息文本中获取待识别文本;将所述待识别文本输入至文本划分模型,经所述文本划分模型输出目标特征文本,所述目标特征文本包括多个特征短语,所述文本划分模型为基于文本样本和对应的特征短语标签之间的关联关系训练得到;将所述目标特征文本输入至文本识别模型,经所述文本识别模型输出所述待识别文本的信息类型,所述文本识别模型为基于特征短语样本和对应的信息类型标签之间的关系训练得到,所述信息类型包括真实信息类型和虚假信息类型。采用本方法能够快速准确地进行文本分类,及时发现虚假信息文本。及时发现虚假信息文本。及时发现虚假信息文本。

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和存储介质


[0001]本公开涉及数据处理
,特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着互联网和自媒体行业的迅速发展,信息以前所未有的速度产生和传播,这些信息时时刻刻地影响着人们的生活。用户可以通过论坛等社交平台随时发布信息。
[0003]然而,用户发布信息无需通过真伪验证,因此,互联网上传递的信息的真实性和可靠性无法保证。基于互联网的特性,被发布的虚假信息传播速度快、范围广,会造成信息相关方的损失,甚至社会恐慌。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够快速准确地进行文本分类的文本识别方法、装置、计算机设备、存储介质和计算机程序产品。
[0005]第一方面,本公开实施例提供了一种文本识别方法。所述方法包括:
[0006]从信息发布平台的信息文本中获取待识别文本,所述待识别文本中包括多个短语;
[0007]将所述待识别文本输入至文本划分模型,经所述文本划分模型输出目标特征文本,所述目标特征文本包括多个特征短语,所述文本划分模型为基于文本样本和对应的特征短语标签之间的关联关系训练得到;
[0008]将所述目标特征文本输入至文本识别模型,经所述文本识别模型输出所述待识别文本的信息类型,所述文本识别模型为基于特征短语样本和对应的信息类型标签之间的关系训练得到,其中,所述信息类型包括真实信息类型和虚假信息类型。
[0009]在其中一个实施例中,所述文本识别模型的获取方式,包括:
[0010]获取特征短语样本集合,其中,所述集合包括标注有信息类型标签的特征短语样本;
[0011]基于长序列文本处理算法构建初始文本识别模型,所述初始文本识别模型中设置有训练参数;
[0012]将所述特征短语样本集合输入至所述初始文本识别模型,得到输出结果;
[0013]基于所述输出结果与标注的信息类型标签之间的差异,对所述初始文本识别模型进行迭代调整,直至所述差异满足预设要求,得到文本识别模型。
[0014]在其中一个实施例中,所述特征短语样本的获取方式,包括:
[0015]获取原始文本,所述原始文本标注有信息类型标签;
[0016]将所述原始文本输入至所述文本划分模型,经所述文本划分模型输出对应的特征短语;
[0017]基于原始文本与信息类型标签之间的对应关系,利用文本类型标签对所述原始文
本对应的特征短语进行标注,得到特征短语样本。
[0018]在其中一个实施例中,所述特征短语为基于预设短语库确定得到,所述预设短语库的获取方式,包括:
[0019]获取目标识别领域的文本集合,所述文本集合中包括多种信息类型的文本;
[0020]对所述文本集合中的文本进行划分,得到多个短语;
[0021]从所述多个短语中,确定与信息类型相关度大于预设相关度的短语为预设短语,得到预设短语库。
[0022]在其中一个实施例中,在所述经所述文本识别模型输出所述待识别文本的信息类型,之后还包括:
[0023]在所述待识别文本的信息类型符合预设信息类型的情况下,发送预警信息。
[0024]第二方面,本公开实施例还提供了一种文本识别装置。所述装置包括:
[0025]获取模块,用于从信息发布平台的信息文本中获取待识别文本,所述待识别文本中包括多个短语;
[0026]输入模块,用于将所述待识别文本输入至文本划分模型,经所述文本划分模型输出目标特征文本,所述目标特征文本包括多个特征短语,所述文本划分模型为基于文本样本和对应的特征短语标签之间的关联关系训练得到;
[0027]输出模块,用于将所述目标特征文本输入至文本识别模型,经所述文本识别模型输出所述待识别文本的信息类型,所述文本识别模型为基于特征短语样本和对应的信息类型标签之间的关系训练得到,其中,所述信息类型包括真实信息类型和虚假信息类型。
[0028]在其中一个实施例中,所述文本识别模型的获取模块,包括:
[0029]第一获取子模块,用于获取特征短语样本集合,其中,所述集合包括标注有信息类型标签的特征短语样本;
[0030]构建模块,用于基于长序列文本处理算法构建初始文本识别模型,所述初始文本识别模型中设置有训练参数;
[0031]第一输入子模块,用于将所述特征短语样本集合输入至所述初始文本识别模型,得到输出结果;
[0032]调整模块,用于基于所述输出结果与标注的信息类型标签之间的差异,对所述初始文本识别模型进行迭代调整,直至所述差异满足预设要求,得到文本识别模型。
[0033]在其中一个实施例中,所述特征短语样本的获取模块,包括:
[0034]第二获取子模块,用于获取原始文本,所述原始文本标注有信息类型标签;
[0035]第二输入子模块,用于将所述原始文本输入至所述文本划分模型,经所述文本划分模型输出对应的特征短语;
[0036]标注模块,用于基于原始文本与信息类型标签之间的对应关系,利用文本类型标签对所述原始文本对应的特征短语进行标注,得到特征短语样本。
[0037]在其中一个实施例中,所述特征短语为基于预设短语库确定得到,所述预设短语库的获取模块,包括:
[0038]第三获取子模块,用于获取目标识别领域的文本集合,所述文本集合中包括多种信息类型的文本;
[0039]划分模块,用于对所述文本集合中的文本进行划分,得到多个短语;
[0040]确定子模块,用于从所述多个短语中,确定与信息类型相关度大于预设相关度的短语为预设短语,得到预设短语库。
[0041]在其中一个实施例中,在所述输出模块,之后还包括:
[0042]发送模块,用于在所述待识别文本的信息类型符合预设信息类型的情况下,发送预警信息。
[0043]第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
[0044]第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
[0045]第五方面,本公开实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
[0046]本公开实施例,在进行文本识别时,从信息发布平台的信息文本中获取待识别文本,将待识别文本输入至文本划分模型,得到目标特征文本,将目标特征文本输入至文本识别模型,得到待识别文本的信息类型,且信息类型包括真实信息类型和虚假信息类型,从而能够实现对信息发布平台上的信息文本的真伪的识别判断,避免了因虚假信息传播造成的信息相关方的损失或恐慌;且基于文本识别模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:从信息发布平台的信息文本中获取待识别文本,所述待识别文本中包括多个短语;将所述待识别文本输入至文本划分模型,经所述文本划分模型输出目标特征文本,所述目标特征文本包括多个特征短语,所述文本划分模型为基于文本样本和对应的特征短语标签之间的关联关系训练得到;将所述目标特征文本输入至文本识别模型,经所述文本识别模型输出所述待识别文本的信息类型,所述文本识别模型为基于特征短语样本和对应的信息类型标签之间的关系训练得到,其中,所述信息类型包括真实信息类型和虚假信息类型。2.根据权利要求1所述的方法,其特征在于,所述文本识别模型的获取方式,包括:获取特征短语样本集合,其中,所述集合包括标注有信息类型标签的特征短语样本;基于长序列文本处理算法构建初始文本识别模型,所述初始文本识别模型中设置有训练参数;将所述特征短语样本集合输入至所述初始文本识别模型,得到输出结果;基于所述输出结果与标注的信息类型标签之间的差异,对所述初始文本识别模型进行迭代调整,直至所述差异满足预设要求,得到文本识别模型。3.根据权利要求1所述的方法,其特征在于,所述特征短语样本的获取方式,包括:获取原始文本,所述原始文本标注有信息类型标签;将所述原始文本输入至所述文本划分模型,经所述文本划分模型输出对应的特征短语;基于原始文本与信息类型标签之间的对应关系,利用文本类型标签对所述原始文本对应的特征短语进行标注,得到特征短语样本。4.根据权利要求1所述的方法,其特征在于,所述特征短语为基于预设短语库确定得到,所述预设短语库的获取方式,包括:获取目标识别领域的文本集合,所述文本集合中包括多种信息类型的文本;对所述文本集合中的文本进行划分,得到多个短语;从所述多个短语中,确定与信息类型相关度大于预设相关度的短语为预设短语,得到预设短语库。5.根据权利要求1所述的方法,其特征在于,在所述经所述文本识别...

【专利技术属性】
技术研发人员:胡伟华
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1