文本表示模型的预训练方法、装置及电子设备制造方法及图纸

技术编号:37718079 阅读:11 留言:0更新日期:2023-06-02 00:15
本公开提供了文本表示模型的预训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、智能搜索技术领域。具体实现方案为:获取初始文本表示模型以及文本样本集合;针对文本样本集合中的每个文本样本,对文本样本进行字符调整处理和/或翻译回译处理,得到文本样本对应的正例文本样本;将文本样本集合中除文本样本之外的其他文本样本,作为文本样本对应的负例文本样本;根据文本样本集合中的文本样本、文本样本对应的正例文本样本和负例文本样本,对初始文本表示模型进行预训练处理,使得文本表示模型能够提取到文本中的全面特征;进而将文本表示模型用于恶意文本识别时,提高恶意文本识别的准确度,提高识别效率。提高识别效率。提高识别效率。

【技术实现步骤摘要】
文本表示模型的预训练方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及深度学习、自然语言处理、智能搜索
,尤其涉及一种文本表示模型的预训练方法、装置及电子设备。

技术介绍

[0002]目前的文本表示模型,采用大量的文本样本以及对应的标注数据进行训练得到。其中,标注数据例如,领域、关键词、应答文本等,其中,标注数据所含的信息较少,导致训练得到的文本表示模型,难以提取到文本中的全面特征。从而在将训练好的文本表示模型用于具体场景,例如恶意文本识别时,恶意文本识别准确度低,识别效率差。

技术实现思路

[0003]本公开提供了一种文本表示模型的预训练方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种文本表示模型的预训练方法,所述方法包括:获取初始文本表示模型以及文本样本集合;针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;将所述文本样本集合中除所述文本样本之外的其他文本样本,作为所述文本样本对应的负例文本样本;根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型。
[0005]根据本公开的另一方面,提供了一种恶意文本识别方法,所述方法包括:获取待识别文本以及文本表示模型,所述文本表示模型根据文本样本以及所述文本样本对应的正例文本样本预训练得到;所述正例文本样本为对所述文本样本进行字符调整处理和/或翻译回译处理得到的文本;将所述待识别文本输入所述文本表示模型,获取所述待识别文本对应的文本表示向量;根据所述文本表示向量,以及恶意文本向量库中的恶意文本向量,确定所述待识别文本是否为恶意文本。
[0006]根据本公开的另一方面,提供了一种文本表示模型的预训练装置,所述装置包括:获取模块,用于获取初始文本表示模型以及文本样本集合;处理模块,用于针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;所述处理模块,还用于将所述文本样本集合中除所述文本样本之外的其他文本样本,作为所述文本样本对应的负例文本样本;预训练模块,用于根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型。
[0007]根据本公开的另一方面,提供了一种恶意文本识别装置,所述装置包括:获取模块,用于获取待识别文本以及文本表示模型,所述文本表示模型根据文本样本以及所述文本样本对应的正例文本样本预训练得到;所述正例文本样本为对所述文本样本进行字符调整处理和/或翻译回译处理得到的文本;输入模块,用于将所述待识别文本输入所述文本表
示模型,获取所述待识别文本对应的文本表示向量;确定模块,用于根据所述文本表示向量,以及恶意文本向量库中的恶意文本向量,确定所述待识别文本是否为恶意文本。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述提出的文本表示模型的预训练方法;或者,执行本公开上述提出的恶意文本识别方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开上述提出的文本表示模型的预训练方法;或者,执行本公开上述提出的恶意文本识别方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述提出的文本表示模型的预训练方法的步骤;或者,实现本公开上述提出的恶意文本识别方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开第一实施例的示意图;
[0014]图2是初始文本表示模型的结构示意图;
[0015]图3是根据本公开第二实施例的示意图;
[0016]图4是根据本公开第三实施例的示意图;
[0017]图5是恶意文本识别的流程示意图;
[0018]图6是根据本公开第四实施例的示意图;
[0019]图7是根据本公开第五实施例的示意图;
[0020]图8是用来实现本公开实施例的文本表示模型的预训练方法或者恶意文本识别方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]目前的文本表示模型,采用大量的文本样本以及对应的标注数据进行训练得到。其中,标注数据例如,领域、关键词、应答文本等,其中,标注数据所含的信息较少,导致训练得到的文本表示模型,难以提取到文本中的全面特征。从而在将训练好的文本表示模型用于具体场景,例如恶意文本识别时,恶意文本识别准确度低,识别效率差。
[0023]针对上述问题,本公开提出一种文本表示模型的预训练方法、装置及电子设备。
[0024]图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的文本表示
模型的预训练方法可应用于文本表示模型的预训练装置,该装置可被配置于电子设备中,以使该电子设备可以执行文本表示模型的预训练功能。以下实施例中以执行主体为电子设备为例进行说明。
[0025]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(Personal Computer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备、智能音箱等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0026]如图1所示,该文本表示模型的预训练方法可以包括如下步骤:
[0027]步骤101,获取初始文本表示模型以及文本样本集合。
[0028]在本公开实施例中,初始文本表示模型可以包括:第一特征提取网络,第二特征提取网络,以及依次连接的拼接网络、随机失活网络以及线性层;第一特征提取网络以及第二特征提取网络,分别与拼接网络连接;第一特征提取网络与第二特征提取网络连接。
[0029]在本公开实施例中,第一特征提取网络包括:依次连接的第一LSTM网络以及第一注意力机制层;第二特征提取网络包括:依本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本表示模型的预训练方法,包括:获取初始文本表示模型以及文本样本集合;针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;将所述文本样本集合中除所述文本样本之外的其他文本样本,作为所述文本样本对应的负例文本样本;根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型。2.根据权利要求1所述的方法,其中,对所述文本样本进行字符调整处理,得到所述文本样本对应的正例文本样本,包括:对所述文本样本进行部分字符重复处理和/或部分字符乱序处理,得到处理后文本样本;将所述处理后文本样本,作为所述文本样本对应的正例文本样本。3.根据权利要求1所述的方法,其中,对所述文本样本进行翻译回译处理,得到所述文本样本对应的正例文本样本,包括:确定所述文本样本的当前语言以及目标语言;按照所述目标语言对所述文本样本进行翻译处理,得到第一翻译文本样本;按照所述当前语言对所述目标文本样本进行翻译处理,得到第二翻译文本样本;将所述第二翻译文本样本,作为所述文本样本对应的正例文本样本。4.根据权利要求1所述的方法,其中,所述方法还包括:针对所述文本样本集合中的每个文本样本,对所述文本样本进行复制处理,得到所述文本样本对应的复制文本样本;将所述复制文本样本,作为所述文本样本对应的正例文本样本。5.根据权利要求1所述的方法,其中,所述根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型,包括:针对所述文本样本集合中的每个文本样本,根据所述文本样本以及所述文本样本对应的正例文本样本,生成正例样本对;根据所述文本样本以及所述文本样本对应的负例文本样本,生成负例样本对;在所述初始文本模型之后连接初始文本分类网络,得到初始文本分类模型;采用所述正例样本对以及所述负例样本对,对所述初始文本分类模型进行预训练处理,得到处理后的文本分类模型;将所述处理后的文本分类模型中的文本表示模型,确定为经过预训练的文本表示模型。6.根据权利要求1所述的方法,其中,所述初始文本表示模型包括:第一特征提取网络,第二特征提取网络,以及依次连接的拼接网络、随机失活网络以及线性层;所述第一特征提取网络以及所述第二特征提取网络,分别与所述拼接网络连接;所述第一特征提取网络与所述第二特征提取网络连接。7.根据权利要求6所述的方法,其中,所述第一特征提取网络包括:依次连接的第一
LSTM网络以及第一注意力机制层;所述第二特征提取网络包括:依次连接的第二LSTM网络以及第二注意力机制层;所述第二LSTM网络的输入,为所述第一LSTM网络输出的文本中最后一个字符的特征向量。8.一种恶意文本识别方法,包括:获取待识别文本以及文本表示模型,所述文本表示模型根据文本样本以及所述文本样本对应的正例文本样本预训练得到;所述正例文本样本为对所述文本样本进行字符调整处理和/或翻译回译处理得到的文本;将所述待识别文本输入所述文本表示模型,获取所述待识别文本对应的文本表示向量;根据所述文本表示向量,以及恶意文本向量库中的恶意文本向量,确定所述待识别文本是否为恶意文本。9.根据权利要求8所述的方法,其中,所述根据所述文本表示向量,以及恶意文本向量库中的恶意文本向量,确定所述待识别文本是否为恶意文本,包括:确定所述文本表示向量与所述恶意文本向量之间的向量相似度;在多个所述向量相似度中存在大于或者等于预设相似度阈值的第一向量相似度时,确定所述待识别文本为恶意文本;在多个所述向量相似度中未存在所述第一向量相似度时,确定所述待识别文本不为恶意文本。10.根据权利要求8所述的方法,其中,所述方法还包括:在所述待识别文本为恶意文本时,根据所述待识别文本对应的文本表示向量,对所述恶意文本向量库进行更新处理。11.一种文本表示模型的预训练装置,包括:获取模块,用于获取初始文本表示模型以及文本样本集合;处理模块,用于针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;所述处理模块,还...

【专利技术属性】
技术研发人员:刘伟乐
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1