【技术实现步骤摘要】
文本表示模型的预训练方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及深度学习、自然语言处理、智能搜索
,尤其涉及一种文本表示模型的预训练方法、装置及电子设备。
技术介绍
[0002]目前的文本表示模型,采用大量的文本样本以及对应的标注数据进行训练得到。其中,标注数据例如,领域、关键词、应答文本等,其中,标注数据所含的信息较少,导致训练得到的文本表示模型,难以提取到文本中的全面特征。从而在将训练好的文本表示模型用于具体场景,例如恶意文本识别时,恶意文本识别准确度低,识别效率差。
技术实现思路
[0003]本公开提供了一种文本表示模型的预训练方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种文本表示模型的预训练方法,所述方法包括:获取初始文本表示模型以及文本样本集合;针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;将所述文本样本集合中除所述文本样本之外的其他文本样本,作为所述文本样本对应的负例文本样本;根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型。
[0005]根据本公开的另一方面,提供了一种恶意文本识别方法,所述方法包括:获取待识别文本以及文本表示模型,所述文本表示模型根据文本样本以及所述文本样本对应的正例文本样本预训练得到;所述正例文本样本为对所述文本样本进行字符调整 ...
【技术保护点】
【技术特征摘要】
1.一种文本表示模型的预训练方法,包括:获取初始文本表示模型以及文本样本集合;针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;将所述文本样本集合中除所述文本样本之外的其他文本样本,作为所述文本样本对应的负例文本样本;根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型。2.根据权利要求1所述的方法,其中,对所述文本样本进行字符调整处理,得到所述文本样本对应的正例文本样本,包括:对所述文本样本进行部分字符重复处理和/或部分字符乱序处理,得到处理后文本样本;将所述处理后文本样本,作为所述文本样本对应的正例文本样本。3.根据权利要求1所述的方法,其中,对所述文本样本进行翻译回译处理,得到所述文本样本对应的正例文本样本,包括:确定所述文本样本的当前语言以及目标语言;按照所述目标语言对所述文本样本进行翻译处理,得到第一翻译文本样本;按照所述当前语言对所述目标文本样本进行翻译处理,得到第二翻译文本样本;将所述第二翻译文本样本,作为所述文本样本对应的正例文本样本。4.根据权利要求1所述的方法,其中,所述方法还包括:针对所述文本样本集合中的每个文本样本,对所述文本样本进行复制处理,得到所述文本样本对应的复制文本样本;将所述复制文本样本,作为所述文本样本对应的正例文本样本。5.根据权利要求1所述的方法,其中,所述根据所述文本样本集合中的文本样本、所述文本样本对应的正例文本样本和负例文本样本,对所述初始文本表示模型进行预训练处理,得到经过预训练的文本表示模型,包括:针对所述文本样本集合中的每个文本样本,根据所述文本样本以及所述文本样本对应的正例文本样本,生成正例样本对;根据所述文本样本以及所述文本样本对应的负例文本样本,生成负例样本对;在所述初始文本模型之后连接初始文本分类网络,得到初始文本分类模型;采用所述正例样本对以及所述负例样本对,对所述初始文本分类模型进行预训练处理,得到处理后的文本分类模型;将所述处理后的文本分类模型中的文本表示模型,确定为经过预训练的文本表示模型。6.根据权利要求1所述的方法,其中,所述初始文本表示模型包括:第一特征提取网络,第二特征提取网络,以及依次连接的拼接网络、随机失活网络以及线性层;所述第一特征提取网络以及所述第二特征提取网络,分别与所述拼接网络连接;所述第一特征提取网络与所述第二特征提取网络连接。7.根据权利要求6所述的方法,其中,所述第一特征提取网络包括:依次连接的第一
LSTM网络以及第一注意力机制层;所述第二特征提取网络包括:依次连接的第二LSTM网络以及第二注意力机制层;所述第二LSTM网络的输入,为所述第一LSTM网络输出的文本中最后一个字符的特征向量。8.一种恶意文本识别方法,包括:获取待识别文本以及文本表示模型,所述文本表示模型根据文本样本以及所述文本样本对应的正例文本样本预训练得到;所述正例文本样本为对所述文本样本进行字符调整处理和/或翻译回译处理得到的文本;将所述待识别文本输入所述文本表示模型,获取所述待识别文本对应的文本表示向量;根据所述文本表示向量,以及恶意文本向量库中的恶意文本向量,确定所述待识别文本是否为恶意文本。9.根据权利要求8所述的方法,其中,所述根据所述文本表示向量,以及恶意文本向量库中的恶意文本向量,确定所述待识别文本是否为恶意文本,包括:确定所述文本表示向量与所述恶意文本向量之间的向量相似度;在多个所述向量相似度中存在大于或者等于预设相似度阈值的第一向量相似度时,确定所述待识别文本为恶意文本;在多个所述向量相似度中未存在所述第一向量相似度时,确定所述待识别文本不为恶意文本。10.根据权利要求8所述的方法,其中,所述方法还包括:在所述待识别文本为恶意文本时,根据所述待识别文本对应的文本表示向量,对所述恶意文本向量库进行更新处理。11.一种文本表示模型的预训练装置,包括:获取模块,用于获取初始文本表示模型以及文本样本集合;处理模块,用于针对所述文本样本集合中的每个文本样本,对所述文本样本进行字符调整处理和/或翻译回译处理,得到所述文本样本对应的正例文本样本;所述处理模块,还...
【专利技术属性】
技术研发人员:刘伟乐,
申请(专利权)人:百度时代网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。