【技术实现步骤摘要】
一种Bert模型预训练方法、装置、系统和存储介质
[0001]本专利技术涉及自然语言处理
,特别是涉及一种基于领域敏感文本数据的Bert模型预训练方法、装置、系统和存储介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,旨在从文本数据中提取信息,目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
[0003]Bert模型(Bidirectional Encoder Representations from Transformers)是一个语言表示模型(language representation model),主要模型结构是transformer模型的encoder堆叠而成,是一个两阶段的框架,分别是pre
‑
training(预训练),以及在各个具体任务上进行fine
‑
tuni ...
【技术保护点】
【技术特征摘要】
1.一种Bert模型预训练方法,其特征在于,包括:对初始Bert模型的词/字库中的词/字进行随机组合,生成词/字对照表;依照所述词/字对照表将通用文本原始数据集、领域文本原始数据集和领域敏感文本原始数据集分别映射生成通用文本数据集、领域文本数据集和领域敏感文本数据集;采用所述通用文本数据集中的通用文本数据对所述初始Bert模型进行训练,得到通用数据Bert模型;采用所述领域文本数据集中的领域文本数据对所述通用数据Bert模型进行训练,得到领域数据Bert模型;采用所述领域敏感文本数据集中的敏感文本数据对所述领域数据Bert模型进行训练,得到敏感数据Bert模型。2.根据权利要求1所述的Bert模型预训练方法,其特征在于:所述生成词/字对照表是将所述词/字库中的任意元素映射为非所述元素本身的所述词/字库中的另外一个元素。3.根据权利要求1所述的Bert模型预训练方法,其特征在于:所述对领域数据Bert模型进行训练是对所述领域数据Bert模型进行无监督训练。4.根据权利要求1所述的Bert模型预训练方法,其特征在于:所述方法的下游任务包括文本分类、命名实体识别或下一句预测。5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行根据权利要求1
‑
4任意一项所述的方法。6.一种Bert模型预训练装置,其特征...
【专利技术属性】
技术研发人员:张永兴,周健,
申请(专利权)人:北京中关村科金技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。