一种基于预训练模型和位置信息的文本结构化方法技术

技术编号:28942890 阅读:29 留言:0更新日期:2021-06-18 21:50
本发明专利技术公开了一种基于预训练语言模型和位置信息的文本结构化方法。本发明专利技术包括以下步骤:步骤1:从新闻网站爬取文本作为原语料交由人工标注,并对其进行预处理;步骤2:使用预处理后的文本训练BERT‑CRF来识别姓名、性别、体貌特征、身高等通用实体;步骤3:将每条文本中的通用实体作为输入,训练多标签分类模型BERT‑Dense,输出每个实体所属的相关人群类型;步骤4:以相关人群姓名作为主体词,根据文本的结构特性,基于位置特征获取该主体词的属性,得到最终的多主体文本结构化。本发明专利技术适用于领域性的多主体文本结构化任务,通过分层结构化和基于位置信息组成多元组的方式,有效提高对新闻文本结构化的准确率和效率。

【技术实现步骤摘要】
一种基于预训练模型和位置信息的文本结构化方法
本专利技术属于自然语言处理
,尤指一种基于预训练模型和位置信息的文本结构化方法。
技术介绍
随着信息科技的快速发展,生活中海量的新闻案件信息都以文本的形式存在。面对日益增长的大量文本数据,目前业务人员面临的问题是需要花费很多时间在阅读文本上。如今,自然语言处理技术也有了一定的发展成果,因此,自动化抽取非结构化文本中的关键信息点,并将其以结构化的形式展示,不仅能够使业务人员免于阅读大量的文本,节省时间和人力,而且是后期的数据挖掘如串并相似案件等工作的良好基础。近年来,预训练语言模型被广泛应用于自然语言处理任务中。预训练模型通过自监督的方式从大规模无监督数据中学习单词在特定上下文中的文本表征,再通过微调应用于具体的任务中。预训练语言模型有诸多优点:1)是一种迁移学习的应用,隐式地学习到了通用的语法语义知识;2)可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务;3)在几乎所有自然语言处理任务中都取得了目前最佳的成果;4)可扩展性强,在处理一个新任务时,只需要利用该任务的标注数据进行本文档来自技高网...

【技术保护点】
1.一种基于预训练模型和位置信息的文本结构化方法,具体步骤为:/nS1、从新闻网站爬取事件文本进行人工标注,得到文本结构化的有监督数据集A,并对所述数据集进行预处理作为后续模型的输入;/nS2、将预处理后的有监督文本作为输入,训练命名实体识别模型BERT-CRF,以BIO标签体系的形式输出文本中的通用实体;/nS3、将每条文本中的通用实体作为输入,训练多标签分类模型BERT-Dense,输出每个实体所属的相关人群类型;/nS4、把相关人群姓名作为主体词,根据新闻文本的结构特性,基于位置信息获取该主体词的属性,得到最终的多主体文本结构化。/n

【技术特征摘要】
1.一种基于预训练模型和位置信息的文本结构化方法,具体步骤为:
S1、从新闻网站爬取事件文本进行人工标注,得到文本结构化的有监督数据集A,并对所述数据集进行预处理作为后续模型的输入;
S2、将预处理后的有监督文本作为输入,训练命名实体识别模型BERT-CRF,以BIO标签体系的形式输出文本中的通用实体;
S3、将每条文本中的通用实体作为输入,训练多标签分类模型BERT-Dense,输出每个实体所属的相关人群类型;
S4、把相关人群姓名作为主体词,根据新闻文本的结构特性,基于位置信息获取该主体词的属性,得到最终的多主体文本结构化。


2.根据权利要求1所述的一种基于预训练模型和位置信息的文本结构化方法,其特征在于,所述的步骤S1具体包括:
S11、从新闻网站爬取事件文本,作为文本结构化的原始语料;
S12、基于人工定义的标注规范,对抽取的原始语料进行人工标注,形成有监督信号的文本数据集A;
S13、在A中每条文本的首部加上特殊字符“[CLS]”,尾部加上特殊字符“[SEP]”;
S14、确定最大序列长度,将每条文本都固定到这个长度上,即如果原始序列的长度大于该长度就截断,如果小于就用“[PAD]”字符补齐。


3.根据权利要求1所述的一种基于预训练模型和位置信息的文本结构化方法,其特征在于,所述的步骤S2具体包括:
S21、将预处理后的有监督文本作为输入,训练BERT-CRF模型;
S22、将训练好的BERT-CRF模型预测测试集,得到一个维度为m*n*l的三维矩阵S,其中m为文本的数量,n为预先定义的最大序列长度,l为人工标注的通用实体在BIO标签体系下的种类数,三维矩阵S中的某个数S[i][j][t],其中0≤i≤m-1,0≤j≤,n-1≤t≤l-1,代表第i条文本中的第j个字符属于第t种标签的概率,其中,0≤p[i][j][t]≤1...

【专利技术属性】
技术研发人员:蔡婷婷叶琪阮彤张维彦郑红
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1