面向文本内容的新标签实体识别方法、装置、设备及介质制造方法及图纸

技术编号:37109657 阅读:12 留言:0更新日期:2023-04-01 05:07
本申请涉及一种面向文本内容的新标签实体识别方法、装置、设备及介质。所述方法包括:利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,根据再训练模型和GlobalPointer构建候选实体识别模型,利用候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;根据实体标签对人工标注的标签词库进行过滤,得到新标签词库,再对新标签词库进行清洗,利用清洗后的标签库对训练数据集进行修改和扩充,利用扩充后的训练集对候选实体识别模型进行训练,根据训练好的实体识别模型对文本内容进行新标签实体识别。采用本方法能够提高新标签实体识别准确率。采用本方法能够提高新标签实体识别准确率。采用本方法能够提高新标签实体识别准确率。

【技术实现步骤摘要】
面向文本内容的新标签实体识别方法、装置、设备及介质


[0001]本申请涉及数据处理
,特别是涉及一种面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]对于一个标签系统来说标签库的完善至关重要,这里标签系统指的是对于输入的信息载体(这里指文章)输出一定数量的能总结出的词汇(关键词)或归类于的类别,这些类别称之为标签,能根据关键词总结出标签的这些关键词称之为特征词,打出标签的系统称之为标签系统。但是标签词和特征词的发现不能仅仅靠人工积累和发现,所以需要技术上进行自动标签发现。
[0003]标签发现本质上接近于中文自然语言处理中的新词发现问题,但是又不能完全等同于新词发现,因为有些标签词可能不是新词而是已经存在的词汇。传统的方法中新词发现基于互信息比较常用的方式是基于Matrix67中提到的统计方式进行的无监督新词发现。采用ngram(n元分词)进行词汇召回,即根据n元分词进行全量枚举,通过计算词汇的内部凝固度(PMI)和词汇的自由度(左右熵)为当前词汇打分。通过分数进行排序召回。其中内部凝固度是指当前词汇的中各个字在一起出现的概率大小,代表了这个几个字经常作为一个整体出现,比较有可能是一个词,而词汇的自由度是指这几个字组成的团体的左右两边出现的字是否足够丰富,比如说“瓶酱油”这三个字组成的团体出现的频率足够高即它的内部凝固度足够高,但是这个团体左边出现的字的丰富度非常低,经常出现的只有“几”,“一”,“两”等字,说明这三个字组成的团体左侧出现字的丰富度不够高,即该词汇的自由度不够高。因此对于当前词汇的内部凝固度和外部自由度做出权衡以后得到该词汇的打分分数,分数由高到低即可以筛选出更有可能出现的新词,然后过滤去掉已有的词汇得到最后的结果。
[0004]然而,目前的基于无监督语料的新标签发现方法存在以下缺点:比较依赖于大数量的文本输入,因为该方法是基于统计方法,需要对全量的输入数据来进行枚举和计算频率,进而计算词汇凝固度和自由度。所以当输入为单篇文章时无法得到有效的结果,对于字数过长和带有英文字符的词(标签)很难进行发现,这是由于词语的召回是基于n元分词的枚举,如果n过大会导致效率过低,由于该方法是全量召回然后排序配合过滤来得到结果,所以这是一个去除错误候选词的方法,这样的方法就非常依赖于已有词汇表的完善程度,并且得到的结果中可用词汇的比例会非常低,通常即使是前100的结果可用率也会低于50%。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高新标签实体识别准确率的面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。
[0006]一种面向文本内容的新标签实体识别方法,所述方法包括:
[0007]获取人工标注的标签词库、资讯文本和资讯数据集;标签词库中包含特征词和特征词对应的标签;
[0008]根据标签词库对资讯文本进行数据筛选,得到训练数据集;
[0009]利用训练数据集和自监督方式对预先构建的BERT模型进行训练,得到预训练模型;
[0010]利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,得到再训练模型;
[0011]根据再训练模型和GlobalPointer全局指针构建候选实体识别模型;
[0012]利用候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;
[0013]根据实体标签对人工标注的标签词库进行过滤,得到新标签词库;
[0014]根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗,得到清洗后的标签库;
[0015]利用清洗后的标签库对训练数据集进行修改和扩充,得到扩充后的训练集,利用扩充后的训练集对候选实体识别模型进行训练,得到训练好的实体识别模型;
[0016]根据训练好的实体识别模型对文本内容进行新标签实体识别。
[0017]在其中一个实施例中,根据BERT模型对新标签库中的所有标签所在的句子进行编码,取标签对应位置的字向量进行这四层的拼接,然后平均池化,得到所有标签的词向量;
[0018]利用Faiss index对所有标签的词向量进行储存,在Faiss index中对新标签实体识别结果进行向量化后与新标签库中所有的标签进行余弦相似度计算返回分数最高的两个标签作为第一候选同义词标签;
[0019]将新标签库中所有标签根据编辑距离进行bkTree构建,对新标签实体识别结果进行规范化后在bkTree中搜索编辑距离小于2的多个标签作为第二候选同义词标签;
[0020]根据第一候选同义词标签和第二候选同义词标签将新标签实体识别结果定位到标签库中的位置对新标签词库进行扩充。
[0021]在其中一个实施例中,构建遮盖语言模型任务和NTP任务的过程包括:
[0022]对训练数据集进行随机全词遮盖,利用ansj分词器对遮盖后的文本进行分词,得到分词词表;全词指中文中的完成词汇;根据分词词表和标签词库构建遮盖语言模型任务;
[0023]对包含标签的句子进行向量提取,得到标签的向量表示,利用标签词库中的标签与特征词的层级关系作为标签词库的NTP任务。
[0024]在其中一个实施例中,利用候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签,包括:
[0025]利用候选实体识别模型对资讯数据集进行新标签识别,对资讯数据集中的文本进行全文向量表示,得到第一向量表示;
[0026]将文本中的当前标签词全部进行遮盖处理后再进行向量表示,得到第二向量表示;
[0027]对第一向量表示和第二向量表示进行余弦相似度计算,得到去掉当前标签与不去掉当前标签的文章关联程度;文章关联程度为标签的重要度表示;
[0028]根据标签的重要度表示对资讯数据集中的所有标签进行从小到大排序,得到文章关联度最高的实体标签。
[0029]在其中一个实施例中,根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗,得到清洗后的标签库,包括:
[0030]根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算,得到特征词的时效值;
[0031]若特征词的时效值在预先设置的三倍时间内小于0,则将该特征词和特征词对应的标签删除,得到清洗后的标签库。
[0032]在其中一个实施例中,根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算,得到特征词的时效值,包括:
[0033]根据新标签词库中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向文本内容的新标签实体识别方法,其特征在于,所述方法包括:获取人工标注的标签词库、资讯文本和资讯数据集;所述标签词库中包含特征词和特征词对应的标签;根据所述标签词库对所述资讯文本进行数据筛选,得到训练数据集;利用所述训练数据集和自监督方式对预先构建的BERT模型进行训练,得到预训练模型;利用所述训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,得到再训练模型;根据所述再训练模型和GlobalPointer全局指针构建候选实体识别模型;利用所述候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;根据所述实体标签对人工标注的标签词库进行过滤,得到新标签词库;根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗,得到清洗后的标签库;利用所述清洗后的标签库对所述训练数据集进行修改和扩充,得到扩充后的训练集,利用所述扩充后的训练集对所述候选实体识别模型进行训练,得到训练好的实体识别模型;根据所述训练好的实体识别模型对文本内容进行新标签实体识别。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据BERT模型对所述新标签库中的所有标签所在的句子进行编码,取标签对应位置的字向量进行这四层的拼接,然后平均池化,得到所有标签的词向量;利用Faiss index对所述所有标签的词向量进行储存,在所述Faiss index中对新标签实体识别结果进行向量化后与新标签库中所有的标签进行余弦相似度计算返回分数最高的两个标签作为第一候选同义词标签;将所述新标签库中所有标签根据编辑距离进行bkTree构建,对新标签实体识别结果进行规范化后在所述bkTree中搜索编辑距离小于2的多个标签作为第二候选同义词标签;根据所述第一候选同义词标签和第二候选同义词标签将新标签实体识别结果定位到标签库中的位置对所述新标签词库进行扩充。3.根据权利要求1所述的方法,其特征在于,构建遮盖语言模型任务和NTP任务的过程包括:对所述训练数据集进行随机全词遮盖,利用ansj分词器对遮盖后的文本进行分词,得到分词词表;所述全词指中文中的完成词汇;根据所述分词词表和标签词库构建遮盖语言模型任务;对包含标签的句子进行向量提取,得到标签的向量表示,利用标签词库中的标签与特征词的层级关系作为标签词库的NTP任务。4.根据权利要求1所述的方法,其特征在于,利用所述候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签,包括:利用所述候选实体识别模型对资讯数据集进行新标签识别,对资讯数据集中的文本进
行全文向量表示,得到第一向量表示;将文本中的当前标签词全部进行遮盖处理后再进行向量表示,得到第二向量表示;对所述第一向量表示和第二向量表示进行余弦相似度计算,得到去掉当前标签与不去掉当前标签的文章关联程度;所述文章关联程度为标签的重要度表示;根据标签的重要度表示对资讯数据集中的所有标签进行从小到大排序,得到文章关联度最高的实体标签。5.根据权利要求1所述的方法,其特征在于,根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗,得到清洗后的标签库,包括:根据所述新标签词库中标签对应的特征词数量、特征词被过滤...

【专利技术属性】
技术研发人员:许晟丑晓慧
申请(专利权)人:上海深擎信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1