【技术实现步骤摘要】
面向文本内容的新标签实体识别方法、装置、设备及介质
[0001]本申请涉及数据处理
,特别是涉及一种面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。
技术介绍
[0002]对于一个标签系统来说标签库的完善至关重要,这里标签系统指的是对于输入的信息载体(这里指文章)输出一定数量的能总结出的词汇(关键词)或归类于的类别,这些类别称之为标签,能根据关键词总结出标签的这些关键词称之为特征词,打出标签的系统称之为标签系统。但是标签词和特征词的发现不能仅仅靠人工积累和发现,所以需要技术上进行自动标签发现。
[0003]标签发现本质上接近于中文自然语言处理中的新词发现问题,但是又不能完全等同于新词发现,因为有些标签词可能不是新词而是已经存在的词汇。传统的方法中新词发现基于互信息比较常用的方式是基于Matrix67中提到的统计方式进行的无监督新词发现。采用ngram(n元分词)进行词汇召回,即根据n元分词进行全量枚举,通过计算词汇的内部凝固度(PMI)和词汇的自由度(左右熵)为当前词汇打分。通过分数进行排序召回。其中内部凝固度是指当前词汇的中各个字在一起出现的概率大小,代表了这个几个字经常作为一个整体出现,比较有可能是一个词,而词汇的自由度是指这几个字组成的团体的左右两边出现的字是否足够丰富,比如说“瓶酱油”这三个字组成的团体出现的频率足够高即它的内部凝固度足够高,但是这个团体左边出现的字的丰富度非常低,经常出现的只有“几”,“一”,“两”等字,说明这三个字组成的团体左侧出现字的丰富度不够高,即该词汇的自 ...
【技术保护点】
【技术特征摘要】
1.一种面向文本内容的新标签实体识别方法,其特征在于,所述方法包括:获取人工标注的标签词库、资讯文本和资讯数据集;所述标签词库中包含特征词和特征词对应的标签;根据所述标签词库对所述资讯文本进行数据筛选,得到训练数据集;利用所述训练数据集和自监督方式对预先构建的BERT模型进行训练,得到预训练模型;利用所述训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,得到再训练模型;根据所述再训练模型和GlobalPointer全局指针构建候选实体识别模型;利用所述候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;根据所述实体标签对人工标注的标签词库进行过滤,得到新标签词库;根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗,得到清洗后的标签库;利用所述清洗后的标签库对所述训练数据集进行修改和扩充,得到扩充后的训练集,利用所述扩充后的训练集对所述候选实体识别模型进行训练,得到训练好的实体识别模型;根据所述训练好的实体识别模型对文本内容进行新标签实体识别。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据BERT模型对所述新标签库中的所有标签所在的句子进行编码,取标签对应位置的字向量进行这四层的拼接,然后平均池化,得到所有标签的词向量;利用Faiss index对所述所有标签的词向量进行储存,在所述Faiss index中对新标签实体识别结果进行向量化后与新标签库中所有的标签进行余弦相似度计算返回分数最高的两个标签作为第一候选同义词标签;将所述新标签库中所有标签根据编辑距离进行bkTree构建,对新标签实体识别结果进行规范化后在所述bkTree中搜索编辑距离小于2的多个标签作为第二候选同义词标签;根据所述第一候选同义词标签和第二候选同义词标签将新标签实体识别结果定位到标签库中的位置对所述新标签词库进行扩充。3.根据权利要求1所述的方法,其特征在于,构建遮盖语言模型任务和NTP任务的过程包括:对所述训练数据集进行随机全词遮盖,利用ansj分词器对遮盖后的文本进行分词,得到分词词表;所述全词指中文中的完成词汇;根据所述分词词表和标签词库构建遮盖语言模型任务;对包含标签的句子进行向量提取,得到标签的向量表示,利用标签词库中的标签与特征词的层级关系作为标签词库的NTP任务。4.根据权利要求1所述的方法,其特征在于,利用所述候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签,包括:利用所述候选实体识别模型对资讯数据集进行新标签识别,对资讯数据集中的文本进
行全文向量表示,得到第一向量表示;将文本中的当前标签词全部进行遮盖处理后再进行向量表示,得到第二向量表示;对所述第一向量表示和第二向量表示进行余弦相似度计算,得到去掉当前标签与不去掉当前标签的文章关联程度;所述文章关联程度为标签的重要度表示;根据标签的重要度表示对资讯数据集中的所有标签进行从小到大排序,得到文章关联度最高的实体标签。5.根据权利要求1所述的方法,其特征在于,根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗,得到清洗后的标签库,包括:根据所述新标签词库中标签对应的特征词数量、特征词被过滤...
【专利技术属性】
技术研发人员:许晟,丑晓慧,
申请(专利权)人:上海深擎信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。