文本的处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:37071129 阅读:25 留言:0更新日期:2023-03-29 19:48
本发明专利技术公开了一种文本的处理方法、装置和计算机可读存储介质,涉及自然语言处理领域。文本的处理方法包括:从文本数据集中提取包括职务或职务变更词中的至少一种的文本,作为增强的文本数据集;将来自增强的文本数据集的、分词后的待测的文本输入到特征提取模型中,获得文本特征向量;对文本特征向量进行解码,获得对待测的文本的初步标注结果,其中,初步标注结果包括对待测的文本中的人名和人称代词的标注;将初步标注结果输入到指代消解模型中,以确定人称代词所对应的人名;根据指代消解模型的输出,确定更新的文本及其标注结果,其中,在更新的文本中,人称代词被替换为对应的人名。本发明专利技术的实施例能够解决人称代词指代不明、有效数据占比低等问题,提高了人名提取的准确率。的准确率。的准确率。

【技术实现步骤摘要】
文本的处理方法、装置和计算机可读存储介质


[0001]本专利技术涉及自然语言处理领域,特别涉及一种文本的处理方法、装置和计算机可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理(Natural Language Processing,NLP)领域的一项基本任务。准确地识别命名实体(简称“实体”)有助于理解文本。实体包括人名、地名和组织名等。人名作为众多实体类别之一,常出现在信息资料库、图书馆借阅登记表、期刊文章等场景中。

技术实现思路

[0003]专利技术人经过分析后发现,在进行人名的命名实体识别时,人名语料的残缺及人称指代不明等问题,会严重影响识别的准确度。
[0004]本专利技术实施例所要解决的一个技术问题是:如何提高人名识别的准确度。
[0005]根据本专利技术一些实施例的第一个方面,提供一种文本的处理方法,包括:从文本数据集中提取包括职务或职务变更词中的至少一种的文本,作为增强的文本数据集;将来自增强的文本数据集的、分词后的待测的文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本的处理方法,包括:从文本数据集中提取包括职务或职务变更词中的至少一种的文本,作为增强的文本数据集;将来自所述增强的文本数据集的、分词后的待测的文本输入到特征提取模型中,获得文本特征向量;对所述文本特征向量进行解码,获得对所述待测的文本的初步标注结果,其中,所述初步标注结果包括对所述待测的文本中的人名和人称代词的标注;将所述初步标注结果输入到指代消解模型中,以确定所述人称代词所对应的人名;根据所述指代消解模型的输出,确定更新的文本及其标注结果,其中,在所述更新的文本中,人称代词被替换为对应的人名。2.根据权利要求1所述的处理方法,其中,所述特征提取模型包括变形器的双向编码器表示BERT模型和双向长短记忆网络BiLSTM模型,并且,将分词后的待测的文本输入到特征提取模型中,获得文本特征向量包括:将分词后的待测的文本输入到BERT模型中,获得所述BERT模型输出的动态词向量;将所述动态词向量输入到BiLSTM模型中,获得所述BiLSTM模型输出的文本特征向量。3.根据权利要求2所述的处理方法,其中,所述BERT模型包括变形器Transformer结构。4.根据权利要求1~3中任一项所述的处理方法,其中,所述特征提取模型是利用增强的训练集确定的,其中,所述增强的训练集为包括职务或职务变更词中的至少一种的文本的数据集。5.根据权利要求1所述的处理方法,其中,所述对所述文本特征向量进行解码包括:利用条件随机场CRF模型对所述文本特征向量进行解码。6.根据权利要求1所述的处理方法,其中,所述指代消解模型包括输入...

【专利技术属性】
技术研发人员:董智明陈雨靖冠军郑然李明达
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1