文本处理方法、装置及存储介质制造方法及图纸

技术编号:36755432 阅读:9 留言:0更新日期:2023-03-04 10:46
本公开是关于一种文本处理方法、装置及存储介质。该方法包括:将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据待标注文档与各个初始标签的匹配度,从初始标签中选取与待标注文档相对应的候选标注标签;从预设数据库中提取候选标注标签的标签向量;基于目标向量转换模型得到待标注文档的文本向量;分别确定待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离;基于各个向量距离,确定用于标注待标注文档的目标标注标签。这样,不仅可以提高确定目标标注标签时的响应速度,还可以准确快速地得到目标标注标签,并且可以在提高文本语义表征的准确率的基础上,提高确定目标标注标签的准确率。注标签的准确率。注标签的准确率。

【技术实现步骤摘要】
文本处理方法、装置及存储介质


[0001]本公开涉及自然语言处理技术,尤其涉及一种文本处理方法、装置及存储介质。

技术介绍

[0002]随着社交软件的普及,每日发布在社交通讯平台上的文档数量巨大,对于原创的待标注文档,需要准确识别出待标注文档中提到的标签,并从初始标签中确定用于标注待标注文档的目标标注标签,这样,可以保证推荐业务在根据用户画像确定标签,并为用户推荐相关内容时,标签对应的文档是与标签的相似度高的内容。
[0003]相关技术中,在需要对待标注文档进行标注,确定目标标注标签时,可以采用匹配召回和相关性排序相结合的方式进行建模。在相关性排序模块中,可以采用文本分类任务建模,即对待标注文档和初始标签的文本进行二分类,来判断待标注文档和初始标签之间是否具备相关性,但是,由于每一对进行二分类的待标注文档和初始标签都需要输入一次模型,对于同一个待标注文档,需要多次通过模型,极大地降低了确定目标标注标签时的响应速度。
[0004]在相关性排序模块中,还可以采用文本语义匹配建模,即通过模型来分别计算待标注文档和初始标签的文本语义表征(如,特征向量),并通过两个文本语义表征在高维空间的相似度来衡量相关程度,但是,由于模型本身设计上的缺陷,会导致文本语义表征的准确率不高,无法准确地确定目标标注标签。

技术实现思路

[0005]为克服相关技术中存在的问题,本公开提供一种文本处理方法、装置及存储介质,第一方面,可以直接从预设数据库中提取对应的标签向量,可以提高确定目标标注标签时的响应速度;第二方面,通过确定向量距离来确定目标标注标签,可以将文档与标签之间的相似度向量化,能够更加准确快速地得到目标标注标签;第三方面,通过预先训练得到的目标向量转换模型来确定待标注文档的文本向量和初始标签的标签向量,可以在提高文本语义表征的准确率的基础上,提高确定目标标注标签的准确率。
[0006]根据本公开实施例的第一方面,提供一种文本处理方法,包括:
[0007]将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
[0008]从所述预设数据库中提取所述候选标注标签的标签向量;
[0009]基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
[0010]分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间
的向量距离;
[0011]基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
[0012]在一些实施例中,所述将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,包括:
[0013]对所述待标注文档中的非文本内容进行滤除处理,得到具有文本内容的中间文档;
[0014]根据所述中间文档中满足预设筛选条件的文本内容,生成目标文档;
[0015]将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。
[0016]在一些实施例中,所述方法还包括:
[0017]从历史文档数据中确定训练文档;
[0018]对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签;
[0019]将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对,根据得到的所述训练文档与各个所述候选训练标签的匹配度,从所述候选训练标签中选取与所述训练文档相对应的目标训练标签;
[0020]将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理,得到所述训练文档的文本向量和所述目标训练标签的标签向量;
[0021]将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值;
[0022]基于所述对比损失值对所述初始向量转换模型的模型参数进行调整,得到所述目标向量转换模型。
[0023]在一些实施例中,所述对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签,包括:
[0024]根据所述初始标签的标签类型,确定至少一个与所述初始标签相关联的关联标签;其中,所述关联标签与所述初始标签所标注的对象相同,且所述关联标签的标注范围大于所述初始标签的标注范围;
[0025]根据所述初始标签的标注范围和各个所述关联标签的标注范围,确定所述初始标签和各个所述关联标签的拼接顺序;
[0026]按照所述拼接顺序,对所述初始标签和各个所述关联标签进行拼接处理,得到与所述初始标签对应的所述候选训练标签。
[0027]在一些实施例中,所述与所述训练文档相对应的目标训练标签包括:正样本标签和负样本标签;所述将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值,包括:
[0028]从所述历史文档数据中确定与所述训练文档之间的相似度大于预设相似度阈值的相似文档;
[0029]利用所述对比学习模型中的相似度子模型,根据所述训练文档的文本向量和所述正样本标签的标签向量,确定所述训练文档和所述正样本标签之间的第一相似度;
[0030]利用所述相似度子模型,根据所述训练文档的文本向量和所述负样本标签的标签
向量,确定所述训练文档和所述负样本标签之间的第二相似度;
[0031]根据所述第一相似度、所述第二相似度以及所述训练文档与所述相似文档之间的第三相似度,确定所述对比损失值;其中,所述对比损失值与所述第三相似度负相关,与所述第一相似度和所述第二相似度之间的和值正相关。
[0032]在一些实施例中,所述方法还包括:
[0033]将与所述训练文档的匹配度大于预设匹配度的候选训练标签确定为可见标签;
[0034]将与所述训练文档的匹配度小于或等于所述预设匹配度的候选训练标签确定为不可见标签;
[0035]按照预设标注策略将第一数量的所述可见标签确定为所述正样本标签,将第二数量的所述可见标签确定为所述负样本标签;
[0036]根据所述第一数量和所述第二数量,从所述不可见标签中确定第三数量的所述负样本标签;
[0037]其中,所述第二数量与所述第三数量的和值,与所述第一数量之间的比值满足预设比例关系。
[0038]在一些实施例中,所述基于各个所述向量距离,从所述候选标注标签中确定目标标注标签,包括:
[0039]将所述向量距离大于预设距离阈值的所述候选标注标签确定为所述目标标注标签;
[0040]其中,所述向量距离用于表征所述待标注文档和所述候选标注标签之间的相似度。
[0041]根据本公开实施例的第二方面,提供一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;从所述预设数据库中提取所述候选标注标签的标签向量;基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间的向量距离;基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。2.根据权利要求1所述的方法,其特征在于,所述将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,包括:对所述待标注文档中的非文本内容进行滤除处理,得到具有文本内容的中间文档;根据所述中间文档中满足预设筛选条件的文本内容,生成目标文档;将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从历史文档数据中确定训练文档;对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签;将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对,根据得到的所述训练文档与各个所述候选训练标签的匹配度,从所述候选训练标签中选取与所述训练文档相对应的目标训练标签;将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理,得到所述训练文档的文本向量和所述目标训练标签的标签向量;将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值;基于所述对比损失值对所述初始向量转换模型的模型参数进行调整,得到所述目标向量转换模型。4.根据权利要求3所述的方法,其特征在于,所述对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签,包括:根据所述初始标签的标签类型,确定至少一个与所述初始标签相关联的关联标签;其中,所述关联标签与所述初始标签所标注的对象相同,且所述关联标签的标注范围大于所述初始标签的标注范围;根据所述初始标签的标注范围和各个所述关联标签的标注范围,确定所述初始标签和各个所述关联标签的拼接顺序;按照所述拼接顺序,对所述初始标签和各个所述关联标签进行拼接处理,得到与所述初始标签对应的所述候选训练标签。
5.根据权利要求3所述的方法,其特征在于,所述与所述训练文档相对应的目标训练标签包括:正样本标签和负样本标签;所述将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值,包括:从所述历史文档数据中...

【专利技术属性】
技术研发人员:魏梦溪周鑫
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1