文本处理方法、装置及存储介质制造方法及图纸

技术编号：36755432 阅读：9 留言：0更新日期：2023-03-04 10:46

本公开是关于一种文本处理方法、装置及存储介质。该方法包括：将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对，根据待标注文档与各个初始标签的匹配度，从初始标签中选取与待标注文档相对应的候选标注标签；从预设数据库中提取候选标注标签的标签向量；基于目标向量转换模型得到待标注文档的文本向量；分别确定待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离；基于各个向量距离，确定用于标注待标注文档的目标标注标签。这样，不仅可以提高确定目标标注标签时的响应速度，还可以准确快速地得到目标标注标签，并且可以在提高文本语义表征的准确率的基础上，提高确定目标标注标签的准确率。注标签的准确率。注标签的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置及存储介质

[0001]本公开涉及自然语言处理技术，尤其涉及一种文本处理方法、装置及存储介质。

技术介绍

[0002]随着社交软件的普及，每日发布在社交通讯平台上的文档数量巨大，对于原创的待标注文档，需要准确识别出待标注文档中提到的标签，并从初始标签中确定用于标注待标注文档的目标标注标签，这样，可以保证推荐业务在根据用户画像确定标签，并为用户推荐相关内容时，标签对应的文档是与标签的相似度高的内容。
[0003]相关技术中，在需要对待标注文档进行标注，确定目标标注标签时，可以采用匹配召回和相关性排序相结合的方式进行建模。在相关性排序模块中，可以采用文本分类任务建模，即对待标注文档和初始标签的文本进行二分类，来判断待标注文档和初始标签之间是否具备相关性，但是，由于每一对进行二分类的待标注文档和初始标签都需要输入一次模型，对于同一个待标注文档，需要多次通过模型，极大地降低了确定目标标注标签时的响应速度。
[0004]在相关性排序模块中，还可以采用文本语义匹配建模，即通过模型来分别计算待标注文档和初始标签的文本语义表征(如，特征向量)，并通过两个文本语义表征在高维空间的相似度来衡量相关程度，但是，由于模型本身设计上的缺陷，会导致文本语义表征的准确率不高，无法准确地确定目标标注标签。

技术实现思路

[0005]为克服相关技术中存在的问题，本公开提供一种文本处理方法、装置及存储介质，第一方面，可以直接从预设数据库中提取对应的标签向量，可以提高确定目标标注标签时的响应速度；第二方面...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对，根据得到的所述待标注文档与各个所述初始标签的匹配度，从所述初始标签中选取与所述待标注文档相对应的候选标注标签；其中，所述预设数据库中预存有：各个所述初始标签和各个所述初始标签对应的标签向量，所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到；从所述预设数据库中提取所述候选标注标签的标签向量；基于所述目标向量转换模型对所述待标注文档进行向量转换，得到所述待标注文档的文本向量；分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间的向量距离；基于各个所述向量距离，从所述候选标注标签中确定目标标注标签；其中，所述目标标注标签用于标注所述待标注文档。2.根据权利要求1所述的方法，其特征在于，所述将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对，包括：对所述待标注文档中的非文本内容进行滤除处理，得到具有文本内容的中间文档；根据所述中间文档中满足预设筛选条件的文本内容，生成目标文档；将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：从历史文档数据中确定训练文档；对所述初始标签进行预处理，得到与所述初始标签对应的候选训练标签；将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对，根据得到的所述训练文档与各个所述候选训练标签的匹配度，从所述候选训练标签中选取与所述训练文档相对应的目标训练标签；将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理，得到所述训练文档的文本向量和所述目标训练标签的标签向量；将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型，得到对比损失值；基于所述对比损失值对所述初始向量转换模型的模型参数进行调整，得到所述目标向量转换模型。4.根据权利要求3所述的方法，其特征在于，所述对所述初始标签进行预处理，得到与所述初始标签对应的候选训练标签，包括：根据所述初始标签的标签类型，确定至少一个与所述初始标签相关联的关联标签；其中，所述关联标签与所述初始标签所标注的对象相同，且所述关联标签的标注范围大于所述初始标签的标注范围；根据所述初始标签的标注范围和各个所述关联标签的标注范围，确定所述初始标签和各个所述关联标签的拼接顺序；按照所述拼接顺序，对所述初始标签和各个所述关联标签进行拼接处理，得到与所述初始标签对应的所述候选训练标签。
5.根据权利要求3所述的方法，其特征在于，所述与所述训练文档相对应的目标训练标签包括：正样本标签和负样本标签；所述将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型，得到对比损失值，包括：从所述历史文档数据中...

【专利技术属性】
技术研发人员：魏梦溪，周鑫，
申请(专利权)人：微梦创科网络科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人