一种文本信息处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39249793 阅读:35 留言:0更新日期:2023-10-30 12:01
本申请公开了一种文本信息处理方法、装置、设备及存储介质。该方法包括:将待匹配文本、待匹配文本对应的多个候选标准文本和预设文本解析指令信息输入文本信息处理模型,生成待匹配文本的第一文本定义信息和多个候选标准文本各自的第二文本定义信息;将第一文本定义信息、第二文本定义信息和预设异同分析指令信息输入文本信息处理模型,对第一文本定义信息和第二文本定义信息进行异同分析,生成定义异同信息;将第一文本定义信息、第二文本定义信息、定义异同信息和预设文本匹配指令信息输入文本信息处理模型,生成包含有目标标准文本的目标输出文本。利用本申请提供的技术方案可以降低文本标准化任务的处理复杂度,从而提升文本标准化的准确性。文本标准化的准确性。文本标准化的准确性。

【技术实现步骤摘要】
一种文本信息处理方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本信息处理方法、装置、设备及存储介质。

技术介绍

[0002]文本标准化旨在将某一领域的不规范/不标准的文本表达映射/归一到该领域的标准体系中的规范/标准的术语表达。为了实现文本标准化,现有方法通常将文本标准化任务视为文本匹配任务,基于稠密检索的方法计算原始词和候选标准词的语义相似度,从而确定原始词的匹配标准词。
[0003]然而,在原始词和标准词的长度较短,包含的信息量少的情况下,难以直接从字面上理解它们的含义,即使两个词的语义相似度较高,两者的含义也可能大相径庭。例如,医疗领域中的"1型糖尿病"和"2型糖尿病"在字面上看起来非常相似,但是两者背后的发病机制不同,并不属于同一类的糖尿病,如果采用基于稠密检索的文本匹配方法,很有可能根据两者较高的语义相似度,将两者匹配在一起,从而影响了文本标准化的准确性。

技术实现思路

[0004]本申请提供了一种文本信息处理方法、装置、设备及存储介质,可以根据待匹配文本和多个候选标准文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本信息处理方法,其特征在于,所述方法包括:获取待匹配文本和所述待匹配文本对应的多个候选标准文本,任一候选标准文本为与所述待匹配文本关联的标准化描述信息;将所述待匹配文本、所述多个候选标准文本和预设文本解析指令信息输入文本信息处理模型,基于所述预设文本解析指令信息,分别对所述待匹配文本和所述多个候选标准文本进行文本解析,生成所述待匹配文本对应的第一文本定义信息和所述多个候选标准文本各自对应的第二文本定义信息;将所述第一文本定义信息、所述第二文本定义信息和预设异同分析指令信息输入所述文本信息处理模型,基于所述预设异同分析指令信息,对所述第一文本定义信息和所述第二文本定义信息进行异同分析,生成定义异同信息;将所述第一文本定义信息、所述第二文本定义信息、所述定义异同信息和预设文本匹配指令信息输入所述文本信息处理模型,基于所述预设文本匹配指令信息,生成包含有目标标准文本的目标输出文本,所述目标标准文本为所述多个候选标准文本中与所述待匹配文本匹配的候选标准文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述待匹配文本对应的标准文本集合,所述标准文本集合为所述待匹配文本的内容所属的目标领域的标准化描述信息的集合;将所述标准文本集合中的多个标准文本与所述待匹配文本进行相似分析,得到所述多个标准文本各自对应的文本相似指标;基于所述文本相似指标,对所述多个标准文本进行文本召回处理,得到所述多个候选标准文本。3.根据权利要求2所述的方法,其特征在于,所述将所述标准文本集合中的多个标准文本与所述待匹配文本进行相似分析,得到所述多个标准文本各自对应的文本相似指标包括:将所述多个标准文本分别与所述待匹配文本进行字面相似分析,得到所述多个标准文本各自对应的字面相似指标;将所述字面相似指标,作为所述文本相似指标。4.根据权利要求2所述的方法,其特征在于,所述将所述标准文本集合中的多个标准文本与所述待匹配文本进行相似分析,得到所述多个标准文本各自对应的文本相似指标包括:将所述待匹配文本和所述多个标准文本输入文本语义提取模型进行文本语义提取,得到所述待匹配文本对应的第一语义特征信息和所述多个标准文本各自对应的第二语义特征信息;将所述第一语义特征信息和所述第二语义特征信息进行语义相似分析,得到所述多个标准文本各自对应的语义相似指标;将所述语义相似指标,作为所述文本相似指标。5.根据权利要求1所述的方法,其特征在于,所述将所述待匹配文本、所述多个候选标准文本和预设文本解析指令信息输入文本信息处理模型,基于所述预设文本解析指令信息,分别对所述待匹配文本和所述多个候选标准文本进行文本解析,生成所述待匹配文本
对应的第一文本定义信息和所述多个候选标准文本各自对应的第二文本定义信息包括:将所述待匹配文本、所述多个候选标准文本和所述预设文本解析指令信息进行组合,得到第一指令信息;将所述第一指令信息输入所述文本信息处理模型,分别对所述待匹配文本和所述多个候选标准文本进行文本解析,生成所述第一文本定义信息和所述第二文本定义信息。6.根据权利要求1所述的方法,其特征在于,所述将所述第一文本定义信息、所述第二文本定义信息和预设异同分析指令...

【专利技术属性】
技术研发人员:林镇溪张子恒吴贤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1