一种基于特征蒸馏的概念相似度计算方法和系统技术方案

技术编号:44433020 阅读:25 留言:0更新日期:2025-02-28 18:44
本申请公开了一种基于特征蒸馏的概念相似度计算方法和系统,包括:S1获取术语库中两条原始定义;S2对定义分词得到分词结果;S3根据分词结果中计算词汇第一向量,S4判断词汇是否为重要词汇,不为重要词汇的最终向量为第一向量,若是,计算重要词汇的加权向量记为第二向量,将重要词汇第一向量和第二向量相加得到重要词汇最终向量;S5计算定义句向量;计算重要词汇的加权向量包括:查找重要词汇在术语库中对应多个定义,执行S2‑S5计算重要词汇对应定义句向量,将重要词汇对应多条定义句子句向量和权重赋值的乘积相加,得到重要词汇加权向量;S6根据定义句向量计算的概念相似度。通过本申请,提高了语义相似度分析的准确性。

【技术实现步骤摘要】

本申请涉及术语库维护,特别是涉及一种概念相似度计算方法和系统。


技术介绍

1、术语库是一种专门用于存储、管理和检索专业术语的数据库系统,它在维护语言的精确性和促进跨学科、跨行业沟通中扮演着至关重要的角色。术语库不仅包含了术语的名称,还涵盖了每个术语的详细定义、用法、来源以及与其他术语的关系等信息。在构建和维护术语库时,对术语的定义进行相似度计算显得尤为重要,这一过程有助于识别和解决术语定义中的重复、模糊或冲突问题,确保术语的准确性和一致性;同时,在术语资源整合方面,语义相似度计算方法能够有效识别并关联不同来源的术语资源,实现术语资源的无缝融合。因此,精准的计算术语库中术语定义之间的相似度是非常重要的。

2、而现有技术中进行句子相似度的计算时,仅是通过fasttext模型生成词向量,通过bilstm模型前向和后向的序列处理,对fasttext生成的词向量进行深入分析,从而得到句子向量。然而,这种方式在处理术语库中的数据时存在一定的局限性。在面对专业术语或领域特定词汇时,fasttext模型生成的词向量可能无法充分反映这些词汇的专业性和领域相关性。本文档来自技高网...

【技术保护点】

1.一种基于特征蒸馏的概念相似度计算方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于特征蒸馏的概念相似度计算方法,其特征在于,所述获取术语库中两条待计算相似度的原始定义后,还包括:判断所述定义在术语库中是否存在引用的解析内容,若是,获取所述定义在术语库中引用的解析内容,将所述定义中存在引用解析的部分替换为引用的解析内容。

3.根据权利要求2所述的基于特征蒸馏的概念相似度计算方法,其特征在于,所述将所述定义中存在引用解析的部分替换为引用的解析内容后或所述定义在术语库中不存在引用的解析内容后,还包括:对所述原始定义进行预处理,去除文本中多余的标点符号和无...

【技术特征摘要】

1.一种基于特征蒸馏的概念相似度计算方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于特征蒸馏的概念相似度计算方法,其特征在于,所述获取术语库中两条待计算相似度的原始定义后,还包括:判断所述定义在术语库中是否存在引用的解析内容,若是,获取所述定义在术语库中引用的解析内容,将所述定义中存在引用解析的部分替换为引用的解析内容。

3.根据权利要求2所述的基于特征蒸馏的概念相似度计算方法,其特征在于,所述将所述定义中存在引用解析的部分替换为引用的解析内容后或所述定义在术语库中不存在引用的解析内容后,还包括:对所述原始定义进行预处理,去除文本中多余的标点符号和无关字符。

4.根据权利要求2所述的基于特征蒸馏的概念相似度计算方法,其特征在于,将所述定义中存在引用解析的部分替换为引用的解析内容后或所述原始定义在术语库中不存在引用的解析内容后,还包括:利用同义词字典将分词后定义中的各词汇映射到标准形式;所述同义词字典包含大量标准词汇和其同义词之间的映射关系。

5.根据权利...

【专利技术属性】
技术研发人员:王海涛林良红许翰宸张晖杨毅曹馨宇汪家铭宗建芳孙健彭湃
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1