一种语义相似度计算的方法装置制造方法及图纸

技术编号:37673855 阅读:30 留言:0更新日期:2023-05-26 04:37
本申请公开了一种语义相似度计算的方法和装置,该方法包括:获取用于进行相似度比较的源文本数据和目标文本数据;将源文本数据和目标文本数据输入预先构建的文本向量生成模块,利用文本向量生成模块生成对应源文本数据对应的第一文本向量和目标文本数据对应的第二文本向量;分别学习第一文本向量对应的第一语义向量和第二文本向量对应的第二语义向量;计算第一语义向量和第二语义向量的相似度,得到语义向量相似度参数;利用softmax函数将语义相似度参数转化为对应源文本数据和目标文本数据的相似度后验概率。本申请提供的方案充分的考虑对文本位置和文本语法结构与字词结构,有效提升文本相似度计算结果的准确率。有效提升文本相似度计算结果的准确率。有效提升文本相似度计算结果的准确率。

【技术实现步骤摘要】
一种语义相似度计算的方法装置


[0001]本申请涉及人工智能
,特别是涉及一种语义相似度计算的方法和装置。

技术介绍

[0002]目前很多应用都有在语义上衡量本文相似度的需求,直接目标就是判断两句话是否表达了相同或相似意思,可以将这类需求统称为“语义匹配”,自然语音处理领域中的许多任务都可以抽象为语义匹配任务。语义匹配的相关应用场景主要有搜索引擎、问答系统、推荐系统、文本去重等,主要是为了找到与目标文本最相关的文本,比如在问答系统中找到和问题最相关的答案,在搜索引擎中找到与搜索框中关键词最相关的网页等。
[0003]传统的文本匹配技术有BOW、TF

IDF、BM25、Jaccard、SimHash等算法,主要能够解决词汇层面的匹配问题,但基于词汇重合度的匹配算法有很大的局限性,包括词义局限、结构局限,其中,词义局限是对于同一词语在不同的语境下表示不同的含义,对于结构局限来讲,如“深度学习”和“学习深度”虽然词汇完全重合,但是表达的意思不同。传统方案虽然已有DSSM(Deep Structured Semanti本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语义相似度计算的方法,包括:获取用于进行相似度比较的源文本数据和目标文本数据;将所述源文本数据和目标文本数据输入预先构建的文本向量生成模块,利用所述文本向量生成模块生成对应所述源文本数据对应的第一文本向量和所述目标文本数据对应的第二文本向量;分别学习所述第一文本向量对应的第一语义向量和所述第二文本向量对应的第二语义向量;计算所述第一语义向量和所述第二语义向量的相似度,得到语义向量相似度参数;利用softmax函数将所述语义相似度参数转化为对应所述源文本数据和所述目标文本数据的相似度后验概率。2.根据权利要求1所述的方法,其特征在于,所述利用所述文本向量生成模块生成对应所述源文本数据对应的第一文本向量和所述目标文本数据对应的第二文本向量,包括:对于所述源文本数据或所述目标文本数据,利用文本向量生成模块提取文本数据中的文本结构信息,并基于所述文本结构信息生成文本数据对应的文本向量;所述文本向量生成模块为预先训练好的用于对输入对文本数据转化为对应对文本向量对机器学习模型;所述文本结构信息用于表征文本数据对应的文本内容的结构信息,其包括语法结构信息和字词结构信息。3.根据权利要求2所述的方法,其特征在于,所述文本向量生成模块包括用于分析语法结构的第一网络模型和用于分析字词结构的第二网络模型;所述利用文本向量生成模块提取文本数据中的文本结构信息包括:利用所述第一网络模型提取所述文本数据中的语法结构信息;所述语法结构信息包括文本数据的主干结构、修饰结构;利用所述第二网络模型对所述文本数据进行分词,获取所述文本数据中的文本词以及词性信息;对所述文本词进行文字拆分,得到文本字信息以及文本字在文本词中的位置信息。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述分别学习所述第一文本向量对应的第一语义向量和所述第二文本向量对应的第二语义向量,包括:对于所述第一文本向量或所述第二文本向量,利用第一...

【专利技术属性】
技术研发人员:刘光辉权佳成
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1