词语相似度确定方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:33638586 阅读:41 留言:0更新日期:2022-06-02 01:55
本申请公开了一种词语相似度确定方法、装置、存储介质及计算机设备,该方法应用于计算机设备中,包括:基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项集合,并确定第一义项集合中处于叶子结点的第一义项在叶子结点中的第一同义词义项集合,以及确定第二义项集合中处于叶子结点的第二义项在叶子结点中的第二同义词义项集合,根据各第一义项和各第二义项、以及第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度,根据义项相似度来确定第一词语和第二词语之间的相似度。本申请实施例提高了词语相似度确定的准确性。本申请实施例提高了词语相似度确定的准确性。本申请实施例提高了词语相似度确定的准确性。

【技术实现步骤摘要】
词语相似度确定方法、装置、存储介质及计算机设备


[0001]本申请涉及通信
,尤其涉及一种词语相似度确定方法、装置、存储介质及计算机设备。

技术介绍

[0002]近年来,随着互联网信息技术的不断进步,智能语音功能得到了越来越多的应用。例如利用智能语音功能控制智能家电等。比如,对于智能电视来说,智能语音功能可用于搜索电视剧/电影/短视频等,尤其是对于识字不多的小孩或者老人,智能语音功能提供了较大的便利。
[0003]当用户使用智能语音功能搜索影片时,通常通过识别语音信息中的标签,将标签与媒资标签体系中的媒资标签进行比对,以返回与对应标签匹配的媒资标签所对应的影片。通常,媒资标签体系较为固定,例如包括喜剧、家庭伦理、校园、恐怖、战争等。
[0004]由于利用智能语音功能进行搜索的用户语言习惯不同、用户对象也差异较大,在进行搜索时,用户的高频话术中的标签,与媒体标签体系中书面化表达的媒资标签可能不一致,如用户习惯于查找“打仗片”,而媒体标签中的对应为“战争片”,从而导致无法正确匹配;而且存在大量用户语音中的标签与媒资标签体系中的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种词语相似度确定方法,其特征在于,包括:获取需确定相似度的第一词语和第二词语;基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项集合;基于同义词词林确定第一义项集合中处于叶子结点的第一义项在所述叶子结点中的同义词义项集合,作为第一同义词义项集合,以及确定第二义项集合中处于叶子结点的第二义项在所述叶子结点中的同义词义项集合,作为第二同义词义项集合;根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度;根据所述义项相似度确定所述第一词语和所述第二词语之间的相似度。2.根据权利要求1所述的词语相似度确定方法,其特征在于,所述根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度的步骤,包括:根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项共同特征和义项差异特征;根据所述义项共同特征和所述义项差异特征确定各第一义项和各第二义项之间的义项相似度。3.根据权利要求2所述的词语相似度确定方法,其特征在于,所述根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项共同特征和义项差异特征的步骤,包括:确定所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项之间的第一相似度;确定所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项之间的第二相似度;根据所述第一相似度和所述第二相似度确定各第一义项和各第二义项之间的义项共同特征;基于各第一义项和各第二义项的最短路径长度,确定各第一义项和各第二义项之间的义项差异特征。4.根据权利要求3所述的词语相似度确定方法,其特征在于,所述根据所述第一相似度和所述第二相似度确定各第一义项和各第二义项之间的义项共同特征的步骤,包括:将第二相似度按照从高到低的顺序排列,并获取前预设数量的目标第二相似度;获取第一超参数以及预设数量的第二超参数,所述第二超参数与所述目标第二相似度一一对应,所述第一超参数和预设数量的所述第二超参数相加之后的和为一;利用所述第一超参数、所述第二超参数分别与所述第一相似度、所述目标第二相似度进行加权求和,以得到各第一义项和各第二义项之间的义项共同特征。
5.根据权利要求3所述的词语相似度确定方法,其特征在于,所述基于各第一义项和各第二义项的最短路径长度,确定各第一义项和各第二义项之间的义项差异特征的步骤,包括:获取各第一义项和各第二义项的最短路径长度、各第一义项和各第二义项的最近公共父结点;获取所述最近公共父结点所对应的层数权重,以及确定所述最近公共父结点的直接孩子数、各第一义项和各第二义项所在的所述最近公共父结点的分支距离;根据所述最短路径长度、所述层数权重、所述直接孩子数和所述分支距离确定各第一义项和各第二义项之间的义项差异特征...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:深圳TCL新技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1