短语相似度计算方法、存储介质、电子设备及系统技术方案

技术编号:24457810 阅读:66 留言:0更新日期:2020-06-10 16:04
本发明专利技术公开了一种短语相似度计算方法、存储介质、电子设备及系统,涉及数据分析技术领域,该方法包括:选定目标短语以及参照短语,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合;根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度。本发明专利技术基于目标短语以及参照短语的相似分词以及相似区域进行计算,为短语数据的相似度计算提供便利。

Phrase similarity calculation method, storage medium, electronic equipment and system

The invention discloses a phrase similarity calculation method, a storage medium, an electronic device and a system, relating to the technical field of data analysis. The method includes: selecting a target phrase and a reference phrase, dividing the target phrase and forming a target segmentation set, dividing the reference phrase and forming a reference segmentation set, and judging whether the target segmentation set and the reference segmentation set are similar If there is a word segmentation, obtain similar words to form a similar word segmentation set; obtain the location difference value according to the location of similar words in the target word segmentation set and the reference word segmentation set; obtain the absolute location difference value according to the location difference value and the number of reference words in the reference word segmentation set; obtain the absolute location difference value according to the absolute location difference value and the number of target words in the target word segmentation set The similarity between the target phrase and the reference phrase. The invention calculates based on similar segmentation and similar region of target phrase and reference phrase, which provides convenience for similarity calculation of phrase data.

【技术实现步骤摘要】
短语相似度计算方法、存储介质、电子设备及系统
本专利技术涉及数据分析
,具体涉及一种短语相似度计算方法、存储介质、电子设备及系统。
技术介绍
随着直播的发展,直播涉及的内容越来越广泛,观看直播的人越来越多,在直播过程中,用户会将实时的评论以弹幕的形式发布在直播间,并在直播画面上进行显示;而工作人员为了分析不同用户的使用习惯,对大量用户进行分析,则需要对各弹幕数据进行统计和分析,此时则需要对较为相似的弹幕进行统计;现阶段的直播站平台中,每日产生的弹幕量非常巨大,且其中80%以上都是短语弹幕,因此,急需一种新的短语相似度计算方法,以提高工作人员数据分析的工作效率。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种短语相似度计算方法,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利,从而提高工作人员数据分析的工作效率。为达到以上目的,本专利技术采取的技术方案是:第一方面,本专利技术提供一种短语相似度计算方法,其包括以下步骤:选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。需要说明的是,根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值,由于位置差异值是根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置获得的,故而具体绝对位置差异值是指获得目标分词集合与参照分词之间相关联的绝对位置差异值。上述技术方案的基础上,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:其中:A表示所述目标分词集合,B表示所述参照分词集合;S(A,B)为所述相似分词集合,表示所述目标分词集合和所述参照分词集合存在相似分词,表示所述目标分词集合和所述参照分词集合没有相似分词;Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;[0,m)表示0,1,2….m-1;[0,n)表示0,1,2….n-1。上述技术方案的基础上,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:其中:avg表示求平均数运算;j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值。上述技术方案的基础上,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式:上述技术方案的基础上,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:其中,λ表示调整系数,λ∈(1,3)。上述技术方案的基础上,所述语法规则的预设过程包括:获取所述目标短语,并识别所述目标短语的语种,记作目标语种;根据所述目标语种选定与所述目标语种对应的语种语法,作为所述语法规则。第二方面,本专利技术还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的短语相似度计算方法。第三方面,本专利技术还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的短语相似度计算方法。第六方面,本专利技术还提供一种短语相似度计算系统,其包括:短语预处理单元,用于选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;相似分词集合获取单元,其用于判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;位置差异值计算单元,其用于根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;绝对位置差异值计算单元,其用于根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;短语相似度计算单元,其用于根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。在上述技术方案的基础上,所述相似分词集合获取单元配置有相似分词集合计算公式:所述位置差异值计算单元配置有差异值计算公式:所述绝对位置差异值计算单元配置有绝对位置差异值计算公式:所述短语相似度计算单元配置有短语相似度计算公式:其中:A表示所述目标分词集合,B表示所述参照分词集合;S(A,B)为所述相似分词集合,表示所述目标分词集合和所述参照分词集合存在相似分词,表示所述目标分词集合和所述参照分词集合没有相似分词;Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;[0,m)表示0,1,2….m-1;[0,n)表示0,1,2….n-1;avg表示求平均数运算;j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值;λ表示调整系数,λ∈(1,3)。与现有技术相比,本专利技术的优点在于:本专利技术基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利,从而提高工作人员数据分析的工作效率。附图说明图1为本专利技术实施例一提供的一种短语相似度计算方法的步骤流程图;图2为本专利技术实施例二提供的一种短语相似度计算系统的结构框图;图中:1、短语预处理单元;2、相似分词集合获取单元;3、位置差异值计算单元;4、绝对位置差异值计算单元;5、短语相似度计算单元。具体实施方式以下结合附图对本专利技术的实施例作进一步本文档来自技高网...

【技术保护点】
1.一种短语相似度计算方法,其特征在于,其包括以下步骤:/n选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;/n判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;/n根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;/n根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;/n根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。/n

【技术特征摘要】
1.一种短语相似度计算方法,其特征在于,其包括以下步骤:
选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;
判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;
根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;
根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;
根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。


2.如权利要求1所述的方法,其特征在于,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:



其中:
A表示所述目标分词集合,B表示所述参照分词集合;
S(A,B)为所述相似分词集合,表示所述目标分词集合和所述参照分词集合存在相似分词,表示所述目标分词集合和所述参照分词集合没有相似分词;
Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;
m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1。


3.如权利要求2所述的方法,其特征在于,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:



其中:
avg表示求平均数运算;
j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;
|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值。


4.如权利要求3所述的方法,其特征在于,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式:





5.如权利要求4所述的方法,其特征在于,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:



其中,λ表示调整系数,λ∈(1,3)。


6.如权利要求1所述的方法,其特征在于,所述语法规则的预设过程包括:
获取所述目标短语,并识别所述目标短语的语种,记作目标语种;
根据所述目标语种选定与所述目标语种对应的语种语法...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1