一种主题相似度确定方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32345581 阅读:17 留言:0更新日期:2022-02-20 02:00
本发明专利技术实施例提出了一种主题相似度确定方法、装置、电子设备和计算机存储介质,该方法包括:从语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词,从所述至少两个主题词中选择两个需要计算相似度的主题词;根据两个主题词,得出两个主题词的文本结构相似度;根据所述两个主题词和所述两个主题词各自对应的情感词,得出两个主题词的语义相似度;根据两个主题词的文本结构相似度和语义相似度,确定两个主题词的相似度。本发明专利技术实施例结合两种相似度,计算出两个主题词的相似性;在语义结构相似性计算的基础上考虑了文本结构的相似性,在一定程度上能够提高主题相似度计算的准确率。算的准确率。算的准确率。

【技术实现步骤摘要】
一种主题相似度确定方法、装置、电子设备和存储介质


[0001]本专利技术涉及文本挖掘领域,提出了一种评论主题相似度确定方法、装置、电子设备和计算机存储介质,可用于聚类同义主题等数据挖掘任务中。

技术介绍

[0002]主题相似度计算是文本挖掘
中一项至关重要的技术,是自然语言处理中基础研究和应用研究的桥梁之一,可用于主题类情感分析、观点挖掘、特征聚类、情感词典自动构建等各项应用研究中。主题相似度计算可用于聚类同义主题。
[0003]在相关技术中,为了确定主题相似度,仅仅从主题词的语义方面进行考虑,从而,计算得到的主题相似度的准确性较低。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种主题相似度确定方法、装置、电子设备和计算机存储介质,针对语料规模大、主题文本结构重复多的评论语料,提高主题相似度计算的正确率。
[0005]本专利技术实施例的主题相似度确定方法包括:
[0006]从语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词,从所述至少两个主题词中选择两个需要计算相似度的主题词;
[0007]根据选择的两个主题词,得出所述两个主题词的文本结构相似度;
[0008]根据所述两个主题词和所述两个主题词各自对应的情感词,得出所述两个主题词的语义相似度;
[0009]根据所述两个主题词的文本结构相似度和语义相似度,确定所述两个主题词的相似度。
[0010]本专利技术实施例还提供了一种主题相似度确定装置,所述装置包括提取模块、第一处理模块和第二处理模块,其中,
[0011]提取模块,用于从语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词,从所述至少两个主题词中选择两个需要计算相似度的主题词;
[0012]第一处理模块,用于根据所述两个主题词,得出所述两个主题词的文本结构相似度;根据所述两个主题词和所述两个主题词各自对应的情感词,得出所述两个主题词的语义相似度;
[0013]第二处理模块,用于根据所述两个主题词的文本结构相似度和语义相似度,确定所述两个主题词的相似度。
[0014]本专利技术实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一种主题相似度确定方法。
[0015]本专利技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机
程序被终端的处理器执行时实现上述任意一种主题相似度确定方法。
[0016]本专利技术实施例中,从语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词,从所述至少两个主题词中选择两个需要计算相似度的主题词;根据选择的两个主题词,得出所述两个主题词的文本结构相似度;根据所述两个主题词和所述两个主题词各自对应的情感词,得出所述两个主题词的语义相似度;根据所述两个主题词的文本结构相似度和语义相似度,确定所述两个主题词的相似度。本专利技术实施例结合两种相似度,计算出两个主题词的相似性;部分评论提炼的主题文本自身重合率很高,如教学评论中的“氛围”、“气氛”、“课堂氛围”,而本专利技术实施例在语义结构相似性计算的基础上考虑了文本结构的相似性,在一定程度上能够提高主题相似度计算的准确率。
[0017]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本专利技术。
附图说明
[0018]图1为相关技术中用于计算相似度的购买关系二部图;
[0019]图2为本专利技术实施例的主题相似度确定方法的流程图;
[0020]图3为本专利技术实施例中一个句子的依存关系的示意图;
[0021]图4为本专利技术实施例中四个主题词和对应的情感词构成的二部图示例图;
[0022]图5为本专利技术实施例中主题相似度确定方法的一个具体示例的流程图;
[0023]图6为本专利技术实施例的主题相似度确定装置的组成结构示意图;
[0024]图7为本专利技术实施例的电子设备的结构示意图。
具体实施方式
[0025]在相关技术中,一种主题相似度的确定方案可以由以下三种方法实现:1)在词典中的相似度计算;2)根据词频-逆向文件频率(Term Frequency

Inverse Document Frequency,TF-IDF)算法,确定特征向量权重,并将相应的余弦值作为相似度值;3)使用权重标准化SimRank(Weight Normalized SimRank,WNS)方法来计算主题的相似度,其中二部图的构建采用了主题和上下文词汇,权重采用了主题和主题上下文的互信息。
[0026]在上述主题相似度的确定方案中,TF-IDF算法是一种用于信息检索与数据挖掘的常用加权算法,TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
[0027]SimRank是一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的模型,SimRank相似度的核心思想为:若两个实体相似,那与其相关的实体也相似。近年来已在信息检索领域引起广泛关注,成功应用于网页排名、协同过滤、孤立点检测、网络图聚类、近似查询处理等。
[0028]在一个示例中,图1为相关技术中用于计算相似度的购买关系二部图,如图1所示,A和B表示消费者,右边的四个节点表示四个不同的产品,分别为糖、糖霜、鸡蛋、花。参照图
1,SimRank的思想为:消费者之间的相似度等于他们购买物品的相似度。如果A不等于B,则A和B的相似度计算公式如式(1)所示:
[0029][0030]其中,|I(A)|表示节点A的入度(即节点A的入边源节点的总数),I(B)表示节点B的入度(即节点B的入边源节点的总数),I
i
(A)和I
j
(B)分别表示节点A的第i个入边源节点和节点B第j个源节点,C是设定的阻尼因子,C∈(0,1)。当A=B时,A和B的相似度S(A,B)=1。
[0031]上述主题相似度的确定方案存在以下技术问题:1)该方案进行相似度计算时,依赖于主题的上下文,而主题上下文环境信息量很多,也很杂乱;该方案引入了过多无意义的上下文词语,会带来很多噪音;2)采用全部上下文信息作为相似度计算的特征,导致算法执行耗时长;3)当语料如评论中两个主题文本有相同结构时,会提高同义主题的概率,该方案没有利用到这点。
[0032]针对上述技术问题,以下结合附图及实施例,对本专利技术进行进一步详细说明。
[0033]本专利技术实施例提出了一种主题相似度确定方法,图2为本专利技术实施例的主题相似度确定方法的流程图,如图2所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主题相似度确定方法,其特征在于,所述方法包括:从语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词,从所述至少两个主题词中选择两个需要计算相似度的主题词;根据选择的两个主题词,得出所述两个主题词的文本结构相似度;根据所述两个主题词和所述两个主题词各自对应的情感词,得出所述两个主题词的语义相似度;根据所述两个主题词的文本结构相似度和语义相似度,确定所述两个主题词的相似度。2.根据权利要求1所述的方法,其特征在于,所述从语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词,包括:通过分析所述语料,确定适用于所述语料的依存句法提取规则,所述依存句法提取规则表示基于所述语料中词语之间的依存关系得到的规则;基于确定的所述依存句法提取规则,从所述语料中提取至少两个主题词和所述至少两个主题词各自对应的情感词。3.根据权利要求1所述的方法,其特征在于,所述根据选择的两个主题词,得出所述两个主题词的文本结构相似度,包括:根据以下公式计算所述两个主题词的文本结构相似度:其中,C和D分别表示所述两个主题词,LCS(C,D)表示C和D的最长公共子序列,len(
·
)表示对括号中的内容求词长。4.根据权利要求1所述的方法,其特征在于,所述根据所述两个主题词和所述两个主题词各自对应的情感词,得出所述两个主题词的语义相似度,包括:以所述语料抽取的主题情感词对,构建二部图;所述主题情感词对包括所述两个主题词和所述两个主题词各自对应的情感词;根据所述二部图,得出所述两个主题词的语义相似度。5.根据权利要求4所述的方法,其特征在于,所述根据所述二部图,得出所述两个主题词的语义相似度,包括:在所述二部图中,确定每个主题词和每个主题词对应的情感词的连线的...

【专利技术属性】
技术研发人员:严霞
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1