确定词语相似度的方法及装置制造方法及图纸

技术编号:11593937 阅读:58 留言:0更新日期:2015-06-11 02:30
本公开是关于一种确定词语相似度的方法及装置。所述方法,包括:从短文本中获取多个结构词;针对多个结构词中的每两个结构词,将两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;确定两个结构词共同匹配成功的模板的共同模板数量;根据共同模板数量和两个结构词分别对应的模板数量,确定两个结构词之间的结构相似度;在预设短文本集合中,确定两个结构词共同匹配成功的短文本的共同短文本数量;根据共同短文本数量,确定两个结构词之间的校正值;根据结构相似度及校正值,计算两个结构词之间的相似度。利用简单的算法计算两个词之间的相似度,节约了大量的计算量,并且提高了计算的准确度。

【技术实现步骤摘要】
确定词语相似度的方法及装置
本公开涉及计算机领域,尤其涉及确定词语相似度的方法及装置。
技术介绍
相关技术中,在人工智能中的自然语言处理领域中,自然语言的处理内容,包括:命名实体识别,词性标注,短文本聚类,知识抽提,信息检索等。其中,短文本聚类是知识抽提的必要环节,可以用短文本的模板来抽取短文本中的知识点。短文本聚类的依据就是短文本的相似度。而短文本之间的相似度则是短文本中每个词的相似度所决定的。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种确定词语相似度的方法。利用简单的算法计算两个词之间的相似度,节约了大量的计算量,并且提高了计算的准确度。根据本公开实施例的第一方面,提供一种确定词语相似度的方法,包括:从短文本中获取多个结构词;针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;确定所述两个结构词共同匹配成功的模板的共同模板数量;根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度;在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数量;根据所述共同短文本数量,确定所述两个结构词之间的校正值;根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。本公开的实施例提供的技术方案可以包括以下有益效果:通过根据两个结构词上下文的信息计算两个结构词的结构相似度,再根据两个结构词出现在相同短文本中的次数,计算两个结构词之间的校正值,根据结构相似度及校正值,计算两个结构词之间的相似度。利用简单的算法计算两个结构词之间的相似度,节约了大量的计算量,并且提高了计算的准确度。所述根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度是通过以下公式计算,所述公式包括:其中,Ss为两个结构词之间的结构相似度,T为两个结构词共同匹配成功的模板的共同模板数量,Ta为一个结构词匹配成功的模板的数量,Tb为另一个结构词匹配成功的模板的数量。本公开的实施例提供的技术方案可以包括以下有益效果:通过计算公式计算出的结构相似度时,只需要获得两个结构词共同匹配成功的模板的共同模板数量及与两个结构词分别匹配成功的模板的数量,即可计算两个结构词之间的结构相似度,节省了计算相似度时所需要的大量运算资源。所述根据所述共同短文本数量,确定所述两个结构词之间的校正值是通过以下公式计算,所述公式包括:C=(W+1)θ;其中,C为两个结构词之间的校正值,W为所述两个结构词共同匹配成功的短文本的共同短文本数量,θ为校正系数,θ为正整数。本公开的实施例提供的技术方案可以包括以下有益效果:根据用词习惯,在同一个短文本中同一意思使用相同的结构描述,因此,在同一个短文本中出现的两个结构词认为这两个词的意思不相同。通过两个结构词共同匹配成功的短文本的共同短文本数量,可以准确的计算出两个结构词之间的校正值,用以降低在同一短文本中同时出现的两个结构词之间的相似度。所述根据所述结构相似度及校正值,计算所述两个结构词之间的相似度是通过以下公式计算,所述公式包括:其中,S为所述两个结构词之间的相似度。本公开的实施例提供的技术方案可以包括以下有益效果:通过结构相似度及校正值,计算两个结构词之间的相似度,节省了计算相似度时所需要的大量运算资源。所述确定匹配成功的模板和模板数量,还包括:获得模板出现的次数;当模板出现的次数大于预设阈值时,根据所述模板出现的次数从多到少的顺序进行排列;确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板,其中,N为预设的正整数。本公开的实施例提供的技术方案可以包括以下有益效果:由于不同的短文本可能生成相同的模块,通过模板出现次数可以确定不同的短文本的次数,因此,确定的匹配成功的模板更具有代表性,使计算结构相似度时更准确。所述模板是通过以下方式生成的:从预设的短文本集合中获取短文本;在所述短文本中根据除顿号以外的分隔符号,确定两个分隔符号之间的文本段为短句;确定所述短句中的结构词;根据所述结构词及所述短句中词语的词性,生成模板。本公开的实施例提供的技术方案可以包括以下有益效果:通过结构词及短句中词语的记性,生成模板。可以仅利用简单的数据结构生成模板,减少了模板生成时所需的运算资源。根据本公开实施例的第二方面,提供一种确定词语相似度的装置,包括:第一获取模块,用于从短文本中获取多个结构词;第一确定模块,用于针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;第二确定模块,用于确定所述两个结构词共同匹配成功的模板的共同模板数量;第三确定模块,用于根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度;第四确定模块,用于在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数量;第五确定模块,用于根据所述共同短文本数量,确定所述两个结构词之间的校正值;计算模块,用于根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。所述第一确定模块,还包括:获得子模块,用于获得模板出现的次数;排序子模块,用于当模板出现的次数大于预设阈值时,根据所述模板出现的次数从多到少的顺序进行排列;确定子模块,用于确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板,其中,N为预设的正整数。所述模板是通过以下装置生成的:第二获取模块,用于从预设的短文本集合中获取短文本;第六确定模块,用于在所述短文本中根据除顿号以外的分隔符号,确定两个分隔符号之间的文本段为短句;第七确定模块,用于确定所述短句中的结构词;生成模块,用于根据所述结构词及所述短句中词语的词性,生成模板。根据本公开实施例的第三方面,提供一种确定词语相似度的装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:从短文本中获取多个结构词;针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;确定所述两个结构词共同匹配成功的模板的共同模板数量;根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度;在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数量;根据所述共同短文本数量,确定所述两个结构词之间的校正值;根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种确定词语相似度的方法的流程图。图2是根据一示例性实施例示出的一种确定词语相似度的方法的详细流程图。图3是根据一示例性实施例示出的一种确定词语相似度的方法的模板生成方法的流程图。图4是根据一示例性实施例示出的一种确定词语相似度的装置的框图。图5是根据一示例性实施例示出的一种确定词语相似度的装置中第一确定模块的框图。图6是根据一示例性实施例示出的一种确定词语相似度的装置中模板本文档来自技高网...
确定词语相似度的方法及装置

【技术保护点】
一种确定词语相似度的方法,其特征在于,包括:从短文本中获取多个结构词;针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;确定所述两个结构词共同匹配成功的模板的共同模板数量;根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度;在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数量;根据所述共同短文本数量,确定所述两个结构词之间的校正值;根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。

【技术特征摘要】
1.一种确定词语相似度的方法,其特征在于,包括:从短文本中获取多个结构词;针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;确定所述两个结构词共同匹配成功的模板的共同模板数量;根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度;在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数量;根据所述共同短文本数量,确定所述两个结构词之间的校正值;根据所述结构相似度及校正值,计算所述两个结构词之间的相似度;所述根据所述结构相似度及校正值,计算所述两个结构词之间的相似度是通过以下公式计算,所述公式包括:其中,S为所述两个结构词之间的相似度,Ss为两个结构词之间的结构相似度,C为两个结构词之间的校正值。2.如权利要求1所述的方法,其特征在于,所述根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词之间的结构相似度是通过以下公式计算,所述公式包括:其中,T为两个结构词共同匹配成功的模板的共同模板数量,Ta为一个结构词匹配成功的模板的数量,Tb为另一个结构词匹配成功的模板的数量。3.如权利要求1所述的方法,其特征在于,所述根据所述共同短文本数量,确定所述两个结构词之间的校正值是通过以下公式计算,所述公式包括:C=(W+1)θ;其中,W为所述两个结构词共同匹配成功的短文本的共同短文本数量,θ为校正系数,θ为正整数。4.如权利要求1所述的方法,其特征在于,所述确定匹配成功的模板和模板数量,还包括:获得模板出现的次数;当模板出现的次数大于预设阈值时,根据所述模板出现的次数从多到少的顺序进行排列;确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板,其中,N为预设的正整数。5.如权利要求1所述的方法,其特征在于,所述模板是通过以下方式生成的:从预设的短文本集合中获取短文本;在所述短文本中根据除顿号以外的分隔符号,确定两个分隔符号之间的文本段为短句;确定所述短句中的结构词;根据所述结构词及所述短句中词语的词性,生成模板。6.一种确定词语相似度的装置,其特征在于,包括:第一获取模块,用于从短文本中获取多个结构词;第一确定模块,用于针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量...

【专利技术属性】
技术研发人员:刘毅超汪平仄代阳
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1