一种文本相似度的确定方法及设备技术

技术编号:18083840 阅读:27 留言:0更新日期:2018-05-31 12:23
本发明专利技术公开了一种新的文本相似度的确定方法及设备,能够准确地反映文本本身的相似程度。其中,文本相似度的确定方法包括:获取待确定相似度的第一文本和第二文本;确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。

【技术实现步骤摘要】
一种文本相似度的确定方法及设备
本专利技术涉及计算机
,尤其涉及一种文本相似度的确定方法及设备。
技术介绍
现有技术中判断两个文本的相似度,一般是通过将两个文本进行分词,然后判断两个文本中重复的字词。但是若忽略了文本中的综合信息,例如,文本一“我今天追赶了一只狗”和文本二“一条狗今天追赶了我”,这两个文本语句的意思是相反的,但是按照目前绝大多数相似度算法,这两个文本中的划分的分词几乎一样,所以确定这两个文本的相似度较高,甚至是一样的,显然是不准确的。可见,目前文本的相似度的计算方法得到的相似度的准确性较低,无法反映文本本身的相似程度。
技术实现思路
针对上述问题,本专利技术提供一种新的文本相似度的确定方法及设备,能够准确地反映文本本身的相似程度。为解决上述技术问题,第一方面,提供一种文本相似度的确定方法,该确定方法包括:获取待确定相似度的第一文本和第二文本;确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。可选的,确定所述第一文本和所述第二文本的主题相似度,包括:分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;其中,所述第一预设规则为:其中,Stopic指示两个文本的主题相似度,A指示第一主题向量,B指示第二主题向量,Ai指示第i个第一主题向量,Bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。可选的,确定所述第一文本和所述第二文本的语法相似度,包括:将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;通过斯坦福Stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成;根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度。可选的,所述语法结构包括至少一种语法结构类型,根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度,包括:分别确定所述第一分词集包括语法结构类型及语法结构类型的数量,及所述第二分词集包括语法结构类型及语法结构类型的数量;根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定所述第一文本和所述第二文本的语法相似度;其中,所述第二规则为:其中,Sgrammer指示两个文本之间的语法相似度,sameCount指示所述第一分词集及所述第二分词集中相同语法结构类型的数量,m为所述第一分词集包括的语法结构类型的数量,n为所述第二分词集包括的语法结构类型的数量。可选的,在根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度之前,还包括:确定所述第一分词集及所述第二分词集中的分词的位置相似度;其中,所述位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度,包括:根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度。可选的,根据确定的语法相似度和主题相似度及确定的位置相似度,确定所述第一文本和所述第二文本之间的相似度,包括:通过第三规则确定所述第一文本和所述第二文本之间的相似度,其中,所述第三规则为:S1(Sen1,Sen2)=a*Stopic+(1-a)(b*Sgrammer+(1-b)*(Sposition)),其中S1(Sen1,Sen2指示两个文本之间的相似度,Sposition指示两个文本包括的分词分别在各自的位置相似度,a指示主题权值,b指示语法类型权值。可选的,在获取待确定相似度的第一文本和第二文本之后,所述方法还包括:确定所述第一文本和所述第二文本的情感相似度;根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度,包括:根据确定的语法相似度和主题相似度、位置相似度及所述情感相似度确定所述第一文本和所述第二文本之间的相似度。可选的,确定所述第一文本和所述第二文本的情感相似度,包括:提取所述第一文本及所述第二文本中的至少一个程度副词,其中所述程度副词用于指示对内容在程度上限定的副词;根据获取的至少一个程度副词及程度副词与权值的映射关系,确定所述获取的至少一个程度副词对应的至少一个权值,其中,一个程度副词对应一个权值;根据确定的至少一个权值及第四预设规则,确定所述第一文本和所述第二文本的情感相似度;其中,所述第四预设规则为:CDegSim(Sen1,Sen2)=c*[abs(Deg(Sent1)-Deg(Sent2))]+(1-c)*S1(Sen1,Sen2),其中,CDegSim(Sen1,Sen2)指示两个文本之间的情感相似度,Deg(Sent1)指示第一文本中程度副词的权值,Deg(Sent2)指示第二文本中程度副词的权值,c是句子间程度副词权重差值对句子相似度的影响权值。可选的,根据确定的语法相似度和主题相似度、位置相似度及所述情感相似度确定所述第一文本和所述第二文本之间的相似度,包括:通过相似度模型对确定的语法相似度和主题相似度、位置相似度及所述情感相似度进行分析,确定所述第一文本和所述第二文本之间的相似度;其中,所述相似度模型为通过深度学习网络对文本中的分词的语法、主题、位置及情感词进行学习的逐层训练获得的文本的分词集与情感类别的关系模型,情感类别包括积极情感类别和消极情感类别。第二方面,提供一种文本相似度的确定设备,该确定设备包括:获取单元,用于获取待确定相似度的第一文本和第二文本;第一确定单元,用于确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;第二确定单元,用于根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。可选的,所述第一确定单元具体用于:分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;其中,所述第一预设规则为:其中,Stopic指示两个文本的主题相似度,A指示第一主题向量,B指示第二主题向量,Ai指示第i个第一主题向量,Bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。可选的,所述第一确定单元具体用于:将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;通过斯坦福Stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法本文档来自技高网...
一种文本相似度的确定方法及设备

【技术保护点】
一种文本相似度的确定方法,其特征在于,包括:获取待确定相似度的第一文本和第二文本;确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。

【技术特征摘要】
1.一种文本相似度的确定方法,其特征在于,包括:获取待确定相似度的第一文本和第二文本;确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。2.如权利要求1所述的方法,其特征在于,确定所述第一文本和所述第二文本的主题相似度,包括:分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;其中,所述第一预设规则为:其中,Stopic指示两个文本的主题相似度,A指示第一主题向量,B指示第二主题向量,Ai指示第i个第一主题向量,Bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。3.如权利要求2所述的方法,其特征在于,确定所述第一文本和所述第二文本的语法相似度,包括:将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;通过斯坦福Stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成;根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度。4.如权利要求3所述的方法,其特征在于,所述语法结构包括至少一种语法结构类型,根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度,包括:分别确定所述第一分词集包括语法结构类型及语法结构类型的数量,及所述第二分词集包括语法结构类型及语法结构类型的数量;根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定所述第一文本和所述第二文本的语法相似度;其中,所述第二规则为:其中,Sgrammer指示两个文本之间的语法相似度,sameCount指示所述第一分词集及所述第二分词集中相同语法结构类型的数量,m为所述第一分词集包括的语法结构类型的数量,n为所述第二分词集包括的语法结构类型的数量。5.如权利要求4所述的方法,其特征在于,在根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度之前,还包括:确定所述第一分词集及所述第二分词集中的分词的位置相似度;其中,所述位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度,包括:根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度。6...

【专利技术属性】
技术研发人员:周春郑百成黄妍明方永毅瞿荣蒋运承
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1