一种文本相似度的确定方法及设备技术

技术编号：18083840 阅读：27 留言：0更新日期：2018-05-31 12:23

本发明专利技术公开了一种新的文本相似度的确定方法及设备，能够准确地反映文本本身的相似程度。其中，文本相似度的确定方法包括：获取待确定相似度的第一文本和第二文本；确定所述第一文本的语法相似度、主题相似度，及确定所述第二文本的语法相似度、主题相似度；根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度的确定方法及设备
本专利技术涉及计算机
，尤其涉及一种文本相似度的确定方法及设备。
技术介绍
现有技术中判断两个文本的相似度，一般是通过将两个文本进行分词，然后判断两个文本中重复的字词。但是若忽略了文本中的综合信息，例如，文本一“我今天追赶了一只狗”和文本二“一条狗今天追赶了我”，这两个文本语句的意思是相反的，但是按照目前绝大多数相似度算法，这两个文本中的划分的分词几乎一样，所以确定这两个文本的相似度较高，甚至是一样的，显然是不准确的。可见，目前文本的相似度的计算方法得到的相似度的准确性较低，无法反映文本本身的相似程度。
技术实现思路
针对上述问题，本专利技术提供一种新的文本相似度的确定方法及设备，能够准确地反映文本本身的相似程度。为解决上述技术问题，第一方面，提供一种文本相似度的确定方法，该确定方法包括：获取待确定相似度的第一文本和第二文本；确定所述第一文本的语法相似度、主题相似度，及确定所述第二文本的语法相似度、主题相似度；根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。可选的，确定所述第一文本和所述第二文本的主题相似度，包括：分别将所述第一文本和所述第二文本映射至主题空间；其中，所述第一文本及所述第二文本分别对应至少一个主题；获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量；根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则，确定所述第一文本和所述第二文本的主题相似度；其中，所述第一预设规则为：其中，Stopic指示两个文本的主题相似度...
一种文本相似度的确定方法及设备

【技术保护点】
一种文本相似度的确定方法，其特征在于，包括：获取待确定相似度的第一文本和第二文本；确定所述第一文本的语法相似度、主题相似度，及确定所述第二文本的语法相似度、主题相似度；根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。

【技术特征摘要】
1.一种文本相似度的确定方法，其特征在于，包括：获取待确定相似度的第一文本和第二文本；确定所述第一文本的语法相似度、主题相似度，及确定所述第二文本的语法相似度、主题相似度；根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。2.如权利要求1所述的方法，其特征在于，确定所述第一文本和所述第二文本的主题相似度，包括：分别将所述第一文本和所述第二文本映射至主题空间；其中，所述第一文本及所述第二文本分别对应至少一个主题；获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量；根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则，确定所述第一文本和所述第二文本的主题相似度；其中，所述第一预设规则为：其中，Stopic指示两个文本的主题相似度，A指示第一主题向量，B指示第二主题向量，Ai指示第i个第一主题向量，Bi指示第i个第二主题向量，n指示第一主题向量或第二主题向量的个数，i大于等于1且小于等于n。3.如权利要求2所述的方法，其特征在于，确定所述第一文本和所述第二文本的语法相似度，包括：将所述第一文本中的语句进行分割获得第一分词集，并将所述第二文本中的语句进行分割获得第二分词集；通过斯坦福Stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成；根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成，确定所述第一文本和所述第二文本的语法相似度。4.如权利要求3所述的方法，其特征在于，所述语法结构包括至少一种语法结构类型，根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成，确定所述第一文本和所述第二文本的语法相似度，包括：分别确定所述第一分词集包括语法结构类型及语法结构类型的数量，及所述第二分词集包括语法结构类型及语法结构类型的数量；根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量，及第二规则确定所述第一文本和所述第二文本的语法相似度；其中，所述第二规则为：其中，Sgrammer指示两个文本之间的语法相似度，sameCount指示所述第一分词集及所述第二分词集中相同语法结构类型的数量，m为所述第一分词集包括的语法结构类型的数量，n为所述第二分词集包括的语法结构类型的数量。5.如权利要求4所述的方法，其特征在于，在根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度之前，还包括：确定所述第一分词集及所述第二分词集中的分词的位置相似度；其中，所述位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度；根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度，包括：根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度。6...

【专利技术属性】
技术研发人员：周春，郑百成，黄妍明，方永毅，瞿荣，蒋运承，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人