文本相似度确定方法、装置、电子设备及系统制造方法及图纸

技术编号:12393682 阅读:74 留言:0更新日期:2015-11-26 01:13
本发明专利技术实施例提供一种文本相似度确定方法、装置、电子设备及系统,其中方法包括:获取至少两个文本;将所获取的各文本映射到主题空间;对映射至所述主题空间的各文本对应的向量进行降维处理;确定降维处理后的各文本所对应的表征文本特征的哈希函数;将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。本发明专利技术实施例在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度的计算效率。

【技术实现步骤摘要】

本专利技术涉及数据处理
,更具体地说,涉及一种文本相似度确定方法、装 置、电子设备及系统。
技术介绍
文本相似度是指不同文本之间的语意关联程度,文本相似度的确定是文本挖掘和 文本检索的核心工作之一,因此如何更好的进行文本相似度的确定一直是本领域技术人员 极为关注的问题。 -般来说,单个文本可以直接表示为文本在单词空间中的一个向量,而文本相似 度的计算则可以转化为向量之间欧氏距离或余弦距离的计算。在此基础上,现有技术进行 文本相似度的确定方式主要为:将文本映射成单词空间中的一个向量,计算向量之间欧氏 距离或余弦距离,再采用倒排索引或位置敏感哈希算法对文本进行索引,从而提高文本相 似度确定的效率。 本专利技术的专利技术人在实现本专利技术的过程中发现:现有确定文本相似度的方式只是在 单词空间进行文本相似度的确定,并没有考虑文本特征之间的关联和语义信息,因而一部 分相似度的信息有可能丢失,使得所确定的文本相似度并不准确。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本相似度确定方法、装置、电子设备及系统, 以解决现有确定文本相似度的方式存在的所确定的文本相似度并不准确的问题。 为实现上述目的,本专利技术实施例提供如下技术方案: -种文本相似度确定方法,包括: 获取至少两个文本; 将所获取的各文本映射到主题空间; 对映射至所述主题空间的各文本对应的向量进行降维处理; 确定降维处理后的各文本所对应的表征文本特征的哈希函数; 将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码, 各文本所对应的二进制编码的长度一致; 通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明 距离确定文本之间的文本相似度。 本专利技术实施例还提供一种文本相似度确定装置,包括: 文本获取模块,用于获取至少两个文本; 映射模块,用于将所获取的各文本映射到主题空间; 降维模块,用于对映射至所述主题空间的各文本对应的向量进行降维处理; 哈希函数确定模块,用于确定降维处理后的各文本所对应的表征文本特征的哈希 函数; 二值化处理模块,用于将各文本所对应的哈希函数进行二值化处理,得到各文本 所对应的二进制编码,各文本所对应的二进制编码的长度一致; 海明距离确定模块,用于通过各文本对应的二进制编码,确定文本之间的海明距 离; 相似度确定模块,用于通过文本之间的海明距离确定文本之间的文本相似度。 本专利技术实施例还提供一种电子设备,包括上述所述的文本相似度确定装置。 本专利技术实施例还提供一种文本相似度确定系统,包括:多个终端设备和网络服务 器; 其中,所述多个终端设备,用于将各终端设备的文本上传至所述网络服务器; 所述网络服务器,用于获取各终端设备上传的文本,将所获取的各文本映射到主 题空间,对映射至所述主题空间的各文本对应的向量进行降维处理,确定降维处理后的各 文本所对应的表征文本特征的哈希函数,将各文本所对应的哈希函数进行二值化处理,得 到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致,通过各文本对应 的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本 相似度。 基于上述技术方案,本专利技术实施例提供的文本相似度确定方法,将获取到的各文 本映射至主题空间,将对映射至主题空间的各文本进行降维处理,通过确定降维处理后的 各文本所对应的表征文本特征的哈希函数,得到各文本所对应的二进制编码,通过各文本 对应的二进制编码,确定文本之间的海明距离,进而通过文本之间的海明距离确定文本之 间的文本相似度,实现文本之间相似度的确定。本专利技术实施例提供的文本相似度确定方法, 将文本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中 涉及到文本特征之间的关联和语义信息,使得文本相似度的确定具有更高的准确性,同时 将文本之间文本相似度的计算转变为对文本之间的对应海明距离的计算,可使得文本之间 文本相似度的计算量大幅减小,极大的提高了文本之间文本相似度计算的效率。本专利技术实 施例在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了 文本相似度的计算效率。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为本专利技术实施例提供的文本相似度确定方法的流程图; 图2为本专利技术实施例提供的文本由单词空间映射至主题空间的示意图; 图3为本专利技术实施例提供的文本之间海明距离确定示意图; 图4为本专利技术实施例提供的确定哈希函数的方法流程图; 图5为本专利技术实施例提供的文本相似度确定方法的另一流程图; 图6为本专利技术实施例提供的文本相似度确定装置的结构框图; 图7为本专利技术实施例提供的哈希函数确定模块的结构框图; 图8为本专利技术实施例提供的计算单元的结构框图; 图9为本专利技术实施例提供的二值化处理模块的结构框图; 图10为本专利技术实施例提供的文本相似度确定装置的另一结构框图; 图11为本专利技术实施例提供的电子设备的硬件结构框图; 图12为本专利技术实施例提供的文本相似度确定系统的结构框图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 图1为本专利技术实施例提供的文本相似度确定方法的流程图,该方法可应用于用户 侦U设备(如笔记本电脑、手机等终端设备),也可应用于网络侧设备(如服务器等设备),参 照图1,该方法可以包括: 步骤S100、获取至少两个文本; 可选的,至少两个文本可以包括海量文本,本专利技术实施例可对海量文本中文本间 的相似度进行确定。本专利技术实施例中文本的数据来源可以来自于各种不同渠道,本专利技术实 施例对此并不设限;如对于用户侧设备而言,可以是从网络所获取的文本,也可以是本地存 储的文本;如对于网络侧设备而言,可以是所采集的各用户侧设备上传至网络的文本。 步骤S110、将所获取的各文本映射到主题空间; 可选的,本专利技术实施例可通过潜在语意分析(LSA)、概率潜在语意分析(pLSA)、潜 在狄利克雷分配(LDA)和W〇rd2 vec等主题建模技术,将所获取的各文本映射到主题空间 中,主题空间的主题个数可依据需要进行设定。 为使文本至主题空间的映射更为准确,本专利技术实施例可将文本先映射至单词空间 (即由单词构成的特征空间),再将文本由单词空间映射到主题空间,图2示出了文本由单 词空间映射至主题空间的示意图,可进行参照 由于主题空间的主题是基于文本特征之间的关联信息和语义信息建立,因此将文 本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中涉及 到文本特征之间的关联信息和语义信息,相比与现有仅将文本映射到单词空间进行文本相 似度确定的方式可具有更高的相似度确定准确性。 步骤S120、对映射至所述主题空间的各文本对应的向量进行降本文档来自技高网...

【技术保护点】
一种文本相似度确定方法,其特征在于,包括:获取至少两个文本;将所获取的各文本映射到主题空间;对映射至所述主题空间的各文本对应的向量进行降维处理;确定降维处理后的各文本所对应的表征文本特征的哈希函数;将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘洋李霖刘黎春陈川
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1