一种词条结构的合并方法技术

技术编号:19023341 阅读:28 留言:0更新日期:2018-09-26 19:03
本发明专利技术公开了一种词条结构的合并方法,能够自动将相近的词条结构进行合并,提升了用户检索词条、获取知识的效率。其技术方案为:将词条结构格式转化为文本格式;在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;将合并后的文本格式再转化为词条结构格式。

【技术实现步骤摘要】
一种词条结构的合并方法
本专利技术涉及一种词条结构的合并方法,尤其涉及基于余弦相似度这一参数对词条结构进行合并的方法。
技术介绍
在以词条结构为基础的信息平台上,随着用户数量的增加,会有很多用户对同样的知识体系进行定义和结构化。在用户对词条进行搜索的过程中,一个词条必然会出现众多相同或者相似的解释,这会给用户带来困扰,也会降低知识获取的效率。以前遇到这样的情况,是由信息平台的管理人员手工对相似词条进行合并,然而这种手工合并的方式不仅费时费力,而且受限于管理人员自身的知识储备,手工合并的方式也会存在大量的合并失误。因此,目前业界亟待可自动化的合并相近词条结构的方法。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种词条结构的合并方法,能够自动将相近的词条结构进行合并,提升了用户检索词条、获取知识的效率。本专利技术的技术方案为:本专利技术揭示了一种词条结构的合并方法,包括:步骤一:将词条结构格式转化为文本格式;步骤二:在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;步骤三:将合并后的文本格式再转化为词条结构格式。根据本专利技术的词条结构的合并方法的一实施例,在步骤一中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。根据本专利技术的词条结构的合并方法的一实施例,步骤二进一步包括:步骤1:将第一文档作为合并主体,将第二文档作为合并次体;步骤2:第二文档的根词条遍历第一文档的所有词条,得到相应的余弦相似度;步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;步骤4:若步骤3得到的最大的余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;步骤5:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;步骤6:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤6,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;步骤7:将第二文档作为合并主体,将第一文档作为合并次体;步骤8:第一文档的根词条遍历第二文档的所有词条,得到相应的余弦相似度;步骤9:比较步骤8中得到的余弦相似度,找到最大的余弦相似度的值;步骤10:若步骤9得到的最大的余弦相似度的值大于第一阈值,则执行步骤11,否则执行步骤13;步骤11:记录最大的余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;步骤12:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤12,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;步骤13:重新将第一文档作为合并主体,将第二文档作为合并次体;步骤14:第二文档的根词条遍历第一文档的所有词条的文本,得到相应的余弦相似度;步骤15:比较步骤14中得到的余弦相似度,找到最大的余弦相似度的值;步骤16:若步骤15得到的最大的余弦相似度的值大于第二阈值,则执行步骤17,否则执行步骤18;步骤17:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条;步骤18:将第二文档作为合并主体,将第一文档作为合并次体;步骤19:第一文档的根词条遍历第二文档的所有词条的文本,得到相应的余弦相似度;步骤20:比较步骤19中得到的余弦相似度,找到最大的余弦相似度的值;步骤21:若步骤20得到的最大余弦相似度的值大于第二阈值,则执行步骤22,否则判断两词条文本无相关性;步骤22:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条,合并结束。根据本专利技术的词条结构的合并方法的一实施例,步骤二进一步包括:步骤1:比较第一文档和第二文档的词条数目,将词条数目多的作为合并主体,将词条数目少的作为合并次体;步骤2:合并次体的所有词条遍历合并主体的所有词条,得到相应的余弦相似度;步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;步骤4:若步骤3得到的最大余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;步骤5:记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条,将合并次体中的这一词条合并到合并主体的这一词条中,并保持合并次体不变;步骤6:将合并主体中的合并后的词条的所有子词条进行两两余弦相似度的计算,若余弦相似度大于第一阈值则将两词条合并,合并后的词条重复步骤6,直到最后合并后的词条的所有子词条两两余弦相似度全部小于第一阈值,合并结束;步骤7:合并次体的所有词条遍历合并主体的所有词条的文本,得到相应的余弦相似度;步骤8:比较步骤7得到的余弦相似度,找到最大的余弦相似度的值;步骤9:若步骤8得到的最大余弦相似度的值大于第二阈值,执行步骤10,否则判断两文本无相关性;步骤10:记录最大余弦相似度对应的合并次体中的词条和相应文本对应的合并主体中的词条,将所记录的合并次体的词条合并到所记录的合并主体的词条中,并保持合并次体的文档不变,合并结束。根据本专利技术的词条结构的合并方法的一实施例,计算词条与词条的余弦相似度的过程包括:步骤1:导入gensim数据库;步骤2;将合并主体中的所有词条导入documents列表中,词条与词条用逗号间隔;步骤3:将所有词条向量化;步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;步骤7:导入合并次体的根词条,将其向量化;步骤8:将步骤7中的合并次体的根词条的向量值导入步骤6构建的LSI模型中;步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出合并次体根词条与合并主体中的所有词条的余弦相似度。根据本专利技术的词条结构的合并方法的一实施例,计算词条与文本的余弦相似度的过程包括:步骤1:导入gensim数据库;步骤2:将合并主体中的所有词条对应的文本导入到documents列表中,文本与文本用逗号间隔;步骤3:将所有文本向量化;步骤4:通过步骤3的向量值构建相应的TD_IDF模型;步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;步骤7:导入合并次体根词条,将其向量化;步骤8:将步骤7中的向量值导入到步骤6构建的LSI模型中;步骤9:将步骤3中的向量值导入步骤6构建的本文档来自技高网...

【技术保护点】
1.一种词条结构的合并方法,其特征在于,包括:步骤一:将词条结构格式转化为文本格式;步骤二:在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;步骤三:将合并后的文本格式再转化为词条结构格式。

【技术特征摘要】
1.一种词条结构的合并方法,其特征在于,包括:步骤一:将词条结构格式转化为文本格式;步骤二:在文本格式的基础上,基于词条与词条的余弦相似度以及词条与文本的余弦相似度将多个文本合并为一个文本;步骤三:将合并后的文本格式再转化为词条结构格式。2.根据权利要求1所述的词条结构的合并方法,其特征在于,在步骤一中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。3.根据权利要求1所述的词条结构的合并方法,其特征在于,步骤二进一步包括:步骤1:将第一文档作为合并主体,将第二文档作为合并次体;步骤2:第二文档的根词条遍历第一文档的所有词条,得到相应的余弦相似度;步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;步骤4:若步骤3得到的最大的余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;步骤5:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;步骤6:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤6,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;步骤7:将第二文档作为合并主体,将第一文档作为合并次体;步骤8:第一文档的根词条遍历第二文档的所有词条,得到相应的余弦相似度;步骤9:比较步骤8中得到的余弦相似度,找到最大的余弦相似度的值;步骤10:若步骤9得到的最大的余弦相似度的值大于第一阈值,则执行步骤11,否则执行步骤13;步骤11:记录最大的余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到所记录的合并主体中的对应词条中;步骤12:将合并后的词条的所有子词条进行两两余弦相似度计算,若余弦相似度大于第一阈值,则将两词条合并,合并后的词条再重复进行步骤12,直到最后合并后的词条的所有子词条的两两余弦相似度全部小于第一阈值后结束;步骤13:重新将第一文档作为合并主体,将第二文档作为合并次体;步骤14:第二文档的根词条遍历第一文档的所有词条的文本,得到相应的余弦相似度;步骤15:比较步骤14中得到的余弦相似度,找到最大的余弦相似度的值;步骤16:若步骤15得到的最大的余弦相似度的值大于第二阈值,则执行步骤17,否则执行步骤18;步骤17:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条;步骤18:将第二文档作为合并主体,将第一文档作为合并次体;步骤19:第一文档的根词条遍历第二文档的所有词条的文本,得到相应的余弦相似度;步骤20:比较步骤19中得到的余弦相似度,找到最大的余弦相似度的值;步骤21:若步骤20得到的最大余弦相似度的值大于第二阈值,则执行步骤22,否则判断两词条文本无相关性;步骤22:记录最大余弦相似度的值对应的合并主体中的词条,将合并次体的根词条合并到对应的合并主体中的所记录的词条,合并结束。4.根据权利要求1所述的词条结构的合并方法,其特征在于,步骤二进一步包括:步骤1:比较第一文档和第二文档的词条数目,将词条数目多的作为合并主体,将词条数目少的作为合并次体;步骤2:合并次体的所有词条遍历合并主体的所有词条,得到相应的余弦相似度;步骤3:比较步骤2中得到的余弦相似度,找到最大的余弦相似度的值;步骤4:若步骤3得到的最大余弦相似度的值大于第一阈值,则执行步骤5,否则执行步骤7;步骤5:记录最大余弦相似度对应的在合并主体以及合并次体中的两个词条,将合并...

【专利技术属性】
技术研发人员:马也驰谭红
申请(专利权)人:上海颐为网络科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1