一种近似词条结构推荐方法和系统技术方案

技术编号:19023343 阅读:35 留言:0更新日期:2018-09-26 19:03
本发明专利技术公开了一种近似词条结构推荐方法和系统,能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考,提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。其技术方案为:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。

【技术实现步骤摘要】
一种近似词条结构推荐方法和系统
本专利技术涉及一种近似词条结构的推荐方法和系统,尤其涉及基于余弦相似度这一参数对词条结构进行推荐的技术。
技术介绍
在以词条结构为基础的信息平台上,随着用户数量的增加,会有很多用户对同样的知识体系进行定义和结构化。当用户在系统中为了建立一个词条结构而新建一个根词条时,往往在系统中已经存储了和该新建根词条类似的词条结构。在以往的信息平台上,即使存在类似的词条结构,也不会告知新建根词条的用户,信息平台上已知的词条结构便不能为该用户服务。用户依然在没有任何参考的情况下建立词条结构,这会造成用户在信息平台上的使用效率的降低。而且容易导致平台上产生大量结构格式相似的词条,不利于平台上的信息整理和显示。因此,目前业界亟待一种能够自动将系统中已存的近似词条结构获取出来并提供给用户进行参考的手段。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种近似词条结构推荐方法和系统,能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考,提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。本专利技术的技术方案为:本专利技术揭示了一种近似词条结构推荐方法,包括:步骤一:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;步骤二:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;步骤三:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。根据本专利技术的近似词条结构推荐方法的一实施例,词条结构格式转化为文本格式的过程中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。根据本专利技术的近似词条结构推荐方法的一实施例,步骤二进一步包括:步骤1:导入gensim数据库;步骤2;将现有的所有词条导入documents列表中,词条与词条用逗号间隔;步骤3:将现有的所有词条向量化;步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;步骤7:导入用户新建的根词条,将其向量化;步骤8:将步骤7中的新建的根词条的向量值导入步骤6构建的LSI模型中;步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出新建的根词条与现有的所有词条的余弦相似度。根据本专利技术的近似词条结构推荐方法的一实施例,在步骤三的在将文本格式转化为词条结构格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。根据本专利技术的近似词条结构推荐方法的一实施例,在步骤三进一步包括:步骤1:使用redishash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出给到某一对象;步骤2:web前端加载D3.js开源库;步骤3:使用d3.layout.tree命令定义一个tree对象,并确定图像区域大小;步骤4:web前端向服务器请求数据,服务器将步骤1的对象按照JSON格式传到web前端中;步骤5:根据步骤4的JSON数据生成节点集合nodes;步骤6:根据nodes集合生成节点;步骤7:使用tree.links(nodes)命令获取节点关系集合;步骤8:为关系集合设置贝塞尔曲线连接;步骤9:为节点添加圆形标记,如果有子节点为黑色,否则白色;步骤10:根据JSON数据的document属性为节点添加说明文字;步骤11:完成文本格式到结构格式的转化。本专利技术还揭示了一种近似词条结构推荐系统,包括:文本格式转化模块,将根词条的结构格式转化为文本格式;存储模块,存储所有词条的结构格式及其对应的文本格式;余弦相似度对比模块,将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比,筛选出余弦相似度高于预设阈值的已有根词条的文本格式并输出为词条结构格式;结构格式转化模块,将根词条的文本格式转化为词条的结构格式。根据本专利技术的近似词条结构推荐系统的一实施例,在文本格式转化模块中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。根据本专利技术的近似词条结构推荐系统的一实施例,结构格式转化模块中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。附图说明图1示出了本专利技术的近似词条结构推荐方法的实施例的流程图。图2示出了本专利技术举例用的两个词条结构。图3示出了本专利技术的计算词条与词条的余弦相似度的流程图。图4示出了本专利技术的文本格式转化为词条结构格式的流程图。图5示出了本专利技术的近似词条结构推荐系统的实施例的原理图。具体实施方式在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。近似词条结构推荐方法的实施例图1示出了本专利技术的近似词条结构推荐方法的实施例的实现,在本实施例的描述中,用图2所示的两个词条结构来举例,分别为图2中所示的词条结构1和词条结构2。步骤S1:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储。词条属性包括词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。现在网络的结构化显示多采用D3开源库,即D3开源库将存储在服务器的词条按照树状图的方式显示。词条属性按照键值对进行存储,即是一个string类型的field和value的映射表,因此hash(哈希)存储方式适用于上述存储。web后台使用Key-Value数据库redis存储词条以及词条属性,创建的每个词条的词条属性按照hash存储方式存储在数据库redis中。需要格式转化时,使用redishash的基本命令hgetall将根词条的属性以及根词条所有子词条的属性取出。以图2为例,词条结构在数据库中的局部存储信息示例如下:文本1:标题1XXXXXX这是标题1的内容XXXXXX第一章XXXXXX第一章的内容XXXXXX第一节XXX本文档来自技高网...

【技术保护点】
1.一种近似词条结构推荐方法,其特征在于,包括:步骤一:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;步骤二:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;步骤三:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。

【技术特征摘要】
1.一种近似词条结构推荐方法,其特征在于,包括:步骤一:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;步骤二:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;步骤三:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。2.根据权利要求1所述的近似词条结构推荐方法,其特征在于,词条结构格式转化为文本格式的过程中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。3.根据权利要求1所述的近似词条结构推荐方法,其特征在于,步骤二进一步包括:步骤1:导入gensim数据库;步骤2;将现有的所有词条导入documents列表中,词条与词条用逗号间隔;步骤3:将现有的所有词条向量化;步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;步骤7:导入用户新建的根词条,将其向量化;步骤8:将步骤7中的新建的根词条的向量值导入步骤6构建的LSI模型中;步骤9:将步骤3中的词条的向量值导入步骤6构建的LSI模型中,并构建余弦相似度计算模型;步骤10:将步骤8得到的值导入到余弦相似度计算模型中,输出新建的根词条与现有的所有词条的余弦相似度。4.根据权利要求1所述的近似词条结构推荐方法,其特征在于,在步骤三的在将文本格式转化为词条结构格式的过程中,将文本格式涉及的词条属性按照键值对以哈希存储方式存储成词条结构,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条。5.根据权利要求4所述的近似词条结构推荐方法,其特征在于...

【专利技术属性】
技术研发人员:马也驰谭红
申请(专利权)人:上海颐为网络科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1