【技术实现步骤摘要】
201511029314
【技术保护点】
一种关联信息的获取和排序方法,其特征在于,包括:获取用户输入的专题名称与专题属性;根据所述专题属性获取专题名称的相关信息,获取与所述相关信息对应的内容;将与所述相关信息对应的内容按顺序呈现给用户;允许用户对与所述相关信息对应的内容进行下载与查看操作。
【技术特征摘要】
1.一种关联信息的获取和排序方法,其特征在于,包括:获取用户输入的专题名称与专题属性;根据所述专题属性获取专题名称的相关信息,获取与所述相关信息对应的内容;将与所述相关信息对应的内容按顺序呈现给用户;允许用户对与所述相关信息对应的内容进行下载与查看操作。2.根据权利要求1所述的方法,其特征在于,根据所述专题属性获取专题名称的相关信息包括:沿着与专题属性关联的链接搜寻专题名称的初始相关信息,将所述专题名称的初始相关信息中以向量形式提取出至少一个所述初始相关信息对应的内容,并将所述初始相关信息对应的内容、所述专题的链接与搜寻时间以相关联的方式存储;计算每两个所述初始相关信息对应的内容之间基于密度的相似度,并根据所述初始相关信息对应的内容之间基于密度的相似度确定图形聚类的最佳类别数目;按照所述专题属性关联的链接重新访问更新过的专题并搜寻更新过的专题信息,并按照所述更新过的专题信息将所述初始相关信息对应的内容更新为所述新相关信息对应的内容,并将所述新相关信息对应的内容、所述专题的链接与更新时间以关联的方式存储。3.根据权利要求2所述的方法,其特征在于,计算每两个所述初始相关信息对应的内容之间基于密度的相似度包括:定义图形聚类方法的局部一致性与全局一致性;根据所述图形聚类方法的局部一致性与全局一致性,得到基于密度的线段长度距离表达式;根据所述基于密度的线段长度距离表达式,计算出两所述初始相关信息对应的内容之间基于密度的距离;根据所述两初始相关信息对应的内容之间基于密度的距离,获得所述两初始相关信息对应的内容之间基于密度的相似度。4.根据权利要求3所述的方法,其特征在于,根据所述初始相关信息对
\t应的内容之间基于密度的相似度确定图形聚类的最佳类别数目包括:根据所述每两个初始相关信息对应的内容之间基于密度的相似度建立相似矩阵,其中,所述相似矩阵的行向量代表初始相关信息对应的内容、列向量代表初始相关信息对应的内容特征项的权值;计算所述相似矩阵中包括,所有初始相关信息对应的内容特征项权值的平均值、任一图形聚类内初始相关信息对应的内容特征项的平均值、所有初始相关信息对应的内容数据集的总体方差、任一图形聚类内数据集的方差、任一图形聚类间数据集的方差;根据所述任一图形聚类内数据集的方差与任一图形聚类间数据集的方差,用C-H指数定义方差比标准计算出所述图形聚类的最佳类别数目。5.根据权利要求2所述的方法,其特征在于,将与所述相关信息对应的内容按顺序呈现给用户包括:计算所述图形聚类的类中心向量与类均值,计算所述新相关信息对应的内容与现有所有图形聚类类别之间的连接度,并根据所述新相关信息对应的内容与现有所有图形聚类类别之间的连接度判断是否将所述新相关信息对应的内容加入根据图形聚类方法建立的已有类别中,并根据所述各图形聚类类别的类中心向量与类均值判断所述图形聚类是否需要与其他图形聚类进行合并;将所述用户输入的专题名称与专题属性合并为专题向量,计算所述专题向量与所述现有图形聚类类别之间的相关度,建立专题链接的初始结果集,并将所述初始结果集中每个所述相关信息对应的内容的相关度与PageRank值计算归一加权值,按照所述相关度与PageRank值的归一加权值的大小进行排序并呈献给使用者。6.根据权利要求5所述的方法,其特征在于,根据所述新相关信息对应的内容与现有所有图形聚类类别之间的连接度判断是否将所述新相关信息对应的内容加入根据图形聚类方法建立的已有类别中包括:将每个所述新相关信息对应的内容与现有所有图形聚类类别之间的连接度按大小顺序进行排序;若该新相关信息对应的内容最大的连接度大于第一阈值,且最大的连接度与第二大的连接度的绝对值之差大于第二阈值,则将所述新相关信息对应的内容加入最大的连接度所对应的图形聚类中,并更新该图形聚类的类中心
\t向量与类均值;若该新相关信息对应的内容最大的连接度大于第一阈值,但最大的连接度与第二大的连接度的绝对值之差不大于第二阈值,则将所述新相关信息对应的内容暂时存入最大的连接度所对应的图形聚类中,并对所述新相关信息对应的内容进行标记,但不更新该图形聚类的类中心向量与类均值;若该新相关信息对应的内容最大的连接度不大于第一阈值,则将所述新相关信息对应的内容划分到一个新的图形聚类类别中,并计算出所述新图形聚类类别的类中心向量与类均值。7.根据权利要求6所述的方法,其特征在于,根据所述各图形聚类类别的类中心向量与类均值判断所述图形聚类类别是否需要与其他图形聚类类别进行合并,为当所有新相关信息对应的内容都划分到任意图形聚类类别中时,重新计算所述图形聚类的最佳类别数目:若重新计算的图形聚类的最佳类别数目小于等于上次计算的图形聚类的最佳类别数目,则将被标记的所述新相关信息对应的内容合并到其暂存的图形聚类中,并更新该图形聚类的类中心向量与类均值;若重新计算的图形聚类的最佳类别数目大于上次计算的图形聚类的最佳类别数目,则将被标记的所述新相关信息对应的内容独立进行重新聚类,并计算出所述新图形聚类的类中心向量与类均值。8.根据权利要求5-7中任意一项所述的方法,其特征在于,计算所述专题向量与所述现有图形聚类类别之间的相关度,建立专题链接的初始结果集包括:将所述查询向量按照专题属性分解为至少一个查询分量;分别将每个所述查询分量视为关键词,依次计算每个所述查询分量关键词与每个所述图形聚类类别之间的连接度;根据每个所述查询分量关键词与每个所述图形聚类类别之间的连接度,计算出所述查询向量与每个所述图形聚类类别之间的相关度;根据所述查询向量与每个所述图形聚类之间的连接度与每个所述查询分量的绝对值,计算出所述查询向量的初始结果集,所述初始结果集为所述各图形聚类类别中与查询向量距离较近的专题链接集合。9.根据权利要求8所述的方法,其特征在于,将所述初始结果集中每个专题链接的相关度与PageRank值归一加权计算平均值,为将拓展结果集的相
\t关度和PageRank值分别进行归一化,进行加权得到每个与查询向量的相关度。10.根据权利要求1-7中任意一项所述的方法,其特征在于,所述专题属性为影视剧,所述专题名称的相关信息为以下至少之一:剧情视频、片头曲、片尾曲、男主角、女主角、导演、编剧、剧情介绍;所述专题属性为演员,所述专题名称的相关信息为以下至少之一:出演的电视剧、演唱的歌曲、新闻、个人资料、个人写真、主要合作人;所述专题属性为导演,所述专题名称的相关信息为以下至少之一:指导的电视剧、新闻、个人资料、指导风格、主要合作人。11.一种关联信息的获取与排序系统,其特征在于,包括:输入模块,所述输入模块用于获取用户输入的专题名称与专题属性;索引模块,所述索引模块用于根据...
【专利技术属性】
技术研发人员:童忠斌,
申请(专利权)人:乐视网信息技术北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。