【技术实现步骤摘要】
海量信息数据的推荐方法及推荐装置
本专利技术属于信息处理
,尤其涉及一种海量信息数据的推荐方法及推荐装置。
技术介绍
核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如AP1000、EPR三代核电技术)转让资料。由于技术资料大部分是以半结构化存储在企业内容管理平台(EnterpriseContentManagement,ECM)中,信息量庞大,技术人员无法及时获得相关知识更新。故,有必要提出一种新的技术方案,以解决上述技术问题。
技术实现思路
鉴于此,本专利技术实施例提供一种海量信息数据的推荐方法及推荐装置,旨在解决用户无法及时有效的获得所需信息的问题。本专利技术实施例的第一方面,提供一种海量信息数据的推荐方法,所述推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。本专利技术实施例的第一方面,提供一种海量信息数据的推荐装置,所述推荐装置包括:元数据信息获取模块,用于从企业内容管理系统ECM中获取元数据信息;元数据聚集模板生成模块,用于根据所述元数据信息的元数据集样本空间,生 ...
【技术保护点】
一种海量信息数据的推荐方法,其特征在于,所述推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。
【技术特征摘要】
1.一种海量信息数据的推荐方法,其特征在于,所述推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。2.根据权利要求1所述的推荐方法,其特征在于,所述推荐方法还包括:记录查找到的所要推荐的内容和所述静态海量数据模板。3.根据权利要求1所述的推荐方法,其特征在于,所述根据所述元数据信息的元数据集样本空间,生成元数据聚类模板包括:步骤一,从所述元数据集样本空间中任意选择K个对象作为初始的簇中心,其中,K为大于零的整数,其中一个簇对象对应一类技术文档;步骤二,计算所述元数据集样本空间中所有对象与K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;步骤三,根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算K个簇中心;步骤四,若重新计算的K个簇中心中任一簇中心发生改变,则重新计算所述所有对象与所述重新计算的K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;步骤五,重复步骤三和四,直到K个簇中心不再发生改变,该K个簇中心形成所述元数据聚类模板。4.根据权利要求3所述的推荐方法,其特征在于,每个用户属于一类技术关注群体;所述根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板包括:根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中,atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性参数的交集中的第i个属性参数,n为该交集中属性参数的个数,Meta(atti)为atti所述用户的静态属性空间中的值,Specialty(atti)为atti在所述元数据聚类模板中的值,为atti的权值。5.根据权利要求4所述的推荐方法,其特征在于,所述根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容包括:获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;根据和V(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为文档δ的更新时间参数;根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。6.一种海量信息数据的推荐装置,其特征在于,所述推荐装置包括:元数据信息获取模块...
【专利技术属性】
技术研发人员:白鹤,侯斌,刘东海,杨帆,颜斯泰,罗亚林,王云福,涂红兵,戴伟琦,
申请(专利权)人:中广核工程有限公司,中国广核集团有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。