海量信息数据的推荐方法及推荐装置制造方法及图纸

技术编号:17032821 阅读:24 留言:0更新日期:2018-01-13 19:20
本发明专利技术属于信息处理技术领域,提供了一种海量信息数据的推荐方法及推荐装置。该推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。通过本发明专利技术有效解决了用户无法及时有效的获得所需信息的问题。

【技术实现步骤摘要】
海量信息数据的推荐方法及推荐装置
本专利技术属于信息处理
,尤其涉及一种海量信息数据的推荐方法及推荐装置。
技术介绍
核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如AP1000、EPR三代核电技术)转让资料。由于技术资料大部分是以半结构化存储在企业内容管理平台(EnterpriseContentManagement,ECM)中,信息量庞大,技术人员无法及时获得相关知识更新。故,有必要提出一种新的技术方案,以解决上述技术问题。
技术实现思路
鉴于此,本专利技术实施例提供一种海量信息数据的推荐方法及推荐装置,旨在解决用户无法及时有效的获得所需信息的问题。本专利技术实施例的第一方面,提供一种海量信息数据的推荐方法,所述推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。本专利技术实施例的第一方面,提供一种海量信息数据的推荐装置,所述推荐装置包括:元数据信息获取模块,用于从企业内容管理系统ECM中获取元数据信息;元数据聚集模板生成模块,用于根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;静态属性空间获取模块,用于根据用户的相关信息,获取所述用户的静态属性空间;静态海量数据模板获取模块,用于根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;关注词获取模块,用于监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;文本索引形成模块,用于根据海量数据非结构化文档的文本分析,形成文本索引;推荐内容查找模块,用于根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例根据用户的静态属性空间和元数据聚类模板,获取相应的静态海量数据模板,监控用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词,根据海量数据非结构化文档的文本分析,形成文本索引,从而可以根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,快速地查找所要推荐的内容。通过本专利技术实施例可以将静态信息与动态数据相结合,快速地完成核电专业技术人员的数据知识推送,从而保证专业技术人员及时有效的获得精准匹配的有效信息。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的海量信息数据的推送方法的实现流程图;图2是本专利技术实施例二提供的海量信息数据的推送方法的实现流程图;图3是本专利技术实施例三提供的海量信息数据的推送装置的组成示意图;图4是本专利技术实施例四提供的海量信息数据的推送装置的组成示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实现了半结构化海量核电信息推荐系统,一方面利用知识本体的概念对技术信息结构化元数据进行专业聚类分析,并结合核电专业人员技术背景及归纳偏好,通过海量数据学习分析算法获得假设空间内的静态海量数据模板。另一方面根据海量数据非结构化文档的文本分析,形成文本索引,并与核电专业人员动态需求结合,在静态海量数据模板内进行数据的索引检索,最终实现静态信息与动态数据的利用与结合,完成核电专业人员的数据知识推荐。本专利技术实现了海量的半结构化核电技术文档的静态数据(包括元数据与文本)与核电专业人员需求(包括静态知识背景与动态需求)的海量数据匹配处理方法。包括可配置的核电技术文档基础信息约束及核电专业技术人员背景分析与识别技术;结构化元数据聚类模板及静态海量数据模板建立方法;并结合动态日志抓取分析技术与文本分析技术;利用倒排索引技术对文本匹配进行加权排序算法;集成静态信息与动态需求的核电专业知识信息推荐功能方案。通过以上技术方法满足企业知识管理的信息传播与再造要求,保证专业技术人员及时有效的获得精准匹配的有效信息。实施例一:图1示出了本专利技术实施例一提供的海量信息数据的推荐方法的实现流程,所述实现流程详述如下:步骤S101,从企业内容管理系统ECM中获取元数据信息。在本专利技术实施例中,所述企业内容管理系统ECM可以为核电企业内容管理系统,所述ECM中包含有大量的企业内容,包括但不限于元数据信息、非结构化文件文本内容、系统访问及检索相关日志以及人员信息。步骤S102,根据所述元数据信息的元数据集样本空间,生成元数据聚类模板。具体的,将复杂的元数据结构进行简化,生成元数据聚类模板,即通过聚类方法,将结构化元数据所代表的内容进行分类,提取核心元数据结构。步骤S103,根据用户的相关信息,获取所述用户的静态属性空间。具体地,根据技术人员背景,如专业、部门、参与项目、阶段、职位等相关信息得出专业人员静态属性空间,并将每位技术人员的静态属性空间记录下来。步骤S104,根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板。具体的,根据步骤S102中元数据聚类模板所得的核电技术知识聚类与步骤S103所得的专业人员背景分析数据,将二者结合,获得静态海量数据模板。步骤S105,监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词。具体的,需要对用户的关注点进行分析,分析的方法为基于时序的用户行为日志监控与记录,进而对日志数据进行用户行为及期望的挖掘。首先收集系统记录的用户检索、阅览及关注的内容。其次根据每次检索内容分解为若干的关键词,将用户检索内容按时间因子(时序)对关注内容单元的频率及次数进行记录,最终形成用户近期热门关注词。步骤S106,根据海量数据非结构化文档的文本分析,形成文本索引。具体的,首先从文本集中获取信息,根据核电词典对文本进行分析与预处理,将其中的词汇进行筛选与识别,根据停用词表去掉无用词。特征抽取根据词在文本集中的词频,词在文本集各文本出现的次数占文本数的比例对文本集中的词加权排序,即在词典中的词汇具有较高权值。按特征词顺序选出由多少词组成特征向量,并通过MapReduce算法对海量文本进行索引,并给出文档的特征结果与摘要。步骤S107,根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。具体的,动态索引检索建立在静态数据空间模型算法下的样本空间与非结构化文本的索引基础之上,通过索引排序,选择最终推荐的知识信息。通过本专利技术实施例可以将静态信本文档来自技高网...
海量信息数据的推荐方法及推荐装置

【技术保护点】
一种海量信息数据的推荐方法,其特征在于,所述推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。

【技术特征摘要】
1.一种海量信息数据的推荐方法,其特征在于,所述推荐方法包括:从企业内容管理系统ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。2.根据权利要求1所述的推荐方法,其特征在于,所述推荐方法还包括:记录查找到的所要推荐的内容和所述静态海量数据模板。3.根据权利要求1所述的推荐方法,其特征在于,所述根据所述元数据信息的元数据集样本空间,生成元数据聚类模板包括:步骤一,从所述元数据集样本空间中任意选择K个对象作为初始的簇中心,其中,K为大于零的整数,其中一个簇对象对应一类技术文档;步骤二,计算所述元数据集样本空间中所有对象与K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;步骤三,根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算K个簇中心;步骤四,若重新计算的K个簇中心中任一簇中心发生改变,则重新计算所述所有对象与所述重新计算的K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;步骤五,重复步骤三和四,直到K个簇中心不再发生改变,该K个簇中心形成所述元数据聚类模板。4.根据权利要求3所述的推荐方法,其特征在于,每个用户属于一类技术关注群体;所述根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板包括:根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中,atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性参数的交集中的第i个属性参数,n为该交集中属性参数的个数,Meta(atti)为atti所述用户的静态属性空间中的值,Specialty(atti)为atti在所述元数据聚类模板中的值,为atti的权值。5.根据权利要求4所述的推荐方法,其特征在于,所述根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容包括:获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;根据和V(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为文档δ的更新时间参数;根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。6.一种海量信息数据的推荐装置,其特征在于,所述推荐装置包括:元数据信息获取模块...

【专利技术属性】
技术研发人员:白鹤侯斌刘东海杨帆颜斯泰罗亚林王云福涂红兵戴伟琦
申请(专利权)人:中广核工程有限公司中国广核集团有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1