一种基于工作文档预判用户职业的方法和装置制造方法及图纸

技术编号:17704932 阅读:24 留言:0更新日期:2018-04-14 17:54
本发明专利技术提出一种基于工作文档预判用户职业的方法,包括以下步骤:获取用户对工作文档的使用信息,其中使用信息至少包括的文档标题和文档类型;根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本;基于训练样本,建立并训练多层感知分类器;以及利用已训练的多层感知分类器预测用户职业。本发明专利技术的有益效果是:通过分析不同职业用户在使用工作文档的类型上的显著差异,训练职业的判定模型,利用待判定用户的使用信息反推用户的职业,提高了用户职业的判断准确率。

【技术实现步骤摘要】
一种基于工作文档预判用户职业的方法和装置
本专利技术涉及信息分析领域,尤其涉及一种基于工作文档预判用户职业的方法和装置。
技术介绍
随着移动互联网和移动互联网的普及和发展,应用软件的开发商及运营商越来越关心其产品的主要使用群体的信息,例如群体的职业、年龄、性别以及使用习惯等等。基于信息分析产品的当前客户群体分布,可以在后继阶段更有针对性地开展商业推销活动或者应用软件本身的功能开发,从而为客户提供更准确的服务或商品。以手机游戏为例,用户的职业不同,对具体的游戏需求也不相同。譬如,大学生刺激、快节奏和对抗性的社交类游戏。家庭主妇则更喜欢玩休闲类的游戏。公务员或事业单位人员则喜欢益智类游戏等等。为了提高手机游戏推荐的效果,可以根据用户的具体职业定向推荐适合游戏类型,以优化用户体验,并提高推送的点击率。但是,一方面为了提高注册的时间效率,应用软件一般不要求用户在在注册时必须填报职业;另一方面,即使部分用户填写了这方面信息,也不能保证其填写正确。这造成相关信息在数据库中缺失。目前业界对用户职业预测的研究较少,业务较少对这个难题进行研究。现有方法是根据用户所使用设备所上报的定位信息(例如手机的LBS位置定位),推测用户所处的建筑物,从而间接推定用户的职业。例如,授权公告号为CN102075850B的专利技术专利提出了如下一种技术方案:采集规定时段内移动用户的信令位置变化信息;利用采集到的信令位置变化信息构成移动用户的信令位置轨迹;以及根据设定的信令位置轨迹和职业信息的对应关系,以及构成的信令位置轨迹确定移动用户的职业信息。上述方法依赖于用户的信令位置变化信息。然而,信令位置轨迹所经过的同一幢办公写字楼内一般具有多家性质不同的单位和企业。退一步地,即使在同一家单位或企业中,由于具体的功能部门不同,用户的职业也是千差万别。此外,一方面,对于某些流动性较大的职业,例如业务人员和市场人员等等,其信令位置轨迹有多种可能,且所处的建筑物类型也可以是多样的;另一方面,对于自由职业者,工作场所可能是住宿地而不是常规的办公写字楼。上述种种原因都严重影响上述方案对用户职业的判断准确率。
技术实现思路
本专利技术的目的是解决现有技术的不足,提供一种基于工作文档预判用户职业的方法和装置,能够获得提高预测用户职业准确率的效果。为了实现上述目的,本专利技术采用以下的技术方案。首先,本专利技术提出一种基于工作文档预判用户职业的方法,包括以下步骤:获取用户对工作文档的使用信息,其中使用信息至少包括的文档标题和文档类型;根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本;基于训练样本,建立并训练多层感知分类器;以及利用已训练的多层感知分类器预测用户职业。在本专利技术的上述方法实施例中,标注库至少包括用户的特征向量和标注职业。进一步地,在本专利技术的上述方法实施例中,根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本进一步包括以下子步骤:根据使用信息,对文档标题作中文分词;对已经分词的文档标题和文档类型,分别按照主题形成主题分布向量,以及按照文档类型形成文档类型向量;拼接主题分布向量和文档类型向量,形成用户特征向量作为训练样本的部分。再进一步地,在本专利技术的上述方法实施例中,主题分布向量是基于LDA(LatentDirichletAllocation,隐含狄利克雷分布)主题模型迭代生成的。优选地,在本专利技术的上述方法实施例中,训练样本还包括工作文档的数量。在本专利技术的上述方法实施例中,多层感知分类器是采用反向传播算法训练。在本专利技术的上述方法实施例中,还可以包括以下步骤:基于已确定职业的用户,验证多层感知分类器所预测用户职业。其次,本专利技术还提出一种基于工作文档预判用户职业的装置,包括以下模块:文档采集模块,用于获取用户对工作文档的使用信息,其中使用信息至少包括的文档标题和文档类型;数据标注模块,用于根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本;分类生成模块,用于基于训练样本,建立并训练多层感知分类器;以及数据预测模块,用于利用已训练的多层感知分类器预测用户职业。在本专利技术的上述装置实施例中,标注库至少包括用户的特征向量和标注职业。进一步地,在本专利技术的上述装置实施例中,数据标注模块进一步包括以下子模块:分词模块,用于根据使用信息,对文档标题作中文分词;构建模块,用于对已经分词的文档标题和文档类型,分别按照主题形成主题分布向量,以及按照文档类型形成文档类型向量;拼接模块,用于拼接主题分布向量和文档类型向量,形成用户特征向量作为训练样本的部分。再进一步地,在本专利技术的上述装置实施例中,主题分布向量是基于LDA主题模型迭代生成的。优选地,在本专利技术的上述装置实施例中,训练样本还包括工作文档的数量。在本专利技术的上述装置实施例中,多层感知分类器是采用反向传播算法训练。在本专利技术的上述装置实施例中,还可以包括以下子模块:验证测试模块,用于基于已确定职业的用户,验证多层感知分类器所预测用户职业。最后,本专利技术还公开了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如前述任一项所述方法的步骤。本专利技术的有益效果为:通过分析不同职业用户在使用工作文档的类型上的显著差异,训练职业的判定模型,利用待判定用户的使用信息反推用户的职业,提高了用户职业的判断准确率。附图说明图1所示为本专利技术所公开的基于工作文档预判用户职业方法的方法流程图;图2所示为图1中构建训练样本进的子步骤方法流程图;图3所示为验证预测用户职业方法流程的示意图;图4所示为本专利技术所公开的基于工作文档预判用户职业装置的装置模块图。具体实施方式以下将结合实施例和附图对本专利技术的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本专利技术的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。本专利技术所公开技术方案是基于以下的假设:不同职业的用户在使用的工作文档内容和类型是不一样的。用户的工作文档本身拥有足够显著的信息用于描述用户的职业特性。利用工作文档的使用信息差异性,可以更为准确地反推用户职业。例如,办公文员一般使用Word、Excel和PowerPoint等商业办公软件,从而其工作文档多是doc、xls或者ppt等格式,且其标题较少甚至不会使用“某某流程图”、“某某算法说明”或“某某系统架构图”等软件开发人员常用词。因此,基于用户的工作文档,可以预测用户的职业。进一步地,与现有技术方案通过获取用户的地理位置并结合具体的地理场景信息进行推断,本专利技术方案所用到的工作文档使用信息更能体现用户的职业,从而使得预测更为准确。为方便说明本专利技术所列举的实施例,本专利技术按照实际业务场景中用户的消费模式,将用户的职业划分为5个基本类别:企事业单位人员(例如公务员)、在校学生、商业服务人员(例如个体户)、金融业人员(例如银行职员或会计等)和其他。上述分类仅作为职业分类的一个例子。本领域技术人员可以根据具体的应用场景,采用不同的职业划分方式。本专利技术对此不予限定。基于上述理由,本专利技术所公开的技术方案将用户的工作文档的使用信息作为判断标准,预测用户的职业。具体地,参照图1所示的方法流程图本文档来自技高网
...
一种基于工作文档预判用户职业的方法和装置

【技术保护点】
一种基于工作文档预判用户职业的方法,其特征在于,包括以下步骤:获取用户对工作文档的使用信息,其中使用信息至少包括的文档标题和文档类型;根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本;基于训练样本,建立并训练多层感知分类器;以及利用已训练的多层感知分类器预测用户职业。

【技术特征摘要】
1.一种基于工作文档预判用户职业的方法,其特征在于,包括以下步骤:获取用户对工作文档的使用信息,其中使用信息至少包括的文档标题和文档类型;根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本;基于训练样本,建立并训练多层感知分类器;以及利用已训练的多层感知分类器预测用户职业。2.根据权利要求1所述方法,其特征在于,标注库至少包括用户的特征向量和标注职业。3.根据权利要求2所述方法,其特征在于,根据用户对工作文档的使用信息以及记录已标注用户职业的标注库,构建训练样本进一步包括以下子步骤:根据使用信息,对文档标题作中文分词;对已经分词的文档标题和文档类型,分别按照主题形成主题分布向量,以及按照文档类型形成文档类型向量;拼接主题分布向量和文档类型向量,形成用户特征向量作为训练样本的部分。4.根据权利要求3所述方法,其特征在于,主题分布向量是基于LDA主题模型迭代生成的。5.根据权利要求3所述方法,其特征在于,训练样...

【专利技术属性】
技术研发人员:余建兴
申请(专利权)人:珠海金山网络游戏科技有限公司广州西山居世游网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1