用于生成信息的方法和装置制造方法及图纸

技术编号:25948984 阅读:13 留言:0更新日期:2020-10-17 03:41
本申请公开了用于生成信息的方法和装置,涉及数据处理技术和自然语言处理。一具体实现方案为:获取公司内部网站中与目标部门员工相关的信息;对所获取信息的标签进行统计分析,基于统计分析结果得到针对上述目标部门的至少一个部门标签;确定上述至少一个部门标签中的部门标签的标签权重;基于上述至少一个部门标签和部门标签的标签权重,确定部门画像的兴趣标签。该实施方式实现了部门画像的兴趣标签的自动生成,提高了信息生成的效率。

【技术实现步骤摘要】
用于生成信息的方法和装置
本公开实施例涉及计算机
,具体涉及数据处理技术和自然语言处理。
技术介绍
现阶段,很多公司可以通过公司内部网站向公司的员工推送高质量、感兴趣、相关性强的信息。通常,同一公司中同一部门的员工往往具有相似的知识背景、相关的工作内容。例如,同是NLP(NaturalLanguageProcessing,自然语言处理)部门的员工,可能都对机器学习领域的信息比较感兴趣,因此,从部门的维度可以刻画员工的兴趣。为了提升推荐的效果,除了要对员工和信息进行建模之外,更重要是要构建部门的画像。
技术实现思路
本公开提供了一种用于生成信息的方法、装置、设备以及存储介质。根据本公开的第一方面,提供了一种用于生成信息的方法,该方法包括:获取公司内部网站中与目标部门员工相关的信息;对所获取信息的标签进行统计分析,基于统计分析结果得到针对上述目标部门的至少一个部门标签;确定上述至少一个部门标签中的部门标签的标签权重;基于上述至少一个部门标签和部门标签的标签权重,确定部门画像的兴趣标签。根据本公开的第二方面,提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成获取公司内部网站中与目标部门员工相关的信息;统计单元,被配置成对所获取信息的标签进行统计分析,基于统计分析结果得到针对上述目标部门的至少一个部门标签;确定单元,被配置成确定上述至少一个部门标签中的部门标签的标签权重;生成单元,被配置成基于上述至少一个部门标签和部门标签的标签权重,确定部门画像的兴趣标签。根据本公开的第三方面,提供了一种电子设备,其特征在于,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如第一方面中任一项上述的方法。根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,上述计算机指令用于使上述计算机执行如第一方面中任一项上述的方法。根据本申请的技术基于与目标部门的员工相关的信息生成目标部门的部门画像的兴趣标签,从而实现了部门画像的兴趣标签的自动生成,提高了信息生成的效率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请的用于生成信息的方法的一个实施例的流程图;图2是根据本申请的用于生成信息的方法的一个应用场景的示意图;图3是根据本申请的用于生成信息的方法的又一个实施例的流程图;图4是根据本申请的用于生成信息的装置的一个实施例的结构示意图;图5是用来实现本申请实施例的用于生成信息的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。请参考图1,示出了根据本公开的用于生成信息的方法的一个实施例的流程100。该用于生成信息的方法,包括以下步骤:S101,获取公司内部网站中与目标部门员工相关的信息。在本实施例中,用于生成信息的方法的执行主体可以获取公司内部网站中与目标部门员工相关的信息,其中,信息可以包括文本信息。这里,公司内部网站可以是指公司内部的协同著作平台,公司的员工可以通过该网站发布信息、浏览信息、修订信息等等,例如,可以通过该网站记录工作经验、项目、知识等等。通常,公司员工以外的用户无法获得公司内部网站的信息。举例来说,公司内部网站可以包括企业wiki(维基),企业wiki是适用于企业或者组织内部使用的wiki。这里,与目标部门员工相关的信息可以是指公司内部网站中、与目标部门的员工相关的信息,例如,目标部门的员工在公司内部网站发布的信息、浏览的信息、修改的信息等等。实践中,与目标部门员工相关的信息可以集中反映目标部门的员工的集体兴趣,例如,NLP部门的员工会发布更多关于机器学习相关的信息(例如,文章)。通常,一家公司可以包括多个部门,每个部门都有对应的员工。这里,目标部门可以是具有生成部门画像需求的部门。举例来说,如果想要生成一家公司的所有部门的部门画像,则可以依次将该公司的各个部门作为目标部门,生成部门画像。这里,用于生成信息的方法的执行主体可以是具有信息处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、服务器等等。S102,对所获取信息的标签进行统计分析,基于统计分析结果得到针对目标部门的至少一个部门标签。在本实施例中,公司内部网站中包含的各条信息可以预先设置有标签。作为示例,各条信息的标签可以是人工设定的,例如,员工在通过公司内部网站发布信息的时候,还可以设置所发布信息的标签。这样,执行主体可以对S101中所获取的多条信息的标签进行统计分析,并根据统计分析结果得到针对目标部门的至少一个部门标签。举例来说,首先可以统计所获取的多条信息的标签中各标签出现的频次或次数。之后,可以将出现频次或次数最高的前预设位标签作为针对目标部门的部门标签。在本实施例的一些可选的实现方式中,在S102之前,上述用于生成信息的方法还可以包括图1中未示出的以下步骤:首先,基于预先训练的文本分类模型对公司内部网站的信息进行分类。在本实现方式中,执行主体内部可以存储有预先训练的文本分类模型,该文本分类模型可以用于表征信息特征与信息类别的对应关系。这里,信息特征可以包括信息的标题、内容、摘要、长度等等。这样,对于公司内部网站中的每一条信息,执行主体可以提取该信息的信息特征,并将该信息的信息特征输入上述文本分类模型,上述文本分类模型可以输出该条信息的类别。这里,上述文本分类模型可以是机器学习算法模型。举例来说,文本分类模型可以为TextCNN模型,TextCNN为利用卷积神经网络对文本进行分类的算法。TextCNN模型可以包括Embedding层(嵌入层)、CNN(ConvolutionalNeuralNetworks,卷积神经网络)层、Maxpool层(最大池化层)和输出层。TextCNN模型的输入为信息特征,经Embedding层转化为具有语义特征的词向量,接着词向量经过CNN层、Maxpool层提取篇章级别的语义特征,最后连接了Softmax多分类的输出层,得到分类结果。实践中,上述文本分类模型可以是用于训练文本分类模型的训练用执行主体通过以下方式训练得到的:首先,获取训练样本集合,其中,训练样本可以包括样本信息和与样本信息对应的样本类别,其中,样本信息可以是指样本文章的特征信息;然后,将上述训练样本集合中的训本文档来自技高网...

【技术保护点】
1.一种用于生成信息的方法,包括:/n获取公司内部网站中与目标部门员工相关的信息;/n对所获取信息的标签进行统计分析,基于统计分析结果得到针对所述目标部门的至少一个部门标签;/n确定所述至少一个部门标签中的部门标签的标签权重;/n基于所述至少一个部门标签和部门标签的标签权重,确定部门画像的兴趣标签。/n

【技术特征摘要】
1.一种用于生成信息的方法,包括:
获取公司内部网站中与目标部门员工相关的信息;
对所获取信息的标签进行统计分析,基于统计分析结果得到针对所述目标部门的至少一个部门标签;
确定所述至少一个部门标签中的部门标签的标签权重;
基于所述至少一个部门标签和部门标签的标签权重,确定部门画像的兴趣标签。


2.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述目标部门的部门画像的兴趣标签,向所述目标部门的员工推送信息。


3.根据权利要求1或2所述的方法,其中,所述方法还包括:
获取所述目标部门的员工针对所述公司内部网站中信息产生的用户行为数据;
基于所述用户行为数据,确定目标信息集合;
对所述目标信息集合中的目标信息的标签进行统计分析,以及基于统计分析结果确定新增标签;
设置所述新增标签的标签权重,以及将设置有标签权重的新增标签作为部门画像的兴趣标签。


4.根据权利要求3所述的方法,其中,所述方法还包括:
基于所述新增标签向所述目标部门的员工推送信息;
基于所述目标部门的员工针对所推送信息的点击操作,调整所述新增标签的标签权重;
响应于确定所述新增标签的标签权重小于预设的权重阈值,从所述部门画像的兴趣标签中删除所述新增标签。


5.根据权利要求1所述的方法,其中,在所述对所获取信息的标签进行统计分析之前,所述方法还包括:
基于预先训练的文本分类模型对所述公司内部网站的信息进行分类;
根据分类结果,确定所述公司内部网站中信息的标签。


6.根据权利要求1所述的方法,其中,所述确定所述至少一个部门标签中的部门标签的标签权重,包括:
基于词频-逆向文件频率方法,确定所述至少一个部门标签中的部门标签的标签权重。


7.一种用于生成信息的装置,包括:
获取单元,被配置成获取公司内部网站中与目标部门员工相关的信息;
统计单元,被配置成对所获取信息的标签进行统计分析,基于统计分析结果得到针对所述目标部门的至少一个部门标签;
确定单元,被配置成确定所述至少一个部门标签中的部门标签的标签权重;
生成单元,被配置成...

【专利技术属性】
技术研发人员:骆金昌谢炜坚何伯磊陈坤斌刘准和为
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1