工作日志的生成方法、装置、存储介质及电子设备制造方法及图纸

技术编号:38552572 阅读:6 留言:0更新日期:2023-08-22 20:58
本发明专利技术公开了一种工作日志的生成方法、装置、存储介质及电子设备,涉及分布式技术领域。该方法包括:获取目标对象的输入信息;判断输入信息中是否存在热门词汇,若输入信息中存在热门词汇,则根据目标权重对热门词汇进行惩罚处理,得到目标输入信息;通过目标主题模型,确定目标输入信息对应的目标主题;确定目标主题对应的目标文本生成模型和目标序列到序列模型,并根据目标输入信息、目标文本生成模型以及目标序列到序列模型,生成目标工作日志,其中,目标文本生成模型和目标序列到序列模型是分别通过混合训练得到的,混合训练包括数据分布式训练和模型分布式训练。本发明专利技术解决了现有技术中人工整理工作日志存在效率低的技术问题。题。题。

【技术实现步骤摘要】
工作日志的生成方法、装置、存储介质及电子设备


[0001]本专利技术涉及分布式
,具体而言,涉及一种工作日志的生成方法、装置、存储介质及电子设备。

技术介绍

[0002]工作日志是指工作人员对自己每天工作内容、在工作过程中遇到的问题、解决问题的思路和方法进行记录的工具。目前,金融机构的业务场景正以小快灵的方式快速发展,工作场景变得越发复杂,与此对应的是工作人员处理的任务变得多、小、细,个人的时间越发碎片化。目前,人工整理工作日志存在效率比较低的问题,增加了工作人员的工作时间,并且,工作人员日常整理的工作日志往往过于流水化,日志内容较为琐碎、没有重点,起不到日后工作汇报或工作交接的作用。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种工作日志的生成方法、装置、存储介质及电子设备,以至少解决现有技术中人工整理工作日志存在效率低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种工作日志的生成方法,包括:获取目标对象的输入信息,其中,输入信息表征待生成工作日志的需求数据信息;判断输入信息中是否存在热门词汇,若输入信息中存在热门词汇,则根据目标权重对热门词汇进行惩罚处理,得到目标输入信息,其中,热门词汇为样本数据中出现频率高于目标频率的词汇;通过目标主题模型,确定目标输入信息对应的目标主题,其中,目标主题模型是根据样本数据训练得到的;确定目标主题对应的目标文本生成模型和目标序列到序列模型,并根据目标输入信息、目标文本生成模型以及目标序列到序列模型,生成目标工作日志,其中,目标文本生成模型和目标序列到序列模型是分别通过混合训练得到的,混合训练包括数据分布式训练和模型分布式训练。
[0006]进一步地,工作日志的生成方法还包括:在获取目标对象的输入信息之前,通过网络爬虫从网络资源中获取文本语料信息;对文本语料信息进行数据清洗,得到清洗后的文本语料信息,并根据清洗后的文本语料信息,生成原始语料库,其中,原始语料库中至少包括样本数据;获取原始语料库中的多篇文档,并根据目标主题模型和多个预设主题词,确定每篇文档的主题;根据每篇文档的主题对多篇文档进行分类处理,得到M个文档集合,其中,每个文档集合对应一个主题,M个文档集合分别存储于不同服务集群,M为正整数;通过M个文档集合中的文档数据,混合训练得到M个文本生成模型和M个序列到序列模型,其中,每个主题对应一个文本生成模型和一个序列到序列模型。
[0007]进一步地,工作日志的生成方法还包括:根据每个服务集群对应的主题和每个服务集群中的文档数据,训练得到每个主题对应的文本生成模型和序列到序列模型;根据每个主题对应的文本生成模型和序列到序列模型,得到M个文本生成模型和M个序列到序列模
型。
[0008]进一步地,工作日志的生成方法还包括:提取输入信息中的至少一个关键词,并将至少一个关键词与热门词汇清单进行匹配,得到匹配结果,其中,匹配结果表征至少一个关键词是否为热门词汇清单中的热门词汇,热门词汇清单是在通过样本数据训练目标主题模型的过程中生成的。
[0009]进一步地,工作日志的生成方法还包括:通过目标主题模型计算目标输入信息属于每个预设主题词的概率,得到多个概率值;确定多个概率值中的最高概率值对应的主题词为目标主题。
[0010]进一步地,工作日志的生成方法还包括:将目标主题与每个文本生成模型对应的主题进行匹配,从M个文本生成模型中匹配出目标文本生成模型;将目标主题与每个序列到序列模型对应的主题进行匹配,从M个序列到序列模型中匹配出目标序列到序列模型。
[0011]进一步地,目标序列到序列模型包括目标编码器模型和目标解码器模型,工作日志的生成方法还包括:根据目标输入信息和目标文本生成模型,生成目标文本;根据目标文本和目标编码器模型,生成编码输出结果;根据编码输出结果和目标解码器模型,生成目标工作日志。
[0012]根据本专利技术实施例的另一方面,还提供了一种工作日志的生成装置,包括:获取模块,用于获取目标对象的输入信息,其中,输入信息表征待生成工作日志的需求数据信息;处理模块,用于判断输入信息中是否存在热门词汇,若输入信息中存在热门词汇,则根据目标权重对热门词汇进行惩罚处理,得到目标输入信息,其中,热门词汇为样本数据中出现频率高于目标频率的词汇;第一确定模块,用于通过目标主题模型,确定目标输入信息对应的目标主题,其中,目标主题模型是根据样本数据训练得到的;第二确定模块,用于确定目标主题对应的目标文本生成模型和目标序列到序列模型,并根据目标输入信息、目标文本生成模型以及目标序列到序列模型,生成目标工作日志,其中,目标文本生成模型和目标序列到序列模型是分别通过混合训练得到的,混合训练包括数据分布式训练和模型分布式训练。
[0013]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的工作日志的生成方法。
[0014]根据本专利技术实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的工作日志的生成方法。
[0015]在本专利技术实施例中,采用分布式混合训练的方式,首先获取目标对象的输入信息,然后判断输入信息中是否存在热门词汇,若输入信息中存在热门词汇,则根据目标权重对热门词汇进行惩罚处理,得到目标输入信息,然后通过目标主题模型,确定目标输入信息对应的目标主题,然后确定目标主题对应的目标文本生成模型和目标序列到序列模型,并根据目标输入信息、目标文本生成模型以及目标序列到序列模型,生成目标工作日志。其中,输入信息表征待生成工作日志的需求数据信息,热门词汇为样本数据中出现频率高于目标频率的词汇,目标主题模型是根据样本数据训练得到的,目标文本生成模型和目标序列到
序列模型是分别通过混合训练得到的,混合训练包括数据分布式训练和模型分布式训练。
[0016]在上述过程中,根据用户的输入信息可以自动生成对应的工作日志,在通过目标主题模型进行主题分类的基础上结合惩罚机制,有效降低了热门词汇(非核心词汇)对文档的主题分布的影响,提高了文档主题分布的准确度,从而提高了确定工作日志主题的准确度,避免了文本漂移、主题冲突的现象;通过分布式混合训练得到文本生成模型和序列到序列模型,有效降低了人工维护成本,提高了工作日志的生成效率。
[0017]由此可见,通过本专利技术的技术方案,达到了根据用户的输入信息自动生成对应的工作日志,节省时间成本和人力成本的目的,从而实现了提高工作日志的生成效率的技术效果,进而解决了现有技术中人工整理工作日志存在效率低的技术问题。
附图说明
[0018]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工作日志的生成方法,其特征在于,包括:获取目标对象的输入信息,其中,所述输入信息表征待生成工作日志的需求数据信息;判断所述输入信息中是否存在热门词汇,若所述输入信息中存在所述热门词汇,则根据目标权重对所述热门词汇进行惩罚处理,得到目标输入信息,其中,所述热门词汇为样本数据中出现频率高于目标频率的词汇;通过目标主题模型,确定所述目标输入信息对应的目标主题,其中,所述目标主题模型是根据所述样本数据训练得到的;确定所述目标主题对应的目标文本生成模型和目标序列到序列模型,并根据所述目标输入信息、所述目标文本生成模型以及所述目标序列到序列模型,生成目标工作日志,其中,所述目标文本生成模型和所述目标序列到序列模型是分别通过混合训练得到的,所述混合训练包括数据分布式训练和模型分布式训练。2.根据权利要求1所述的方法,其特征在于,在获取目标对象的输入信息之前,所述方法还包括:通过网络爬虫从网络资源中获取文本语料信息;对所述文本语料信息进行数据清洗,得到清洗后的文本语料信息,并根据所述清洗后的文本语料信息,生成原始语料库,其中,所述原始语料库中至少包括所述样本数据;获取所述原始语料库中的多篇文档,并根据所述目标主题模型和多个预设主题词,确定每篇文档的主题;根据所述每篇文档的主题对所述多篇文档进行分类处理,得到M个文档集合,其中,每个文档集合对应一个主题,所述M个文档集合分别存储于不同服务集群,M为正整数;通过所述M个文档集合中的文档数据,混合训练得到M个文本生成模型和M个序列到序列模型,其中,每个主题对应一个文本生成模型和一个序列到序列模型。3.根据权利要求2所述的方法,其特征在于,通过所述M个文档集合中的文档数据,混合训练得到M个文本生成模型和M个序列到序列模型,包括:根据每个服务集群对应的主题和所述每个服务集群中的文档数据,训练得到所述每个主题对应的文本生成模型和序列到序列模型;根据所述每个主题对应的文本生成模型和序列到序列模型,得到所述M个文本生成模型和所述M个序列到序列模型。4.根据权利要求1所述的方法,其特征在于,判断所述输入信息中是否存在热门词汇,包括:提取所述输入信息中的至少一个关键词,并将所述至少一个关键词与热门词汇清单进行匹配,得到匹配结果,其中,所述匹配结果表征所述至少一个关键词是否为所述热门词汇清单中的热门词汇,所述热门词汇清单是在通过所述样本数据训练所述目标主题模型的过程中生成的。5.根据权利要求1所述的方法,其特征在于,通过目标主题模型,确定所述目...

【专利技术属性】
技术研发人员:章宗杰余振吴政楠殷富成
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1