一种行业热点推荐方法及系统技术方案

技术编号:32833254 阅读:35 留言:0更新日期:2022-03-26 20:49
本发明专利技术提供一种行业热点推荐方法及系统,包括,采集各目标数据源的目标数据;并根据预设的预处理规则对将所述目标数据进行预处理;将预处理后的目标数据作为输入量输入预训练的推荐模型进行计算,得到热门关键词;统计所述热门关键词在预设时间段内的出现频率,根据所述出现频率对所述热门关键词进行排序,将排序结果输出为行业热点推荐结果。本发明专利技术通过采集持续发布的内参、新闻、动态、工作报告、学术期刊论文等多层次多受众的海量异构内容数据,作为行业语料数据,通过预设的训练模型帮助企业管理者持续地从基层到地区全方位地分析发现挖掘本行业的重点、热点以及发展趋势动态。热点以及发展趋势动态。热点以及发展趋势动态。

【技术实现步骤摘要】
一种行业热点推荐方法及系统


[0001]本专利技术涉及自然预语言处理
,特别是涉及一种行业热点推荐方法及系统。

技术介绍

[0002]当前行业内存在大量新闻稿件、通知、报告等文档写作需求,文档编写人员需花费大量人力从海量的存留文档中层层分析,筛选写作素材,存在遗漏、费时、费力等诸多问题,写作效率较低,基层负担较重。
[0003]现有方法中有利用算法,解决本行业本企业的新鲜热点、分析企业各级组织的趋势动态,为相关人员或用户提供热点分析,热点新闻汇编、新事件新闻汇编功能,协助开展情报收集工作,为办公室精准约稿提供辅助服务。但是如何提高行业热点发现的效率,进而可以为目标行业内的内容创作者提供素材、推荐选题是目前的一大难点。

技术实现思路

[0004]本专利技术的目的在于,提出一种行业热点推荐方法及系统,解决现有方法行业热点发现效率低,推荐选题准确度差的技术问题。
[0005]一方面,提供一种行业热点推荐方法,包括:
[0006]采集各目标数据源的目标数据;并根据预设的预处理规则对将所述目标数据进行预处理;本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种行业热点推荐方法,其特征在于,包括:采集各目标数据源的目标数据;并根据预设的预处理规则对将所述目标数据进行预处理;将预处理后的目标数据作为输入量输入预训练的推荐模型进行计算,得到热门关键词;统计所述热门关键词在预设时间段内的出现频率,根据所述出现频率对所述热门关键词进行排序,将排序结果输出为行业热点推荐结果。2.如权利要求1所述的方法,其特征在于,所述根据预设的预处理规则对将所述目标数据进行预处理具体包括:将采集的目标数据转化为HTML格式的文档并按预设的分类类别进行归档,得到待清洗的文本;将所述待清洗的文本转化为文档树。3.如权利要求2所述的方法,其特征在于,所述将所述待清洗的文本转化为文档树具体包括:解析所述待清洗的文本的标签作为文档标题,若输入所述待清洗的文本不存在标签,则将所述待清洗的文本的文件名作为文档标题;根据所述文档标题将整个文档进行切分,得到多个文本节点;根据所述文本节点解析出每个文本节点在文档树结构上的父子关系,并根据每个文本节点在文档树结构上的父子关系对所有文本节点进行关联,得到文档树。4.如权利要求3所述的方法,其特征在于,所述推荐模型具体包括:预处理层,用以对输入的数据进行预处理计算对应的初始化权重,并根据得到的初始化权重进行加权求和,得到对应的词向量;前向LSTM层,用以对所述对应的词向量进行向前计算,得到第一计算值;后向LSTM层,用以对第一计算值进行向后计算,得到编码输出值;CRF层,用以对接收的编码输出值进行筛选,得到全局最优的输出序列。5.如权利要求4所述的方法,其特征在于,所述得到热门关键词具体包括:对采集目标数据进行识别并根据预设的标注标准进行序列标注,得到标注语料,并根据标注语料将所述目标数据转换为训练集和测试集;将训练集和测试集输入预设的推荐模型,获取每个词的词向量,将得到的词向量首先输入所述前向LSTM层和所述后向LSTM层进行双向编码,得到整个句子的编码向量;CRF层将整个句子的编码向量作为输入量进行处理,通过预设的筛选规则获取全局最优的输出序列,按照最优的输出序列输出对应的词语作为热门关键词。6.如权利要求5所述的方法,其特征在于,所述根据所述出现频率对所述热门关键词进行排序具体包括:统计各个关键词在预设时间段内的相对词频,将所述相对词...

【专利技术属性】
技术研发人员:许冠中
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1