【技术实现步骤摘要】
烟草科技文献数据推荐模型的构建方法及装置
本专利技术涉及烟草科技数据处理
,尤其涉及一种烟草科技文献数据推荐模型的构建方法及装置。
技术介绍
近年来,随着烟草科技领域的信息化建设不断深化,渐渐的烟草相关部门也积累了大量的烟草科技文献数据;但由于参与烟草信息化建设的各部门、各企业和各业务单元的系统之间缺乏统一标准,烟草科技文献信息的数据质量也面临着巨大挑战。其中,如何从充满重复数据、数据质量参差不齐的文献数据库中搜索到高质量的文献已经成为烟草科技文献应用领域的一个重大问题。为了更好地利用烟草科技领域的文献数据,需要有效的文献智能推荐方法来处理烟草科技领域的文献数据。目前,已经有一些传统方法可以对通用领域的文献数据记录进行搜索推荐,这些包括利用文献数据记录ID比对、关键词列表和摘要信息比对等匹配度计算方法。但上述传统方法属于泛用的文献数据推荐方法,用于烟草科技文献领域,没有领域的针对性,导致推荐的内容准确度不够高。
技术实现思路
针对现有技术中存在的问题,本专利技术实施例提供一种烟草科技 ...
【技术保护点】
1.一种烟草科技文献数据推荐模型的构建方法,其特征在于,包括:/n从烟草科技文献库中采样文献数据,得到训练数据集;/n根据所述文献数据的语义获取对应的关联语句,通过所述关联语句、文献数据以及预设的正向标注构建正例标注数据;/n通过预设的非关联方法获取与所述文献数据不相关的非关联文献数据,并通过所述关联语句、非关联文献数据以及预设的负向标注构建负例标注数据;/n将所述正例标注数据和所述负例标注数据通过神经网络模型进行模型训练,得到所述烟草科技的文献数据的推荐模型。/n
【技术特征摘要】 【专利技术属性】
1.一种烟草科技文献数据推荐模型的构建方法,其特征在于,包括:
从烟草科技文献库中采样文献数据,得到训练数据集;
根据所述文献数据的语义获取对应的关联语句,通过所述关联语句、文献数据以及预设的正向标注构建正例标注数据;
通过预设的非关联方法获取与所述文献数据不相关的非关联文献数据,并通过所述关联语句、非关联文献数据以及预设的负向标注构建负例标注数据;
将所述正例标注数据和所述负例标注数据通过神经网络模型进行模型训练,得到所述烟草科技的文献数据的推荐模型。
2.根据权利要求1所述的烟草科技文献数据推荐模型的构建方法,其特征在于,所述通过预设的非关联方法获取与所述文献数据不相关的非关联文献数据,包括:
从所述训练数据集中随机抽取文献,通过预设的文本匹配方法计算所述关联语句与所述随机抽取文献之间的匹配度;
当所述匹配度低于预设值时,将所述随机抽取文献作为与所述文献数据不相关的非关联文献数据。
3.根据权利要求1所述的烟草科技文献数据推荐模型的构建方法,其特征在于,所述将正例标注数据和所述负例标注数据通过神经网络模型进行模型训练之前,还包括:
检测所述正例标注数据和所述负例标注数据的数据量是否达到预设的数据量标准;
当所述正例标注数据和所述负例标注数据的数据量未达到预设的数据量标准时,重复构建负例标注数据的步骤直至所述正例标注数据和所述负例标注数据的数据量达到预设的数据量标准。
4.根据权利要求1所述的烟草科技文献数据推荐模型的构建方法,其特征在于,所述从烟草科技文献库中采样文献数据之前,还包括:
获取预设的数据权重表,根据所述数据权重表为所述从烟草科技文献库中的数据分配权重,得到权重分配后的烟草科技文献库,所述烟草科技文献库的权重用于调整从所述烟草科技文献库中采样时的采样概率。
5.根据权利要求1所述的烟草科技文献数据推荐模型的构建方法,其特征在于,所述关联语句,包括:
关键词、关键词的同义词、包含关键词的语句。
技术研发人员:张胜华,闫爱华,周俊,李琳,杨睿,陈一,
申请(专利权)人:湖北中烟工业有限责任公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。