【技术实现步骤摘要】
一种基于语言模型的广电编目标签分类方法及系统
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于语言模型的广电编目标签分类方法。
技术介绍
[0002]随着视频内容传播力的不断增强,文化传媒版权内容的价值日益凸显。将视频内容转化为未来长期可用的数字资产,为了让使用者可以方便的、快速的检索到所需要的视频内容,视频编目分类工作就尤为重要。但是随着媒体内容的越来越海量,仍然使用人工的方式对内容进行编目分类,在时效性和成本上都捉襟见肘。希望基于计算机视觉、自然语言处理技术和语言特征等多模态信息,自动将语言标签按照《广播电视音像资料编目规范》进行编目分类的需求,变得日益迫切。
技术实现思路
[0003]针对现有技术中存在的问题,本专利技术提供一种基于语言模型的广电编目标签分类方法,包括:
[0004]步骤S1,于预先配置的语料库中获取多条新闻语料并预处理后生成语言模型训练集,随后构建语言模型,并利用所述语言模型训练集训练所述语言模型,得到以短语为输入以语义特征向量为输出的所述语言模型;
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于语言模型的广电编目标签分类方法,其特征在于,包括:步骤S1,于预先配置的语料库中获取多条新闻语料并预处理后生成语言模型训练集,随后构建语言模型,并利用所述语言模型训练集训练所述语言模型,得到以短语为输入以语义特征向量为输出的所述语言模型;步骤S2,于预先配置的广电编目类别数据集中获取多条编目词语并预处理后生成分类模型训练样本集,随后构建分类模型,并利用所述分类模型训练样本集训练所述分类模型,得到以所述语义特征向量为输入以编目类别为输出的所述分类模型;步骤S3,将待预测标签预处理后经过语义依存分析得到待预测短语,将所述待预测短语输入所述语言模型得到对应的所述语义特征向量,随后将所述语义特征向量输入所述分类模型得到对应的所述编目类别。2.根据权利要求1所述的广电编目标签分类方法,其特征在于,所述步骤S1包括:步骤S11,将各所述新闻语料中的噪音数据剔除后生成语言模型训练集;步骤S12,利用分词工具将所述语言模型训练集内的所述新闻语料进行全词遮罩;步骤S13,构建所述语言模型,以全词遮罩后的所述语言模型训练集作为输入,以语义特征向量作为输出训练所述语言模型,并在训练过程中调整所述语言模型的训练参数,得到以短语为输入以语义特征向量为输出的所述语言模型。3.根据权利要求1所述的广电编目标签分类方法,其特征在于,所述分类模型训练样本集包括训练集和验证集;则所述步骤S2包括:步骤S21,将各所述编目词语按照外部输入指令分类,随后按照预设的训练集比例和验证集比例将分类后的所述编目词语分为所述训练集和所述验证集;步骤S22,将所述训练集和所述验证集进行预处理;步骤S23,利用所述训练集训练所述分类模型,并在训练过程中将所述验证集输入所述分类模型得到对应的准确率,根据所述准确率调整所述分类模型的训练参数,直至所述准确率达到预设的准确率阈值,得到以所述语义特征向量为输入以编目类别为输出的所述分类模型。4.根据权利要求3所述的广电编目标签分类方法,其特征在于,所述步骤S22中的预处理包括:将所述训练集和所述验证集输入所述语言模型得到的对应的特征向量,随后调整所述特征向量的类别数,并将所述特征向量按照预设的读取格式转化为读取对象。5.根据权利要求1所述的广电编目标签分类方法,其特征在于,所述步骤S3包括:步骤S31,将所述待预测标签进行数据清洗;步骤S32,利用语义依存分析技术分析数据清洗后的所述待预测标签的语义关系得到所述待预测短语;步骤S33,将所述待预测短语输入所述语义模型得到对应的所述语义特征向量;步骤S34,将所述语义特征向量输入所述分类模型得到对应的所编目类别。6.一种基于语言模型的广电编目标签分类系统,其特征在于,应用如权利要求1
‑
5中任意一项所述的广电编目标签分类方法,包括:语言模型生成模块,用于于预先配置的语料库中获取多条新闻语料并预处理后生成...
【专利技术属性】
技术研发人员:李洋,倪明昊,张琦,胡恺,曹操,甘鹏,刘碧琰,
申请(专利权)人:上海东方传媒技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。