【技术实现步骤摘要】
基于层级结构多标签体系的新闻文本分类模型的构建方法
本专利技术涉及属于新闻文本自动分类领域,尤其是一种基于层级结构多标签体系的新闻文本分类模型的构建方法。
技术介绍
近年来,随着网络技术的发展和融媒体的兴起,新闻资讯数量急剧增加,互联网作为一种重要的新闻资讯传播渠道,具有信息全面、传播迅速、受众广泛等特点。每一条新闻文本都有所属的类别,精确且快速地对新闻文本进行分类有助于新闻的传播和收录。在传统的新闻编目中,需要依赖人工阅读新闻内容并给出相应的分类,对于数量庞大的新闻资讯而言这是一项异常困难的工作。另一方面,标准的新闻分类体系有4个层级且一则新闻可能同时属于多个分类,人工阅读分类的方法存在众多主观因素,容易造成分类错误和分类缺失的问题。因此,找到一种精确、快速的新闻文本分类方法,具有重要的意义。带标签的隐含狄利克雷分配模型作为一种有监督的主题模型,常被用于文本语义主题挖掘和文本分类。该算法首先需要将训练数据进行类别标记,然后采用吉布斯采样(GibbsSampling)对模型进行迭代训练,在一定的迭代次数后得到收敛的带 ...
【技术保护点】
1.一种基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,包括如下步骤:/n步骤一:新闻文本类别标注数据化;/n步骤二:确定不同层级的人工标注的类别的置信度;/n步骤三:计算步骤一的新闻文本中所有词语的权重;/n步骤四:基于步骤一标注的文本类别、步骤二确定的置信度、步骤三计算的词语权重,使用多层相关吉布斯采样方法训练模型,得到类别-词语分布矩阵。/n
【技术特征摘要】 【专利技术属性】
1.一种基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,包括如下步骤:
步骤一:新闻文本类别标注数据化;
步骤二:确定不同层级的人工标注的类别的置信度;
步骤三:计算步骤一的新闻文本中所有词语的权重;
步骤四:基于步骤一标注的文本类别、步骤二确定的置信度、步骤三计算的词语权重,使用多层相关吉布斯采样方法训练模型,得到类别-词语分布矩阵。
2.根据权利要求1所述的基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,步骤一包括如下子步骤:
步骤101:确定新闻文本的分类体系,所述分类体系采用多层级类别表示,包括每一层级的详细类别和不同层级的类别之间的隶属关系;
步骤102:根据已经确定的分类体系,获取每个类别的新闻文本;
步骤103:将新闻文本的类别进行向量表示。
3.根据权利要求2所述的基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,步骤103的方法为:
令表示第个新闻样本在第j层级中的向量表示;其中,为新闻文本的数量,为第j层级的类别总数,的计算公式如下:
。
4.根据权利要求3所述的基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,步骤二包括如下子步骤:
步骤201:采用如下计算公式确认分类体系中第一层级的类别的置信度:
其中,是第个类别出现的次数,是第个类别被正确标记的次数;
步骤202:根据经验确认第j层级的类别的孪生系数;
步骤203:计算第j层级的类别的置信度。
5.根据权利要求4所述的基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,孪生系数的取值范围为(0,1]。
6.根据权利要求4或5所述的基于层级结构多标签体系的新闻文本分类模型的构建方法,其特征在于,步骤三包括如下子步骤:
步骤301:统计新闻文本中每一个词语在所有类别中出现的频次;
技术研发人员:杨瀚,王炜,严照宇,
申请(专利权)人:成都索贝数码科技股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。