System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于大数据,具体涉及一种短视频舆情属地判定方法及系统。
技术介绍
1、短视频是近几年兴起的领域,关于短视频中的内容表达的归属地的研究也还在初步阶段。传统属地判断的方法主要还是基于相关文字信息,命中本地的一些关键词来进行挖掘;如今铺天盖地的短视频涌现,此种判定方法显然不能满足短视频舆情属地监督的需求。
技术实现思路
1、专利技术目的:为了解决上述问题本专利技术提供了一种短视频舆情属地判定方法及系统。
2、技术方案:一种短视频舆情属地判定方法,包括以下步骤:
3、搭建属地地址词库和方言地址词库,其中,所述属地地址词库中至少包括以下字段:属地类别名称、类别权重、属地分数、属地地址标签;所述方言地址词库中至少包括以下字段:语言种类、方言分数、方言地址标签;
4、获取任一短视频中包含的舆情数据;所述舆情数据至少包括:文本舆情数据、音频舆情数据、图像舆情数据;
5、基于所述文本舆情数据,提取并得到地址列表数据;利用属地地址词库获取所述地址列表数据中包含的地址词集、以及所述地址词集对应的词频;基于所述属地地址词库、地址词集、以及词频,构建属地积分模型;
6、提取所述音频舆情数据中包含的语言种类;基于所述语言种类和方言地址词库,构建语种归属地分类模型;
7、赋予所述图像舆情数据与其对应的地标地址标签;根据所述地标地址标签,构建地标归属地分类模型;
8、基于所述属地积分模型、语种属地分类模型、以及地标属地分
9、进一步地,所述文本舆情数据中包括:文本数据t1、t2、t3、...、tq;所述地址词集、词频的获取包括以下步骤:
10、将文本数据t1、t2、t3、...、tq输入至地址类命名实体识别模型中,利用地址类命名实体识别模型提取各个文本数据中的地址列表数据;其中,文本数据tq对应的地址列表数据为ner(tq),ner(tq)=[kq1,kq2,...,kqx-1,kqx],kqx表示第q个文本数据中对应的第x个地址名称;
11、将各个文本数据对应的地址列表数据分别与属地地址词库进行匹配,剔除地址列表数据中的不在属地地址词库中的地址名称,以地址列表数据中剩余的地址名称作为地址词集kq;获取地址词集kq中各个地址名称相对应的词频nq;
12、其中,文本数据tq对应的地址词集为kq=[kq1,kq2,...,kqy-1,kqy],其中y≤x;词频nq=[nq1,nq2,...,nqy-1,nqy],nqy为kqy在属地地址词库中的出现次数。
13、进一步地,所述属地积分模型设置为:
14、
15、其中,q表示文本数据的个数,αi表示第i个文本数据被定义的权重;ni表示第i类文本数据得到的地址词集中的地址名称个数,nij表示第i个文本数据中的第j个地址名称的词频,kij表示第i个文本数据中对应的第j个地址名称,表示kij在属地地址词库中记录的属地分数,表示kij在属地地址词库中涉及到属地地址标签的数量,表示kij对应的第l个属地地址标签,表示对应的类别权重。
16、进一步地,所述属地类别名称至少包括:省、市、区、街道、村、景点、站点、大学、以及道路的名称;赋予每种属地类别名称相对应的类别权重:μ1,μ2,μ3,μ4,μ5,μ6,μ7,μ8,μ9;定义属地分数为1/地址名称在属地地址词库中出现次数;定义属地地址标签为省的名称、省+市的名称、或省+市+区的名称;
17、所述语言种类中包括m种方言+1种其他语种;定义方言分数为1/方言涉及到的城市个数;定义方言地址标签为省+市的名称。
18、进一步地,构建语种归属地分类模型包括以下步骤:
19、设置m+1个方言音频标注数据,基于方言音频标注数据训练方言语种分类模型p;
20、将所述音频舆情数据,输入至方言语种分类模型p中,提取语言种类scls;
21、基于所述语言种类和方言地址词库,构建语种归属地分类模型;其中,语种归属地分类模型为:
22、
23、其中,n为语种scls对应的方言地址标签的数量,为语种scls对应的方言分数,li为第i个城市的方言地址标签。
24、进一步地,所述地标归属地分类模型如的构建包括以下步骤:
25、构建地标图片文件夹库和地标词库;其中,所述地标图片文件夹库中包含:地标名称、地标各个角度的图片;所述地标词库包括建筑物名称、地标地址标签;
26、训练并得到图片相似度计算模型dolg;获取图像舆情数据中的短视频封面img;利用图片相似度计算模型dolg对图像舆情数据进行编码dolg(img)=vec,并计算余弦相似度得到向量:[(vec,vec1),(vec,vec2),......,(vec,vecp)];
27、获取向量最大值对应的下标为pvec及其值将与阈值δ进行比较,得到比较结果:当小于阈值δ时,则认为短视频封面不存在地标,定义所述短视频封面对应的地标地址标签lvec为0向量;
28、反之,认为短视频封面存在地标,并获取地标的名称,并结合地标词库得到所对应的地标地址标签为lvec;
29、地标归属地分类模型如下:scores3=lvec。
30、进一步地,所述属地模型为:score=β1scores1+β2scores2+β3scores3;其中,β1、β2、β3为分数占比值;得到的score为一个n*1维的向量;
31、判定并输出所述短视频舆情的属地包括以下步骤:
32、对所述的n*1维的向量按照省province、市city、区county进行区分,并分别计算输出省、市、区各自的最高分数,对应记为:province_score,city_score,county_score;
33、与province_score,city_score,county_score相对应的标签分别记为:province_label,city_label,county_label;
34、基于province_score,city_score,county_score进行计算,得到计算结果;基于所述计算结果来输出对应的标签。
35、进一步地,基于所述计算结果来输出对应的标签,包括以下步骤:
36、若max(province_score,city_score,county_score)=0时,则不输出任何标签;
37、若max(province_score,city_score,county_score)=county_score时,则输出标签为区级标签county_label;
38、若max(province_score,city_score,county_score)=ci本文档来自技高网...
【技术保护点】
1.一种短视频舆情属地判定方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,所述文本舆情数据中包括:文本数据T1、T2、T3、...、Tq;所述地址词集、词频的获取包括以下步骤:
3.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,所述属地积分模型设置为:
4.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,
5.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,构建语种归属地分类模型包括以下步骤:
6.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,所述地标归属地分类模型如的构建包括以下步骤:
7.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,所述属地模型为:Score=β1Scores1+β2Scores2+β3Scores3;其中,β1、β2、β3为分数占比值;得到的Score为一个N*1维的向量;
8.如权利要求7所述的一种短视频舆情属地判定方法,其特征在于,基于所述计算结果来输出对应的标签,包
9.一种短视频舆情属地判定系统,其特征在于,用于实现如权利要求1至8任一项所述的一种短视频舆情属地判定方法,所述系统包括:
...【技术特征摘要】
1.一种短视频舆情属地判定方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,所述文本舆情数据中包括:文本数据t1、t2、t3、...、tq;所述地址词集、词频的获取包括以下步骤:
3.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,所述属地积分模型设置为:
4.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,
5.如权利要求1所述的一种短视频舆情属地判定方法,其特征在于,构建语种归属地分类模型包括以下步骤:
6.如权利要求1所述的一种短视频舆...
【专利技术属性】
技术研发人员:饶淑梅,王海荣,吕晓宝,王元兵,冯凯,
申请(专利权)人:中科曙光南京研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。