新媒体账号的地域标注方法、装置、设备及存储介质制造方法及图纸

技术编号:32164486 阅读:14 留言:0更新日期:2022-02-08 15:18
本发明专利技术公开了一种新媒体账号的地域标注方法、装置、设备及存储介质,所述方法包括:根据新媒体账号的认证类型将所述新媒体账号分为第一类别和第二类别;将所述第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;根据预设的标注规则对所述第二类别的新媒体账号数据进行标注,得到标注好的地域标签。根据本申请实施例提供的新媒体账号的地域标注方法,可以根据新媒体账号的类别,有针对性地采用不同的地域标注方法,大大提高了各类新媒体账号地域标签的完整性和准确率。确率。确率。

【技术实现步骤摘要】
新媒体账号的地域标注方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,特别涉及一种新媒体账号的地域标注方法、装置、设备及存储介质。

技术介绍

[0002]随着移动互联网的蓬勃发展,出现了越来越多的新媒体平台,像微信公众号、微博、抖音、快手等。这些新媒体平台的用户规模已经超过10亿,很多政府单位也纷纷开通多个新媒体平台的新媒体账号,以便能够更好地宣传政府部门的政策,传递人民群众的心声,形成良好的政民互动。但由于新媒体账号群体庞大,运营水平参差不齐,给网络监管部门带来很大的困难。
[0003]在对新媒体账号进行管理时,地域维度是一个常见并且很重要的一个维度。而各个新媒体平台对账号注册的要求不一样,导致账号数据的地域维度有缺失。

技术实现思路

[0004]本公开实施例提供了一种新媒体账号的地域标注方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]第一方面,本公开实施例提供了一种新媒体账号的地域标注方法,包括:
[0006]根据新媒体账号的认证类型将新媒体账号分为第一类别和第二类别;
[0007]将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;
[0008]根据预设的标注规则对第二类别的新媒体账号数据进行标注,得到标注好的地域标签。
[0009]在一个可选地实施例中,将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签之前,还包括:
[0010]构建训练数据集;
[0011]根据训练数据集训练地域标注模型,其中,地域标注模型为添加词频

逆文本频率指数的支持向量机模型。
[0012]在一个可选地实施例中,将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签,包括:
[0013]提取第一类别的新媒体账号数据的关键词,得到关键词列表;
[0014]统计关键词列表的词频

逆文本频率指数,生成词频矩阵;
[0015]将词频矩阵转化成文本向量;
[0016]将文本向量输入地域标注模型,得到标注好的地域标签。
[0017]在一个可选地实施例中,根据预设的标注规则,对第二类别的新媒体账号数据进
行标注,得到标注好的地域标签,包括:
[0018]获取第二类别的新媒体账号对应的登记机关、登记地址和统一社会信用代码;
[0019]根据登记机关、登记地址和统一社会信用代码对应的行政区划三级信息得到新媒体账号的地域标签。
[0020]在一个可选地实施例中,根据登记机关、登记地址和统一社会信用代码对应的行政区划三级信息得到新媒体账号的地域标签,包括:
[0021]根据登记机关获取行政区划三级信息,得到新媒体账号的地域标签;或,
[0022]根据登记地址获取行政区划三级信息,得到新媒体账号的地域标签;或,
[0023]根据统一社会信用代码获取行政区划三级信息,得到新媒体账号的地域标签。
[0024]在一个可选地实施例中,得到新媒体账号的地域标签之后,还包括:
[0025]根据登记地址对应的经纬度信息以及标准的行政区划信息对新媒体账号的地域标签进行校验。
[0026]在一个可选地实施例中,第一类别的新媒体账号包括政府账号、媒体账号、社会团体账号;第二类别的新媒体账号包括企业账号、个体工商户账号。
[0027]第二方面,本公开实施例提供了一种新媒体账号的地域标注装置,包括:
[0028]分类模块,用于根据新媒体账号的认证类型将新媒体账号分为第一类别和第二类别;
[0029]第一标注模块,用于将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;
[0030]第二标注模块,用于根据预设的标注规则对第二类别的新媒体账号数据进行标注,得到标注好的地域标签。
[0031]第三方面,本公开实施例提供了一种新媒体账号的地域标注设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的新媒体账号的地域标注方法。
[0032]第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的一种新媒体账号的地域标注方法。
[0033]本公开实施例提供的技术方案可以包括以下有益效果:
[0034]根据本公开实施例提供的新媒体账号的地域标注方法,可以根据新媒体账号的认证类型,将政府账号、社会团体账号、媒体账号分为第一类别,将企业账号和个体工商户账号分为第二类别,对第一类别的新媒体账号采用预训练的机器学习模型进行地域标注,对第二类别的新媒体账号采用预设的标注规则进行地域标注,通过根据新媒体账号的不同类别采用不同的方法生成地域标签,可以兼顾各类新媒体账号地域标签的完整性和准确率。通过对政府、媒体、社会团体等新媒体账号进行地域标注,可以支持上层应用基于地域维度的数据分析,如按地区进行账号筛选,统计某个地区的发稿量和传播情况等。
[0035]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0036]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0037]图1是根据一示例性实施例示出的一种新媒体账号的地域标注方法的流程示意图;
[0038]图2是根据一示例性实施例示出的一种新媒体账号的地域标注方法的另一流程示意图;
[0039]图3是根据一示例性实施例示出的一种验证结果的示意图;
[0040]图4是根据一示例性实施例示出的一种验证结果的另一示意图;
[0041]图5是根据一示例性实施例示出的一种模型训练方法的流程示意图;
[0042]图6是根据一示例性实施例示出的一种模型在线推断的流程示意图;
[0043]图7是根据一示例性实施例示出的一种新媒体账号的地域标注装置的结构示意图;
[0044]图8是根据一示例性实施例示出的一种新媒体账号的地域标注设备的结构示意图;
[0045]图9是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
[0046]以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。
[0047]应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0048]下面的描述涉及附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新媒体账号的地域标注方法,其特征在于,包括:根据新媒体账号的认证类型将所述新媒体账号分为第一类别和第二类别;将所述第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;根据预设的标注规则对所述第二类别的新媒体账号数据进行标注,得到标注好的地域标签。2.根据权利要求1所述的方法,其特征在于,将所述第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签之前,还包括:构建训练数据集;根据所述训练数据集训练所述地域标注模型,其中,所述地域标注模型为添加词频

逆文本频率指数的支持向量机模型。3.根据权利要求1所述的方法,其特征在于,将所述第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签,包括:提取所述第一类别的新媒体账号数据的关键词,得到关键词列表;统计所述关键词列表的词频

逆文本频率指数,生成词频矩阵;将所述词频矩阵转化成文本向量;将所述文本向量输入所述地域标注模型,得到标注好的地域标签。4.根据权利要求1所述的方法,其特征在于,根据预设的标注规则,对所述第二类别的新媒体账号数据进行标注,得到标注好的地域标签,包括:获取所述第二类别的新媒体账号对应的登记机关、登记地址和统一社会信用代码;根据所述登记机关、登记地址和统一社会信用代码对应的行政区划三级信息得到所述新媒体账号的地域标签。5.根据权利要求4所述的方法,其特征在于,根据所述登记机关、登记地址和统一社会信用代码...

【专利技术属性】
技术研发人员:刘建华韦鹏
申请(专利权)人:北京易标智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1