一种从微信中发现特定领域微信公众号的方法技术

技术编号:20242456 阅读:98 留言:0更新日期:2019-01-29 23:22
本发明专利技术涉及一种从微信中发现特定领域微信公众号的方涉,属于数据挖掘技术领域。所述方法包括:关联已知特定领域微信公众号的账号主体、搜索微信公众号的账号信息和文章信息,生成候选特定领域微信公众号列表,利用构建的待发现特定领域文章分类模型对其文章信息进行判断,确保其文章内容和特定领域相关,完成从微信中发现特定领域微信公众号。本发明专利技术方法解决了微信公众号账号信息和文章内容不符的问题,扩展了待发现目标的来源,且在初始配置后自循环发现,不需要长期人工干预,从而有效提高特定领域微信公众号发现的准确性、全面性和自增长性。

【技术实现步骤摘要】
一种从微信中发现特定领域微信公众号的方法
本专利技术涉及一种从微信中发现特定领域微信公众号的方法,属于数据挖掘

技术介绍
随着移动智能终端的兴起和移动互联网的快速发展,微信应运而生,并已发展成为移动端主流的即时通讯工具,兼具社交功能。微信公众平台建立在微信基础上,通过这个平台,机构或个人可以申请并运营微信公众号,以文字、图片、语音、视频等方式实现与特定群体的全方位沟通和互动;用户可以订阅感兴趣的微信公众号,接收相关资讯。目前,微信公众平台已经成长为一个新兴的受众广泛的自媒体平台以及众多企业和机构进行品牌宣传推广的平台,同时也成为用户在移动端的重要信息接入口。据统计,2017年微信公众号已突破2000万,月活跃账号数达350万。如何从如此庞大的微信公众平台中及时、准确、全面的发现特定领域的微信公众号,对于微信公众号的运营、相关产品营销、广告投放以及政府监管等具有重要意义。现有微信公众号发现方法主要采用特定领域关键词匹配微信公众号的账号信息,包括账号名称和功能介绍。但是该方法忽视了微信公众号的账号名称和功能介绍可能与微信公众号推送的文章内容不一致的问题,导致对微信公众号的发现不准、不全。
技术实现思路
本专利技术的目的是提出一种从微信中发现特定领域微信公众号的方法,对已有的微信公众号发现方法作出改进,以达到准确、全面、增量的发现特定领域微信公众号的目的。本专利技术提出的从微信中发现特定领域微信公众号的方法,包括以下步骤:(1)初始化:设置一个配置数据库,在该数据库中存放配置信息,配置信息包括从已知特定领域微信公众号中提取的代表性特点,代表性特点包括已知特定领域微信公众号的列表、关键词集合和账号主体列表;(2)通过与已知特定领域微信公众号的关联,根据上述数据库中的关键词集合,搜索微信公众号的账号信息和文章信息,生成候选特定领域微信公众号列表,具体过程如下:(2-1)根据上述步骤(1)的配置数据库中的账号主体列表,搜索微信微信公众号的账号主体,若搜索得到与该账号主体列表相同的账号主体的微信公众号,则将该微信公众号作为候选特定领域微信公众号,若搜索不到与该账号主体列表相同的账号主体的微信公众号,则进行步骤(2-2);(2-2)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的账号信息,账号信息包括账号名称和功能介绍,搜索微信公众号的账号名称和功能介绍,对账号名称和功能介绍分别进行判断,若账号名称或功能介绍中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则进行步骤(2-3);(2-3)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的文章信息,文章信息包括文章标题和正文内容,搜索微信公众号的文章标题和正文内容,对文章标题和正文内容分别进行判断,若文章标题和正文内容中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则返回步骤(1);(3)将上述步骤(2-1)、(2-2)和(2-3)中的候选特定领域微信公众号与上述步骤(1)的配置数据库中的公众号列表进行对比,若上述步骤(2-1)、(2-2)和(2-3)中的候选特定领域微信公众号没有出现在配置数据库中的公众号列表中,则进行步骤(4),若上述步骤(2-1)、(2-2)和(2-3)中的候选特定领域微信公众号出现在配置数据库中的公众号列表中,则将该微信公众号丢弃;遍历上述步骤(2-1)、(2-2)和(2-3)中的所有候选特定领域微信公众号,若上述步骤(2-1)、(2-2)和(2-3)中的候选特定领域微信公众号全部出现在配置数据库中的公众号列表中,则返回步骤(1);(4)获取上述步骤(3)中的候选特定领域微信公众号的文章信息,文章信息包括文章标题和正文内容;(5)采用分词和词向量表示学习方法,利用上述步骤(1)的配置数据库中的已知特定领域微信公众号的列表和关键词集合,构建一个待发现特定领域的文章分类模型;(6)利用上述步骤(5)的待发现特定领域的文章分类模型,对上述步骤(4)中的文章信息进行判断,若文章信息符合上述文章所属领域,则进入步骤(7),若文章信息不符合上述文章所属领域,则丢弃该文章信息所对应的候选特定领域微信公众号,遍历上述步骤(4)获取的所有候选特定领域微信公众号的文章信息,若文章信息全部不符合上述文章所属领域,则进行步骤(1);(7)将候选特定领域微信公众号作为发现的特定领域微信公众号,并将该发现的特定领域微信公众号保存到上述步骤(1)的配置数据库中的已知特定领域微信公众号列表中;(8)用上述步骤(7)发现的特定领域微信公众号信息更新上述步骤(1)的配置数据库;(9)重复上述步骤(2)-步骤(8),完成从微信中发现特定领域微信公众号。本专利技术提出的从微信中发现特定领域微信公众号的方法,其优点是:1、本专利技术方法利用账号主体关联发现和微信公众号文章关键词发现,扩展了待发现目标的来源,提高了特定领域微信公众号发现的全面性;2、本专利技术方法构建待发现特定领域的文章分类模型,对公众号文章进行判断,解决了微信公众号账号信息和文章内容不符的问题,提高了特定领域微信公众号发现的准确性;3、本专利技术方法在初始配置后自循环发现,不需要长期人工干预,提高了特定领域微信公众号发现的自增长性。附图说明图1为本专利技术提出的从微信中发现特定领域微信公众号的方法的流程框图。具体实施方式本专利技术提出的从微信中发现特定领域微信公众号的方法,包括以下步骤:(1)初始化:设置一个配置数据库,在该数据库中存放配置信息,配置信息包括从已知特定领域微信公众号中提取的代表性特点,代表性特点包括已知特定领域微信公众号的列表、关键词集合和账号主体列表;其中,账号主体是指微信公众号的所有者,包括企业、机构、个人等类型;(2)通过与已知特定领域微信公众号的关联,根据上述数据库中的关键词集合,搜索微信公众号的账号信息和文章信息,生成候选特定领域微信公众号列表,具体过程如下:(2-1)根据上述步骤(1)的配置数据库中的账号主体列表,搜索微信微信公众号的账号主体,若搜索得到与该账号主体列表相同的账号主体的微信公众号,则将该微信公众号作为候选特定领域微信公众号,若搜索不到与该账号主体列表相同的账号主体的微信公众号,则进行步骤(2-2);微信公众号账号主体关联:随着网络应用的繁荣发展,账号主体可能同时运营多个网站、微信公众号或其他网络应用。通常同一个账号主体关注的领域基本保持不变,为相同或相近的领域。(2-2)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的账号信息,账号信息包括账号名称和功能介绍,搜索微信公众号的账号名称和功能介绍,对账号名称和功能介绍分别进行判断,若账号名称或功能介绍中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则进行步骤(2-3);(2-3)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的文章信息,文章信息包括文章标题和正文内容,搜索微信公众号的文章标题和本文档来自技高网...

【技术保护点】
1.一种从微信中发现特定领域微信公众号的方法,其特征在于该方法包括以下步骤:(1)初始化:设置一个配置数据库,在该数据库中存放配置信息,配置信息包括从已知特定领域微信公众号中提取的代表性特点,代表性特点包括已知特定领域微信公众号的列表、关键词集合和账号主体列表;(2)通过与已知特定领域微信公众号的关联,根据上述数据库中的关键词集合,搜索微信公众号的账号信息和文章信息,生成候选特定领域微信公众号列表,具体过程如下:(2‑1)根据上述步骤(1)的配置数据库中的账号主体列表,搜索微信微信公众号的账号主体,若搜索得到与该账号主体列表相同的账号主体的微信公众号,则将该微信公众号作为候选特定领域微信公众号,若搜索不到与该账号主体列表相同的账号主体的微信公众号,则进行步骤(2‑2);(2‑2)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的账号信息,账号信息包括账号名称和功能介绍,搜索微信公众号的账号名称和功能介绍,对账号名称和功能介绍分别进行判断,若账号名称或功能介绍中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则进行步骤(2‑3);(2‑3)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的文章信息,文章信息包括文章标题和正文内容,搜索微信公众号的文章标题和正文内容,对文章标题和正文内容分别进行判断,若文章标题和正文内容中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则返回步骤(1);(3)将上述步骤(2‑1)、(2‑2)和(2‑3)中的候选特定领域微信公众号与上述步骤(1)的配置数据库中的公众号列表进行对比,若上述步骤(2‑1)、(2‑2)和(2‑3)中的候选特定领域微信公众号没有出现在配置数据库中的公众号列表中,则进行步骤(4),若上述步骤(2‑1)、(2‑2)和(2‑3)中的候选特定领域微信公众号出现在配置数据库中的公众号列表中,则将该微信公众号丢弃;遍历上述步骤(2‑1)、(2‑2)和(2‑3)中的所有候选特定领域微信公众号,若上述步骤(2‑1)、(2‑2)和(2‑3)中的候选特定领域微信公众号全部出现在配置数据库中的公众号列表中,则返回步骤(1);(4)获取上述步骤(3)中的候选特定领域微信公众号的文章信息,文章信息包括文章标题和正文内容;(5)采用分词和词向量表示学习方法,利用上述步骤(1)的配置数据库中的已知特定领域微信公众号的列表和关键词集合,构建一个待发现特定领域的文章分类模型;(6)利用上述步骤(5)的待发现特定领域的文章分类模型,对上述步骤(4)中的文章信息进行判断,若文章信息符合上述文章所属领域,则进入步骤(7),若文章信息不符合上述文章所属领域,则丢弃该文章信息所对应的候选特定领域微信公众号,遍历上述步骤(4)获取的所有候选特定领域微信公众号的文章信息,若文章信息全部不符合上述文章所属领域,则进行步骤(1);(7)将候选特定领域微信公众号作为发现的特定领域微信公众号,并将该发现的特定领域微信公众号保存到上述步骤(1)的配置数据库中的已知特定领域微信公众号列表中;(8)用上述步骤(7)发现的特定领域微信公众号信息更新上述步骤(1)的配置数据库;(9)重复上述步骤(2)‑步骤(8),完成从微信中发现特定领域微信公众号。...

【技术特征摘要】
1.一种从微信中发现特定领域微信公众号的方法,其特征在于该方法包括以下步骤:(1)初始化:设置一个配置数据库,在该数据库中存放配置信息,配置信息包括从已知特定领域微信公众号中提取的代表性特点,代表性特点包括已知特定领域微信公众号的列表、关键词集合和账号主体列表;(2)通过与已知特定领域微信公众号的关联,根据上述数据库中的关键词集合,搜索微信公众号的账号信息和文章信息,生成候选特定领域微信公众号列表,具体过程如下:(2-1)根据上述步骤(1)的配置数据库中的账号主体列表,搜索微信微信公众号的账号主体,若搜索得到与该账号主体列表相同的账号主体的微信公众号,则将该微信公众号作为候选特定领域微信公众号,若搜索不到与该账号主体列表相同的账号主体的微信公众号,则进行步骤(2-2);(2-2)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的账号信息,账号信息包括账号名称和功能介绍,搜索微信公众号的账号名称和功能介绍,对账号名称和功能介绍分别进行判断,若账号名称或功能介绍中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则进行步骤(2-3);(2-3)根据上述步骤(1)的配置数据库中的关键词集合,搜索微信公众号的文章信息,文章信息包括文章标题和正文内容,搜索微信公众号的文章标题和正文内容,对文章标题和正文内容分别进行判断,若文章标题和正文内容中的关键词与上述配置数据库中的关键词一致,则将该微信公众号作为候选特定领域微信公众号,若账号名称和功能介绍中的关键词与上述配置数据库中的关键词不一致,则返回步骤(1);(3)将上述步骤(2-1)、...

【专利技术属性】
技术研发人员:孙立远陈训逊王博徐晓燕黄亮谢程利
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1