一种自媒体文章隐患识别方法及系统技术方案

技术编号:21453956 阅读:16 留言:0更新日期:2019-06-26 04:47
本发明专利技术公开了一种自媒体文章隐患识别方法及系统。其方法包括以下步骤:识别自媒体文章的类型及设置敏感词;统计自媒体文章中敏感词出现次数;判断自媒体文章内容是否存在隐患。本发明专利技术的方法及系统解决了不能识别自媒体文章的隐患的技术问题。

【技术实现步骤摘要】
一种自媒体文章隐患识别方法及系统
本专利技术属于即时通信
,特别是涉及一种自媒体文章隐患识别方法及系统。
技术介绍
在自媒体时代,自媒体文章不受审核,可以随意发布,很容易造成虚假信息、反动信息、造谣煽动信息的传播,不仅给社会带来危害,而且容易误导阅读者。需要一种能够识别自媒体文章的隐患的技术方案,为此提出一种自媒体文章隐患识别方法及系统。
技术实现思路
本专利技术所要解决的技术问题是不能识别自媒体文章的隐患的问题,提出一种自媒体文章隐患识别方法及系统。本专利技术依托即时通信软件系统,所述即时通信软件系统是指具有自媒体发布文章渠道的app或网页或小程序的任一项。本专利技术的自媒体文章隐患识别方法,包括以下步骤:识别自媒体文章的类型及设置敏感词:根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型;根据文章类型设置与文章类型对应的敏感词,统计敏感词数量,记为N,对敏感词进行编号,记为i,1≤i≤N,设置敏感词的权重值,记为pi。所述文章类型包括广告文章、新闻文章、励志文章、公共生活文章、健康保健文章、科普文章。所述与文章类型对应的敏感词是指使文章具有反动性质或造谣煽动性质或广告性质或虚假药品保健性质或骗点击性质的任一项或多项的字、词、句。统计自媒体文章中敏感词出现次数:识别自媒体文章的内容中出现的敏感词,计算敏感词出现的次数,用变量ni表示。判断自媒体文章内容是否存在隐患:根据即时通信数据中敏感词出现的次数ni及敏感词的权重值pi计算自媒体文章隐患参考值x;判断x是否大于事先设置的隐患参考阈值X,若是,则判定该自媒体文章内容存在隐患。所述自媒体文章隐患参考值其中k是事先设置的计算系数。判断自媒体账号与文章是否匹配(可选步骤):查询自媒体账号的历史文章类型,判断该自媒体文章类型是否属于发布量排名前M的文章类型,其中M值事先设置,若是,则判定自媒体账号与文章匹配,否则判定自媒体账号与文章不匹配,增大自媒体文章隐患参考值x。本专利技术的自媒体文章隐患识别系统,其特征在于包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括:识别自媒体文章的类型及设置敏感词模块:根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型;根据文章类型设置与文章类型对应的敏感词,统计敏感词数量,记为N,对敏感词进行编号,记为i,1≤i≤N,设置敏感词的权重值,记为pi。所述文章类型包括广告文章、新闻文章、励志文章、公共生活文章、健康保健文章、科普文章。所述与文章类型对应的敏感词是指使文章具有反动性质或造谣煽动性质或广告性质或虚假药品保健性质或骗点击性质的任一项或多项的字、词、句。统计自媒体文章中敏感词出现次数模块:识别自媒体文章的内容中出现的敏感词,计算敏感词出现的次数,用变量ni表示。判断自媒体文章内容是否存在隐患模块:根据即时通信数据中敏感词出现的次数ni及敏感词的权重值pi计算自媒体文章隐患参考值x;判断x是否大于事先设置的隐患参考阈值X,若是,则判定该自媒体文章内容存在隐患。所述自媒体文章隐患参考值其中k是事先设置的计算系数。判断自媒体账号与文章是否匹配模块(可选模块):查询自媒体账号的历史文章类型,判断该自媒体文章类型是否属于发布量排名前M的文章类型,其中M值事先设置,若是,则判定自媒体账号与文章匹配,否则判定自媒体账号与文章不匹配,增大自媒体文章隐患参考值x。本专利技术的方法及系统具有的优点是:(1)识别与自媒体文章类型对应的敏感词,统计文章中敏感词出现的次数,有效识别自媒体文章是否存在隐患。(2)通过识别自媒体文章的隐患,为防止自媒体文章对公众的误导或危害提供依据。附图说明图1是本专利技术实施例一的自媒体文章隐患识别方法流程图;图2是本专利技术实施例二的自媒体文章隐患识别方法流程图;图3是本专利技术实施例三的自媒体文章隐患识别系统结构示意图;图4是本专利技术实施例四的自媒体文章隐患识别系统结构示意图。具体实施方式下面对本专利技术优选实施例作详细说明。本专利技术依托即时通信软件系统,所述即时通信软件系统是指具有自媒体发布文章渠道的app或网页或小程序的任一项。本实施例针对某即时通信软件如微信,识别其自媒体文章的隐患。实施例一、一种自媒体文章隐患识别方法。本实施例的自媒体文章隐患识别方法,按如下步骤实现:识别自媒体文章的类型及设置敏感词:根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型;根据文章类型设置与文章类型对应的敏感词,统计敏感词数量,记为N,对敏感词进行编号,记为i,1≤i≤N,设置敏感词的权重值,记为pi。所述文章类型包括广告文章、新闻文章、励志文章、公共生活文章、健康保健文章、科普文章。所述与文章类型对应的敏感词是指使文章具有反动性质或造谣煽动性质或广告性质或虚假药品保健性质或骗点击性质的任一项或多项的字、词、句。本实施例中,即时通信系统(微信系统后台)接收某自媒体账号(公众号:十点读书)发送的文章发布请求,根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型为励志文章;根据励志文章的特征设置敏感词为:推荐书籍、推荐药品以及具有反动意义的词,N=3,对敏感词从1到3编号,记为i,根据敏感词的危害程度设置敏感词的权重值p1=0.2,p2=0.3,p3=0.5。统计自媒体文章中敏感词出现次数:识别自媒体文章的内容中出现的敏感词,计算敏感词出现的次数,用变量ni表示。本实施例中,根据已有的语义识别算法识别该文章内容中的出现“推荐书籍”,《李咏自传集》、《控制生活节奏》和《家庭关系》,则n1=3,没有出现推荐药品以及具有反动意义的词,n2=0,n3=0。判断自媒体文章内容是否存在隐患:根据即时通信数据中敏感词出现的次数ni及敏感词的权重值pi计算自媒体文章隐患参考值x;判断x是否大于事先设置的隐患参考阈值X,若是,则判定该自媒体文章内容存在隐患。所述自媒体文章隐患参考值其中k是事先设置的计算系数。本实施例中,事先设置的计算系数k=1,计算自媒体文章隐患参考值事先设置的隐患参考阈值X=0.6,x<X,则判定该自媒体文章内容不存在隐患。本实施例的自媒体文章隐患识别方法流程图,如图1所示。实施例二、一种自媒体文章隐患识别方法。本实施例的自媒体文章隐患识别方法,按如下步骤实现:识别自媒体文章的类型及设置敏感词:根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型;根据文章类型设置与文章类型对应的敏感词,统计敏感词数量,记为N,对敏感词进行编号,记为i,1≤i≤N,设置敏感词的权重值,记为pi。所述文章类型包括广告文章、新闻文章、励志文章、公共生活文章、健康保健文章、科普文章。所述与文章类型对应的敏感词是指使文章具有反动性质或造谣煽动性质或广告性质或虚假药品保健性质或骗点击性质的任一项或多项的字、词、句。本实施例中,即时通信系统(微信系统后台)接收某自媒体账号(公众号:十点读书)发送的文章发布请求,根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型为励志文章;根据励志文章的特征设置敏感词为:推荐书籍、推荐药品以及具有反动意义的词,N=3,对敏感词从1到3编号,记为i,根据敏感词的危害程度设置敏感词的权本文档来自技高网...

【技术保护点】
1.一种自媒体文章隐患识别方法,其特征在于包括以下步骤:识别自媒体文章的类型及设置敏感词:根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型;根据文章类型设置与文章类型对应的敏感词,统计敏感词数量,记为N,对敏感词进行编号,记为i,1≤i≤N,设置敏感词的权重值,记为pi;统计自媒体文章中敏感词出现次数:识别自媒体文章的内容中出现的敏感词,计算敏感词出现的次数,用变量ni表示;判断自媒体文章内容是否存在隐患:根据自媒体文章中敏感词出现的次数ni及敏感词的权重值pi计算自媒体文章隐患参考值x;判断x是否大于事先设置的隐患参考阈值X,若是,则判定该自媒体文章内容存在隐患。

【技术特征摘要】
1.一种自媒体文章隐患识别方法,其特征在于包括以下步骤:识别自媒体文章的类型及设置敏感词:根据自媒体文章的发布方账号及文章格式识别该自媒体文章的文章类型;根据文章类型设置与文章类型对应的敏感词,统计敏感词数量,记为N,对敏感词进行编号,记为i,1≤i≤N,设置敏感词的权重值,记为pi;统计自媒体文章中敏感词出现次数:识别自媒体文章的内容中出现的敏感词,计算敏感词出现的次数,用变量ni表示;判断自媒体文章内容是否存在隐患:根据自媒体文章中敏感词出现的次数ni及敏感词的权重值pi计算自媒体文章隐患参考值x;判断x是否大于事先设置的隐患参考阈值X,若是,则判定该自媒体文章内容存在隐患。2.根据权利要求1所述的自媒体文章隐患识别方法,其特征在于,还包括步骤:判断自媒体账号与文章是否匹配;查询自媒体账号的历史文章类型,判断该自媒体文章类型是否属于发布量排名前M的文章类型,其中M值事先设置,若是,则判定自媒体账号与文章匹配,否则判定自媒体账号与文章不匹配,增大自媒体文章隐患参考值x。3.根据权利要求1所述的自媒体文章隐患识别方法,其特征在于,所述文章类型包括广告文章、新闻文章、励志文章、公共生活文章、健康保健文章、科普文章。4.根据权利要求1所述的自媒体文章隐患识别方法,其特征在于,所述与文章类型对应的敏感词是指使文章具有反动性质或造谣煽动性质或广告性质或虚假药品保健性质或骗点击性质的任一项或多项的字、词、句。5.根据权利要求1所述的自媒体文章隐患识别方法,其特征在于,所述自媒体文章隐患参考值其中k是事先设置的计算系数。6.一种自媒体文章隐患识别系统,其特征在于包括:一个或多个处理器;存储器;...

【专利技术属性】
技术研发人员:严军荣卢玉龙
申请(专利权)人:杭州乾博科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1