基于人工智能的新闻质量判断方法、设备及存储介质技术

技术编号:16327362 阅读:36 留言:0更新日期:2017-09-29 19:10
本发明专利技术实施例公开了一种基于人工智能的新闻质量判断方法、设备及存储介质。所述方法包括:根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型;采用所述新闻质量分类模型对待检测新闻进行质量判断。本发明专利技术实施例通过根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型,并采用所述新闻质量分类模型对待检测新闻进行质量判断,使新闻质量判断过程更加智能化,可以提高新闻质量判断效率和准确性。

【技术实现步骤摘要】
基于人工智能的新闻质量判断方法、设备及存储介质
本专利技术实施例涉及互联网
,尤其涉及一种基于人工智能的新闻质量判断方法、设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。近期百度借助自然语言处理技术带来了“交互新闻”,实现了更加智能和自然的内容组织及阅读体验。推出交互新闻的目的是向用户推荐高质量的有价值的新闻,因此就需要对新闻进行质量判断,从而过滤掉低质量的新闻(例如,广告、色情或软文等)。目前,主要是通过对大量的新闻进行人工规则提取,然后采用规则匹配的方法来过滤掉低质量的新闻。而低质量新闻的表现各不相同,例如软文,是由企业的市场策划人员或广告公司的文案人员来负责撰写的“文字广告”。使宣传内容和文章内容完美结合在一起,让用户在阅读文章时候能够了解策划人所要宣传的东西。对于软文这种高质量的广告,从简单的规则匹配是很难进行区分的。因此单纯的人工规则提取,不仅消耗大量的人力,而且提取的规则很难覆盖到所有的低质量新闻,从而导致新闻质量判断效率较低,且准确性较低。
技术实现思路
本专利技术实施例提供一种基于人工智能的新闻质量判断方法、设备及存储介质,可以提高新闻质量判断效率和准确性。第一方面,本专利技术实施例提供了一种基于人工智能的新闻质量判断方法,该方法包括:根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型;采用所述新闻质量分类模型对待检测新闻进行质量判断。第二方面,本专利技术实施例还提供了一种基于人工智能的新闻质量判断装置,该装置包括:模型构建模块,用于根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型;质量判断模块,用于采用所述新闻质量分类模型对待检测新闻进行质量判断。第三方面,本专利技术实施例还提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例任一所述的基于人工智能的新闻质量判断方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例任一所述的基于人工智能的新闻质量判断方法。本专利技术实施例通过根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型,并采用所述新闻质量分类模型对待检测新闻进行质量判断,使新闻质量判断过程更加智能化,可以提高新闻质量判断效率和准确性。附图说明图1是本专利技术实施例一提供的一种基于人工智能的新闻质量判断方法的流程图;图2是本专利技术实施例二提供的一种基于人工智能的新闻质量判断方法的流程图;图3是本专利技术实施例三提供的一种基于人工智能的新闻质量判断方法的流程图;图4是本专利技术实施例四提供的一种基于人工智能的新闻质量判断装置的结构图;图5是本专利技术实施例五提供的一种计算机设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的一种基于人工智能的新闻质量判断方法的流程图,本实施例可适用于新闻质量判断的情况,该方法可以由本专利技术实施例提供的基于人工智能的新闻质量判断装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可集成在终端设备中或终端设备的应用端中。其中,终端设备可以为但不限于为移动终端(平板电脑或智能手机)、固定终端(台式电脑或笔记本)。其中,应用端可以为内嵌于终端设备中的某个客户端的插件,或者为所述终端设备的操作系统的插件,与内嵌于终端设备中的基于人工智能的新闻质量判断的客户端或者终端设备的操作系统中的基于人工智能的新闻质量判断应用程序配合使用;应用端也可以为所述终端设备中一个独立的可提供基于人工智能的新闻质量判断的客户端,本实施例对此不进行限制。如图1所述,本实施例的方法具体包括:S101、根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型。其中,已知高质量新闻为未包含广告、色情、黄反等内容的新闻,低质量新闻为包含广告、色情、黄反等内容的新闻。具体的,可通过人工判断的方式获取至少一个高质量新闻作为已知高质量新闻,和/或获取至少一个低质量新闻作为已知低质量新闻。其中,新闻特征可以包含以下至少一项信息:词频信息、词性信息、专有名称信息和情感特征。其中,词频信息为单词在整篇新闻的标题和/或内容中出现的次数,词性信息为整篇新闻的词性标注,例如,形容词、名称、动词和副词等,专有名称为出现在新闻中的品牌、人名、公司名称或产品名称等,情感特征是新闻撰写者所表达出的情感倾向,例如对某个品牌的赞美或诋毁等。针对高质量新闻,必然对应有独特的新闻特征,对于低质量新闻,也必然对应有独特的新闻特征,因此,根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型,可以更厚的区分新闻质量。S102、采用所述新闻质量分类模型对待检测新闻进行质量判断。具体的,可将待检测新闻或提取的待检测新闻的新闻特征输入新闻质量分类模型中进行训练学习,所述新闻质量分类模型会直接输出分类结果,根据该分类结果即可确定待检测新闻是高质量新闻还是低质量新闻。本实施例通过根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型,并采用所述新闻质量分类模型对待检测新闻进行质量判断,使新闻质量判断过程更加智能化,可以提高新闻质量判断效率和准确性。实施例二图2是本专利技术实施例二提供的一种基于人工智能的新闻质量判断方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将所述根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型进一步优化为:根据预先设定的新闻质量判断规则,从所述已知高质量新闻和/或已知低质量新闻中提取候选新闻特征;从所述候选新闻特征中选取具有表征新闻质量区分度的新闻特征作为训练数据,并根据已知的新闻质量等级对所述训练数据进行标记;采用机器学习分类算法对所述训练数据进行学习,得到所述新闻质量分类模型。相应的,本实施例的方法具体包括:S201、根据预先设定的新闻质量判断规则,从已知高质量新闻和/或已知低质量新闻中提取候选新闻特征。其中,所述新闻质量判断规则可包括一本文档来自技高网...
基于人工智能的新闻质量判断方法、设备及存储介质

【技术保护点】
一种基于人工智能的新闻质量判断方法,其特征在于,包括:根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型;采用所述新闻质量分类模型对待检测新闻进行质量判断。

【技术特征摘要】
1.一种基于人工智能的新闻质量判断方法,其特征在于,包括:根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型;采用所述新闻质量分类模型对待检测新闻进行质量判断。2.根据权利要求1所述的方法,其特征在于,所述根据已知高质量新闻的新闻特征和/或已知低质量新闻的新闻特征构建新闻质量分类模型包括:根据预先设定的新闻质量判断规则,从所述已知高质量新闻和/或已知低质量新闻中提取候选新闻特征;从所述候选新闻特征中选取具有表征新闻质量区分度的新闻特征作为训练数据,并根据已知的新闻质量等级对所述训练数据进行标记;采用机器学习分类算法对所述训练数据进行学习,得到所述新闻质量分类模型。3.根据权利要求2所述的方法,其特征在于,所述从所述已知高质量新闻和/或已知低质量新闻中提取候选新闻特征包括:从所述已知高质量新闻和/或已知低质量新闻中提取以下至少一项特性信息作为所述候选新闻特征:词频信息、词性信息、专有名称信息和情感特征。4.根据权利要求3所述的方法,其特征在于,所述从所述已知高质量新闻和/或已知低质量新闻中提取词频信息包括:从所述已知高质量新闻和/或已知低质量新闻中提取词语和/或词组,并统计所述词语和/或词组在标题域中的词频信息。5.根据权利要求3所述的方法,其特征在于,所述从所述已知高质量新闻和/或已知低质量新闻中提取词性信息包括:从所述已知高质量新闻和/或已知低质量新闻的内容域提取具有表意能力的词语或词组;对所述词语或词组中包含的词语进行词性标注,得到所述词性信息。6.根据权利要求3所述的方法,其特征在于,所述从所述已知高质量新闻和/或已知低质量新闻中提取专有名称包括:对所述已知高质量新闻和/或已知低质量新闻的内容域进行专有名称识别,由识别出的专有名称组成专有名称信息。7.根据权利要求3所述的方法,其特征在于,所述从所述已知高质量新闻和/或已知低质量新闻中提取情感特征包括:对所述已知高质量新闻和/或已知低质量新闻中包含的语句进行识别,统计出正向情感句子的个数、中立情感句子的个数和负向情感句子的个数中的至少一项作为情感特征。8.根据权利要求2所述的方法,其特征在于,从所述候选新闻特征中选取具有表征新闻质量区分度的新闻特征作为训练数据包括:计算各候选新闻特征的熵;根据所述各候选新闻特征的熵,从所述候选新闻特征中选取具有表征新闻质量区分度的新闻特征作为训练数据。9.根据权利要求2-8任一项所述的方法,其特征在于,所述新闻质量判断规则包括一下至少一项:是否包含品牌信息、是否包含产品信息、新闻宣传意图、品牌名称和/或产品名称在文章中出现的频率、用词表意是否积极正面、用词风格是否夸张。10.一种基于人工智能的新闻质量判断装置,其特征在于,包括:模型构建模块,用于根据已知高质量新闻的新闻...

【专利技术属性】
技术研发人员:刘志慧闭玮曹宇慧何径舟姜迪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1