一种信息确定方法和装置制造方法及图纸

技术编号:14313794 阅读:55 留言:0更新日期:2016-12-30 15:31
本发明专利技术实施例公开了一种信息确定方法和装置,对历史新闻的内容进行数据结构化,确定出所述历史新闻的热度值相关的语义特征集合以及语义特征相对于所述热度值所占的权重并保存在回归模型中;包括:获取网络中发布的信息,对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别是涉及一种信息确定方法和装置
技术介绍
信息可以随着网络快速传播,其中有些信息是可以用于形成新闻的素材。新闻提供商可以以这些作为新闻素材的信息为基础,通过加工形成新闻。如何从网上传播的海量信息中挑选出具有作为新闻素材条件的信息是一难点。目前主要通过人工的方式,通过对用户在网上最新发布的内容的大量浏览以及个人经验,从浏览的内容中找出可能具有作为新闻素材条件或者说具有新闻价值的信息。这种查找方式消耗大量人力,成本高。且面对网络上每时每刻出现的海量信息以及新闻所需的时效性,使用人工查找的效率太低。可见目前通过人工查找的方式无法有效的在网上发布的海量信息中确定出具有作为新闻素材条件的信息。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种信息确定方法和装置,以使得可以自动计算信息的热度值,以热度值衡量信息是否为用于形成新闻素材的信息,提高了效率。本专利技术实施例公开了如下技术方案:一种信息确定方法,对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;所述方法包括:获取网络中发布的信息,所述信息的发布时间具有新闻时效性;对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。可选的,若所述信息的热度值大于预设热度,还包括:确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。可选的,还包括:根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。可选的,在所述确定所述信息为用于形成新闻素材的信息后,还包括:根据所述第一对应关系得到所述信息的主题;确定出与所述信息的主题相同的所述历史新闻的主题;通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;使用所述相应的新闻模板将所述信息的内容生成新闻素材。可选的,若所述相应的新闻模板中包括待确认统计数据时,还包括:根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据;使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。一种信息确定装置,包括:回归模型建立单元,用于对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;获取单元,用于获取网络中发布的信息,所述信息的发布时间具有新闻时效性;结构化单元,用于对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;计算单元,用于将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;第一确定单元,用于若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。可选的,还包括:第二确定单元,用于若所述信息的热度值大于预设热度,确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。可选的,还包括:第三确定单元,用于根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。可选的,还包括:查询单元,用于在触发所述第一确定单元后,根据所述第一对应关系得到所述信息的主题;比对单元,用于确定出与所述信息的主题相同的所述历史新闻的主题;选择单元,用于通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;生成单元,用于使用所述相应的新闻模板将所述信息的内容生成新闻素材。可选的,还包括:检索单元,用于若所述选择单元选择的所述相应的新闻模板中包括待确认统计数据时,根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据;所述生成单元还用于使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。由上述技术方案可以看出,根据对历史新闻的数据结构化得到至少一个语义特征,根据历史新闻已知的热度值,计算出与热度值相关的语义特征相对于所述热度值所占的权重并保存在回归模型中,当获取网络中发布的具有新闻时效性的信息时,可以通过数据结构化,将得到的所述信息的至少一个语义特征输入到所述回归模型中,利用与所述信息的至少一个语义特征对应的权重计算出所述信息的热度值,若所述信息的热度值能够大于预设热度值,则将所述信息确定为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种信息确定方法的方法流程图;图2为本专利技术实施例提供的一种建立回归模型方法的方法流程图;图3为本专利技术实施例提供的一种生成新闻素材方法的方法流程图;图4为本专利技术实施例提供的一种统计数据确认方法的方法流程图;图5为本专利技术实施例提供的一种信息确定装置的装置结构图;图6为本专利技术实施例提供的一种信息确定装置的装置结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。网络中传播的有些信息是可以用于形成新闻的素材。新闻提供商可以以这些作为新闻素材的信息为基础,通过加工形成新闻。以此提高新闻产出速度和产出数量。目前主要通过人工的方式,通过对用户在网上最新发布的内容的大量浏览以及个人经验,从浏览的内容中找出可能具有作为新闻素材条件或者说具有新闻价值的信息。这种查找方式消耗大量人力,成本高。且面对网络上每时每刻出现的海量信息以及新闻所需的时效性,使用人工查找的效率太低。可见目前通过人工查找的方式无法有效的在网上发布的海量信息中确定出具有作为新闻素材条件的信息。为此,本专利技术实施例提供了一种信息确定方法和装置,根据对历史新闻的数据结构化得到至少一个语义特征,根据历史新闻已知的热度值,本文档来自技高网...
一种信息确定方法和装置

【技术保护点】
一种信息确定方法,其特征在于,对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;所述方法包括:获取网络中发布的信息,所述信息的发布时间具有新闻时效性;对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。

【技术特征摘要】
1.一种信息确定方法,其特征在于,对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;所述方法包括:获取网络中发布的信息,所述信息的发布时间具有新闻时效性;对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。2.根据权利要求1所述的方法,其特征在于,若所述信息的热度值大于预设热度,还包括:确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。3.根据权利要求2所述的方法,其特征在于,还包括:根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。4.根据权利要求3所述的方法,其特征在于,在所述确定所述信息为用于形成新闻素材的信息后,还包括:根据所述第一对应关系得到所述信息的主题;确定出与所述信息的主题相同的所述历史新闻的主题;通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;使用所述相应的新闻模板将所述信息的内容生成新闻素材。5.根据权利要求4所述的方法,其特征在于,若所述相应的新闻模板中包括待确认统计数据时,还包括:根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据
\t集合和计算算法计算得到所述待确认统计数据;使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。6.一种信息确定装置,其特征在于,包括:回归模型建立单元,用于对历史新闻的内容进行数据结构化,获得所...

【专利技术属性】
技术研发人员:叶舟汤开智王瑜徐季秋付志嵩闵万里
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1