一种热点信息确定方法、计算机设备以及装置制造方法及图纸

技术编号:27936783 阅读:22 留言:0更新日期:2021-04-02 14:17
本申请公开了一种热点信息确定方法、计算机设备以及装置,该热点信息确定方法包括:获取待处理文本集;提取待处理文本集中每个文本的至少一个要素;确定每个要素对应的共享键;其中每个共享键对应一个要素或多个语义相同的要素;对不同共享键进行组合,获得共享键组合;根据共享键组合在待处理文本集中的出现频次,确定热点信息。通过上述方式,本申请能够准确、高效的确定热点信息。

【技术实现步骤摘要】
一种热点信息确定方法、计算机设备以及装置
本申请涉及信息分析领域,特别是涉及一种热点信息确定方法、计算机设备以及装置。
技术介绍
随着互联网的持续发展,信息传递速度的越来越快,互联网在短时间内会涌现出海量的咨询新闻,繁杂并且无序。人们获取信息越来越便利,但是信息获取便利的同时,需要花费时间仔细阅读,想要从大量文本中获取当下的热点信息,具有一定的难度。为了能够让所提供的网络服务拥有更高的即时性和时效性,准确高效的确定当前网络中的热点信息十分重要。
技术实现思路
本申请主要解决的技术问题是提供一种热点信息确定方法、计算机设备以及装置,能够准确、高效的确定热点信息。为解决上述技术问题,本申请采用的一个技术方案是:提供一种热点信息确定方法,包括:获取待处理文本集;提取待处理文本集中每个文本的至少一个要素;确定每个要素对应的共享键;其中每个共享键对应一个要素或多个语义相同的要素;对不同共享键进行组合,获得共享键组合;根据共享键组合在待处理文本集中的出现频次,确定热点信息。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机设备,包括处理器,处理器用于执行指令以实现上述的热点信息确定方法。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种具有存储功能的装置,存储有程序数据,能够被计算机所读取,程序数据能够被处理器执行,以实现上述的热点信息确定方法。本申请的有益效果是:区别于现有技术的情况,本申请提供了一种热点信息确定方法。该方法通过确定要素的共享键,将共享键进行组合后确定热点信息的方式,可以将不同描述方式的相同内容进行合并,使得热点信息的热度不会被分散。该方法能够准确的从文本集中确定事件的出现频次,提高热点信息的召回率,避免了因为描述方式不同导致的热点信息丢失。附图说明图1是根据本申请一实施例的热点信息确定方法的流程示意图;图2是根据本申请另一实施例的热点信息确定方法的流程示意图;图3是根据本申请一实施例的同义要素库更新方法的流程示意图;图4是根据本申请一实施例的热点信息推送界面的示意图;图5是根据本申请一实施例的热点信息确定系统的结构示意图;图6是根据本申请一实施例的计算机设备的结构示意图;图7是根据本申请一实施例的具有存储功能的装置的结构示意图。具体实施方式为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。本申请实施例中的热点信息确定方法可以在大量的文本信息中,将不同描述方式的同类信息进行提取,确定文本信息中的热点信息,有效的提高热点信息确定的准确率和召回率。本申请的实施例可以应用于各种信息推送系统,例如,网页推送系统,新闻推送系统或文章推送系统等。本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的结束方案的限定。本领域普通技术人员可知,在不付出创造性劳动的前提下,本申请实施例提供的技术方案对于其他应用场景中的类似技术问题,同样适用。本申请的热点信息确定方法可以在终端设备中实施,也可以有网络后台服务器、服务器集群或服务站点等设备实施。在不同的文本中,对于相同的事件可能会有不同的描述方式,从而可能会导致热点信息的热度被分散,使得热点信息难以被发现,造成了热点信息召回率偏低的问题。为解决这一技术问题,本申请提供了一种热点信息确定方法,以下进行详细阐述。参阅图1,图1是根据本申请一实施例的热点信息确定方法的流程示意图。该热点信息确定方法可以由热点信息确定系统实现。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,该方法包括:步骤110:获取待处理文本集。在一实施例中,待处理文本集可以是指热点信息确定系统收集的预设时间段内的出现的文本的集合。热点信息确定系统可以从数据源处获取待处理文本集。数据源可以包括但不限于各种新闻网站的作者,评论网站的作者,或社交网络平台的作者等。在数据源发布文本时,热点信息确定系统均儿科以获取到新发布的文本。预设时间段可以是根据用户需求所设定的,例如可以是一个小时,一天,一周或一个月等。文本可以是信件、新闻文章、评论文章、社交网络平台文章(例如微博、博客、公众号、朋友圈上发表的文章)或网页内容等。步骤130:提取待处理文本集中每个文本的至少一个要素。在一实施例中,要素可以是指一个事件中的构成要素。要素类型可以包括:时间、人物、政府机构名称、普通机构名称、疾病、群体名称、地址、法律法规、文书、项目或品牌等。要素还可以是指医疗、工程、司法等。热点信息确定系统可以利用任意方法提取文本中的要素,例如,可以利用要素提取模型对文本中的要素进行提取。步骤150:确定每个要素对应的共享键。其中,每个共享键对应一个要素或多个语义相同的要素;在一实施例中,每个要素对应一个共享键,但是一个共享键会对应一个或多个同义要素。要素与共享键的对应关系如表1所示。例如,“转业军人”对应一个共享键“46”,但是共享键“46”对应多个同义要素,例如“转业军人”、“转业士兵”、“转业军官”、“转业老兵””同义要素,即语义相同的要素可以是指同一个意思的不同说法。表1,要素与共享键对应关系示例表要素对应的共享键可能是已经存储有,也可能是新建的。热点信息确定系统可以从其他系统处调取要素对应的共享键,也可以是从已存储的数据库中搜索确定要素对应的共享键,又或者在该要素没有已存储的共享键时可以新建立共享键。步骤170:对不同共享键进行组合,获得共享键组合。在一实施例中,可以随机对不同数量的共享键进行组合。共享键对应的是词语,无法准确的描述一个事件。将共享键进行组合后可以形成词组或语句,从而可以准确的描述事件。通过对共享键进行随机组合可以获取多种事件。通过对共享键进行组合,可以实现不同共享键对应的多个要素进行组合。因而,一个共享键组合可以对应包括多个要素组合的要素组合集。具体的,可以将N个不同的共享键进行组合,获得共享键组合,例如将共享键32和共享键46进行组合,得到共享键组合[32&46],对应的要素组合集为[“安徽AA股份有限公司”&“转业军人”,“AA公司”&“转业军人”,“安徽AA”&“转业军人”,“AA”&“转业军人”,“安徽AA股份有限公司”&“转业士兵”,“AA公司”&“转业士兵”,“安徽AA”&“转业士兵”,“AA”&“转业士兵”,“安徽AA股份有限公司”&“转业士官”,“AA公司”&“转业士官”,“安徽AA”&“转业士官”,“AA”&“转业士官”,“安徽AA股份有限公司”&“转业老兵”,“AA公司”&“转业老兵”,“安徽AA”&“转业老兵”,“AA”&“转业老兵”,]。步骤190:根据共享键组合在待处理文本集中的出现频次,确本文档来自技高网...

【技术保护点】
1.一种热点信息确定方法,其特征在于,包括:/n获取待处理文本集;/n提取所述待处理文本集中每个所述文本的至少一个要素;/n确定每个所述要素对应的共享键;其中每个所述共享键对应一个要素或多个语义相同的要素;/n对不同所述共享键进行组合,获得共享键组合;/n根据所述共享键组合在所述待处理文本集中的出现频次,确定热点信息。/n

【技术特征摘要】
1.一种热点信息确定方法,其特征在于,包括:
获取待处理文本集;
提取所述待处理文本集中每个所述文本的至少一个要素;
确定每个所述要素对应的共享键;其中每个所述共享键对应一个要素或多个语义相同的要素;
对不同所述共享键进行组合,获得共享键组合;
根据所述共享键组合在所述待处理文本集中的出现频次,确定热点信息。


2.根据权利要求1所述的热点信息确定方法,其特征在于,所述确定每个所述要素对应的共享键,包括:
从所述同义要素集库中进行搜索,确定所述要素对应的所述共享键;其中所述同义要素库包括所述要素与所述共享键的对应关系。


3.根据权利要求2所述的热点信息确定方法,其特征在于,所述确定每个所述要素对应的共享键,还包括
若所述同义要素库中不存在所述要素,则进行模糊搜索确定候选同义要素列表;
确定所述要素与候选同义要素列表中的候选同义要素的相似度;
将所述相似度满足第一预设条件的候选同义要素确定为所述要素的同义要素,
以所述同义要素对应的所述共享键作为所述要素的所述共享键;并
将所述要素加入所述同义要素库中。


4.根据权利要求3所述的热点信息确定方法,其特征在于,所述确定每个所述要素对应的共享键,还包括
若所述同义要素库中不存在所述要素的所述同义要素,则生成新的共享键;
将所述要素与新生成的共享键进行关联,并
将所述新生成的共享键与所述要素加入所述同义要素库中。


5.根据权利要求1所述的热点信息确定方法,其特征在于,所述确定每个所述要素对应的共享键,还包括:
对所述要素进行规整化处理获得规整化要素,确定所述规整化要素对应的所述共享键。


6.根据权利要求1所述的热点信息确定方法,其特征在于,所述根据所述共享键组合在所述待处理文本集中的...

【专利技术属性】
技术研发人员:卜民周维陈志刚谭昶
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1