目标事件的标记方法和装置、存储介质及电子装置制造方法及图纸

技术编号:22565795 阅读:45 留言:0更新日期:2019-11-16 12:19
本发明专利技术公开了一种目标事件的标记方法和装置、存储介质及电子装置。其中,该方法包括:获取待处理信息中携带的内容语句,其中,内容语句被切分为多个词组;在多个词组中确定出目标词组,其中,目标词组为出现在同一条待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。以至少解决相关技术中对目标事件进行检测的效率较低问题。

Marking method and device, storage medium and electronic device of target event

The invention discloses a method and device for marking a target event, a storage medium and an electronic device. Among them, the method includes: obtaining the content statements carried in the information to be processed, wherein the content statements are divided into multiple phrases; determining the target phrase in multiple phrases, wherein the target phrase is the phrase appearing in the same information to be processed, and the number of occurrences in a predetermined time period exceeds the preset number threshold; determining the information to be processed by using the classification model The target category corresponding to the target to be processed information of the target phrase, including the different categories of the target category corresponding to different weights in the classification model. The weight of the target category is used to indicate the possibility of the target phrase becoming the target event. When the weight corresponding to the target category exceeds the preset weight threshold, the target phrase contained in the target to be processed information is marked Is the target event. In order to at least solve the problem of low efficiency of detection of target events in related technologies.

【技术实现步骤摘要】
目标事件的标记方法和装置、存储介质及电子装置
本专利技术涉及游戏数据处理
,具体而言,涉及一种目标事件的标记方法和装置、存储介质及电子装置。
技术介绍
目前在相关技术中,针对网络热点事件的检测主要是使用词嵌入(WordEmbedding)相关算法训练词向量模型来实现。具体的,使用词向量模型获得词级别的向量表达,然后通过词向量拼接或获取语句主干的方式来提取主干词,再利用训练模型等方式来获得语句向量表达,然后通过聚类方法对语句向量进行聚类,获得事件簇。但是,目前相关技术提供的方式并不能实现对事件簇的类别进行智能识别,即,无法准确地确定出待检测的事件是真的热点事件,或是阶段性的频率高的正常事件,常常需要通过人工来辨别该事件是否为热点事件。也就是说,相关技术提供的这种检测方式,需要投入大量的人力成本,使得对事件检测的复杂度增加,从而导致检测效率较低的问题。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种目标事件的标记方法和装置、存储介质及电子装置,以至少解决相关技术中对目标事件进行检测的效率较低问题。根据本专利技术实施例的一个方面,提供了一种目标事件的标记方法,包括:获取待处理信息中携带的内容语句,其中,所述内容语句被切分为多个词组;在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件。根据本专利技术实施例的另一方面,还提供了一种目标事件的标记装置,包括:获取模块,用于获取待处理信息中携带的内容语句,其中,所述内容语句被切分为一个或多个词组;第一确定模块,用于在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;第二确定模块,用于使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;标记模块,用于在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件。可选地,所述第二确定模块包括:输入单元,用于将所述目标待处理信息输入所述分类模型,其中,所述目标待处理信息中包含一个或多个所述目标词组,所述分类模型是使用所述待处理信息中包含的所述词组作为训练样本对初始分类模型进行训练得到的;输出单元,用于输出所述目标词组对应的所述目标类别。可选地,所述装置还包括:训练模块,用于使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练,其中,所述第一目标待处理信息中包含标记为目标事件的词组和没有标记为目标事件的词组。可选地,所述训练模块包括:划分单元,用于将已经确定类别的第一目标待处理信息划分为训练数据集、验证数据集和测试数据集,其中,所述训练数据集和所述验证数据集用于对所述分类模型进行训练,所述测试数据集用于对训练后的所述分类模型进行测试;第一切分单元,用于将所述训练数据集和所述验证数据集中包含的所述内容语句切分为初始训练词组,将出现频率超过预设阈值的所述初始训练词组作为初始训练样本,其中,所述初始训练样本的向量维数为所述初始训练样本的数量;计算单元,用于通过向量表征算法计算所述初始训练样本的语义向量表征;第一训练单元,用于将所述初始训练样本的向量维数和所述初始训练样本的语义向量表征输入所述初始分类模型进行训练,得到所述分类模型;测试单元,用于通过所述测试数据集对所述分类模型的训练结果进行测试,并调整所述分类模型的模型参数。可选地,所述训练模块还包括:第二切分单元,用于将所述目标待处理信息中的目标内容语句切分为多个目标训练词组,其中,所述目标训练词组中只包含汉字、且不包含停用词,所述停用词至少包括感叹词和/或代词和/或语气词;确定单元,用于将出现频率超过预设阈值的所述目标训练词组确定为词袋;第一合并单元,用于将所述词袋与所述分类模型当前的训练样本合并,组成目标训练样本;第二训练单元,用于使用所述目标训练样本训练所述分类模型,并调整所述分类模型的模型参数。可选地,所述训练模块还包括:第一获取单元,用于获取上一次模型训练结束时刻至当前时刻的时间段内,确定的第二目标待处理信息,其中,所述第二目标待处理信息中包含预定时间段内出现次数超过预设次数阈值的词组;第二合并单元,用于将所述第二目标待处理信息中包含的词组并入所述分类模型当前的训练样本中。可选地,所述第一确定模块包括:第一确定单元,用于将出现在同一所述内容语句中、且在多个所述待处理信息的所述内容语句中出现次数超过预设阈值的词组确定为第一词组,其中,所述第一词组中仅包含汉字;第一丢弃单元,用于将今日占比小于第一预设占比阈值和/或今日词频小于第一预设词频阈值和/或今日词频增长率小于第一预设增长率阈值的所述第一词组丢弃,得到第二词组,其中,所述今日词频增长率是相对于前一天的词频获得的增长率;聚类单元,用于对所述第二词组进行聚类,得到第一词组簇;第二丢弃单元,用于将今日占比小于第二预设占比阈值和/或今日词频小于第二预设词频阈值和/或今日词频增长率小于第二预设增长率阈值的所述第一词组簇丢弃,得到第二词组簇;第二确定单元,用于确定所述第二词组簇中的词组为所述目标词组。可选地,所述第一丢弃单元包括:获取子单元,用于使用以下公式获取当前所述第一词组的今日占比:P1=exp{(logp/m)/logn)}其中,p表示当前所述第一词组前一天的占比,m和n分别为常数;确定子单元,用于通过比较每一个所述第一词组的今日占比,确定今日最小占比的所述第一词组;丢弃子单元,用于丢弃今日最小占比的所述第一词组。可选地,所述第一确定模块还包括:第二获取单元,用于通过以下公式获取所述第一词组在当前时间段中的波动系数:其中,x’表示波动系数,x表示所述第一词组在当前时间段内的词频,μ表示所述第一词组在前一天同一时间段内的词频均值,σ表示所述第一词组在前一天同一时间段内词频的标准差;第三丢弃单元,用于当所述波动系数小于预设波动值时,将所述第一词组丢弃。根据本专利技术实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述目标事件的确定方法。根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的目标事件的确定方法。在本专利技术实施例中,采用分类模型自动识本文档来自技高网...

【技术保护点】
1.一种目标事件的标记方法,其特征在于,包括:/n获取待处理信息中携带的内容语句,其中,所述内容语句被切分多个词组;/n在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;/n使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;/n在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件。/n

【技术特征摘要】
1.一种目标事件的标记方法,其特征在于,包括:
获取待处理信息中携带的内容语句,其中,所述内容语句被切分多个词组;
在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;
使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;
在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件。


2.根据权利要求1所述的方法,其特征在于,所述使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,包括:
将所述目标待处理信息输入所述分类模型,其中,所述分类模型是使用所述待处理信息中包含的所述词组作为训练样本对初始分类模型进行训练得到的;
输出所述目标待处理信息对应的所述目标类别。


3.根据权利要求2所述的方法,其特征在于,使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别之前,所述方法还包括:
使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练,其中,所述第一目标待处理信息中包含标记为目标事件的词组和没有标记为目标事件的词组。


4.根据权利要求3所述的方法,其特征在于,使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练包括:
将已经确定类别的第一目标待处理信息划分为训练数据集、验证数据集和测试数据集,其中,所述训练数据集和所述验证数据集用于对所述初始分类模型进行训练,所述测试数据集用于对训练后的所述分类模型进行测试;
将所述训练数据集和所述验证数据集中包含的所述内容语句切分为初始训练词组,将出现频率超过预设阈值的所述初始训练词组作为初始训练样本,其中,所述初始训练样本的向量维数为所述初始训练样本的数量;
通过向量表征算法计算所述初始训练样本的语义向量表征;
将所述初始训练样本的向量维数和所述初始训练样本的语义向量表征输入所述初始分类模型进行训练,得到所述分类模型;
通过所述测试数据集对所述分类模型的训练结果进行测试,并调整所述分类模型的模型参数。


5.根据权利要求3所述的方法,其特征在于,使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练之后,所述方法还包括:
将所述目标待处理信息中的目标内容语句切分为多个目标训练词组,其中,所述目标训练词组中只包含汉字、且不包含停用词,所述停用词至少包括感叹词和/或代词和/或语气...

【专利技术属性】
技术研发人员:邹耿鹏段建波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利