【技术实现步骤摘要】
事件信息处理方法与系统、设备及存储介质
[0001]本申请涉及互联网
,尤其涉及一种事件信息处理方法与系统、设备及存储介质。
技术介绍
[0002]在电商领域中,电商平台作为商家与消费用户之间的媒介,一方面要感知消费用户的需求,需要根据消费用户的需求进行商家和商品的选择,另一方面需要针对商家进行运营沟通,最终在平台上发布商家的商品,以供消费用户选购。在与商家运营沟通过程中,如果能够及时、准确地发现相关舆情信息,有利于平台做出更为合理的决策。
[0003]在现有技术中,存在多种舆情发现方案,但是这些方案都需要定义舆情意图,例如由用户指定关键词,从文本库中选择与关键词相关的文本信息,进一步采用情感分析,词云分析或渠道来源分析等方式从选择出的文本信息中挖掘符合预先定义意图的热点信息。这些舆情发现方案比较适合信息变化平缓且周期较长的场景,对于热点信息比较突发、具有不可预测性的场景并不适用,无法及时、准确地捕捉有效热点信息。
技术实现思路
[0004]本申请的多个方面提供一种事件信息处理方法与系统、设备及 ...
【技术保护点】
【技术特征摘要】
1.一种事件信息处理方法,其特征在于,包括:获取目标应用场景在当前时段内产生的目标文本信息,所述目标文本信息包括原始文本信息和/或由语音信息转换得到的文本信息;采用凝固度和最长词链融合的方式对所述目标文本信息进行新词发现,得到当前新词集合;基于当前新词集合中各新词的热度信息和热度趋势信息进行热点趋势词挖掘,以得到当前新词集合中的热点趋势词;基于多样化的词性模板,对所述热点趋势词所在文本信息进行事件信息抽取,以得到所述热点趋势词对应的事件描述信息。2.根据权利要求1所述的方法,其特征在于,采用凝固度和最长词链融合的方式对所述目标文本信息进行新词发现,得到当前新词集合,包括:采用n
‑
gram语言模型对所述目标文本信息进行词语识别,并对识别到的词语进行凝固度过滤,以得到初始词语集合,n是大于等于2的整数;采用最长词链算法,基于所述初始词语集合对所述目标文本信息进行分词,以得到候选分词;基于所述初始词语集合对所述候选分词进行回溯过滤,以得到有效分词,所述有效分词形成当前新词集合。3.根据权利要求2所述的方法,其特征在于,采用最长词链算法,基于所述初始词语集合对所述目标文本信息进行分词,以得到候选分词,包括:基于所述初始分词集合构建字典树,针对所述目标文本信息采用深度优先搜索算法搜索所述字典树,以得到最长词链,将所述最长词链作为所述候选分词。4.根据权利要求2所述的方法,其特征在于,基于所述初始词语集合对所述候选分词进行回溯过滤,以得到有效分词,包括:对每个候选分词,若所述候选分词的长度小于或等于n,且所述候选分词出现在所述初始词语集合中,则将所述候选分词作为有效分词;若所述候选分词的长度大于n,则按序将所述候选分词切分出长度为n的多个分词片段,将所述多个分词片段分别作为有效分词。5.根据权利要求1所述的方法,其特征在于,基于当前新词集合中各新词的热度信息和热度趋势信息进行热点趋势词挖掘,以得到当前新词集合中的热点趋势词,包括:结合历史时段内的历史新词集合,确定当前新词集合中各新词的热度信息和热度趋势信息;基于当前新词集合中各新词的热度信息和热度趋势信息,计算各新词对应的热点趋势综合得分;根据各新词对应的热点趋势综合得分,从各新词中选择热点趋势词。6.根据权利要求5所述的方法,其特征在于,结合历史时段内的历史新词集合,确定当前新词集合中各新词的热度信息和热度趋势信息,包括:针对当前新词集合中的每个新词,根据所述新词在当前时段内的词频和当前新词集合在当前时段内的总词频,确定所述新词在当前时段内的第一热度信息;根据所述新词在历史时段内的词频和历史新词集合在历史时段内的总词频,确定所述
新词在历史时段内的第二热度信息;根据所述第一热度信息和第二热度信息中的较大者,以及...
【专利技术属性】
技术研发人员:李国荣,马腾岳,陈粮阳,陈起进,徐晓舟,任卫军,黄薛蕾,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。