【技术实现步骤摘要】
中文热点事件库智能构建方法
[0001]本专利技术涉及信息处理领域的热点事件分析技术,具体涉及事件库构建技术,尤其是智能化的中文热点事件库构建方法。
技术介绍
[0002]科学技术的飞速发展,带来了信息传播方式的日新月异,特别是随着互联网技术的不断成熟,使得通过互联网传播信息不仅简单快速而且廉价方便。但随着网络信息量的急剧膨胀,用户如何从这些海量的、存储结构凌乱的信息中快速获取所关注的热点事件信息,也随之变得越来越困难。
[0003]国际和社会形势不断变化,各类事件相互作用,导致事件发生的诱因日趋复杂,越来越多的学者发现对特定主题下大量事件的持续监控,可以发现该类事件的发展规律,近年来,新闻和社交网络等开放信息平台高速发展,为人们提供了洞察事件的第一手资料,也使得事件影响随网络迅速传播,甚至影响事态发展。针对大量混杂数据中的事件信息,越来越多的学者希望实现这类特殊事件的自动化发现,获得大量精度高、机器可阅读的事件数据,并构建出各类结构化事件库。2014
‑
2016年美国情报先进研究计划局连同多家高校 ...
【技术保护点】
【技术特征摘要】
1.一种中文热点事件库智能化构建方法,其特征在于,包括如下步骤:采用事件识别模块将输入的篇章、句子文本语料分割成句子集合,通过事件检测技术识别出其中的事件句,并通过分类和聚类技术得到事件句类型,将事件句和事件类型送入事件结构化模块,事件结构化模块基于BERT预训练模型的触发词识别技术识别句子中的触发词,并将触发词与事件句再次作为BERT模型输入提取深度语义特征,通过多重二分类器抽取句子中的要素信息;将事件句、事件类型、事件要素同时送入主题类别判定模块,通过分类和聚类两种方法得到当前事件句所属的主题类型;事件信息融合模块以事件句、事件类型、事件要素、触发词、主题类型为处理对象,采用基于前沿人工智能技术的事件合并、事件关联技术,将指代同一个事件的多条事件数据合并为一条事件数据,智能化融合形成一个有序、高质量的结构化事件数据库。2.如权利要求1所述的中文热点事件库智能化构建方法,其特征在于:事件识别模块包括:顺次串联的事件检测单元、子事件分类单元和子事件聚类单元,事件检测单元采用触发词库与深度神经网络结合的方法,从输入的篇章、句子级文本语料中识别出事件句,通过子事件分类单元所采用的神经网络模型对识别出来的事件句,按照子事件类型库中的政治、经济、外交、安全、科技的类别自动分类打标,判断事件类型是否明确,是则存入事件句/事件类型库,否则通过子事件聚类单元的聚类技术得到新事件类型,结合子事件类型人工确认得到事件句的类型,并存入子事件类型库,辅助子事件分类单元完成下一次事件分类任务,明确类型的事件句存入事件句/事件类型库。3.如权利要求1所述的中文热点事件库智能化构建方法,其特征在于:事件结构化模块包括:基于BERT模型的触发词识别单元、事件要素抽取单元,触发词识别单元以事件句...
【专利技术属性】
技术研发人员:潘磊,崔莹,高翔,廖泓舟,
申请(专利权)人:西南电子技术研究所中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。