【技术实现步骤摘要】
面向金融领域事件抽取的篇章级长文本数据预处理方法及系统
[0001]本专利技术属于大数据与人工智能
,具体涉及一种面向金融领域事件抽取的数据准 备、数据清洗与数据处理的方法及系统。
技术介绍
[0002]事件抽取就是从文本数据中探查触发词以及抽取相关事件元素的过程,在自然语言处理 中事件抽取技术扮演着非常重要的角色。由于事件抽取技术可以从非结构化数据(例如:文 本数据)中抽取出特定的事件或事实信息,并以结构化数据的形式进行存储,从而产生一系 列有价值的结构化文本型数据,在知识库构建、智能问答系统以及自然语言理解等方面应用 广泛。近些年随着数字化技术在金融、医疗、智慧城市等领域的快速发展,事件抽取技术在 这些领域的应用也逐渐引起了人们的重视。以金融领域为例,持续的经济发展带来了金融文 档数量爆炸式的增长。如此规模巨大的金融文档数据,需要采用事件抽取等自然语言处理技 术从中抽取出结构化的信息,对这些结构化数据进行分析和整理,并将这些数据应用到金融 领域的真实场景中,从而预测可能发生的金融风险,促使人们做出必要的应对措施,对 ...
【技术保护点】
【技术特征摘要】
1.面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,包括以下步骤:1)选取金融事件类型,并根据不同的金融事件类型定义事件要素;2)从互联网上公开数据源获取各类金融事件的篇章级长文本类数据,并对文本类数据进行清洗,将清洗后数据格式转换成JSON格式,保存到MongoDB数据库;3)根据不同的金融事件类型进行触发词设定,通过设定的触发词筛选出包含目标金融事件的文本;4)对筛选后的文本进行数据标注,形成可以训练事件抽取模型的数据集;5)运用构造的数据集训练事件抽取模型,得到的事件抽取结果并检验数据集的效果。2.根据权利要求1所述的面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,所述步骤2)的具体方法如下:2.1)使用Python的Scrapy框架对金融类网站上包含金融事件的文本数据进行爬取;2.2)使用字符串匹配删除的方法对文本数据进行清洗;2.3)将清洗后的文本保存为JSON格式并存入MongoDB数据库。3.根据权利要求1所述的面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,所述步骤3)的具体方法如下:3.1)将MongoDB数据库中的原始数据文本进行首次触发识别:根据事件关键词对原始的篇章级长文本数据进行一级触发筛选,此时的文本仅仅包含事件关键词,并不能确保文本数据包含金融事件;3.2)为每一类事件匹配贴合事件类型的触发词词典,并根据触发词词典进行二级触发;3.3)根据对文本包含事件准确率及文本数量需求的不同,对二级触发后的文本再次触发,形成多级触发。4.根据权利要求1所述的面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,所述的触发词词典包括正向触发词词典和反向触发词词典;其中,正向触发词为用于确定金融事件的触发词,通过删除不包含正向触发词的文本,来达到筛选文本的目的;反向触发词为金融事件明确不包含的触发词,...
【专利技术属性】
技术研发人员:李冬,雷智磊,纪婉婷,宋宝燕,单晓欢,王俊陆,
申请(专利权)人:辽宁大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。