【技术实现步骤摘要】
一种地震新闻信息抽取方法及其系统
[0001]本专利技术涉及自然语言处理信息抽取
,尤其涉及一种地震新闻信息抽取方法及其系统。
技术介绍
[0002]地震事件是隶属于突发事件下具有极大危害性的自然灾害事件,通常会造成极大社会影响、带来严重经济损失和人员伤亡。同时中国也是世界上地震活动最强烈、地震灾害最严重的国家之一。当前国内对地震事件的研究主要在于应急救援指导、舆情引导、地震事件信息挖掘、地震信息存储以及地震数据实时监控等五个方面,国外则主要研究地震后产生的应激反应、地震知识共享以及社交媒体传播三个方面。
[0003]从当前的从媒体报道地震新闻事件的角度来看,不同媒体之间的时刻信息差和不同采访对象也导致其报道的新闻往往会从地震的不同角度进行报道,诸如地震带来的人员伤亡,是否导致震区交通阻断,救援队伍的救灾情况等,这也使得人们难以通过一家媒体了解地震新闻事件发生的全貌。
[0004]因此,目前需要一种对地震新闻文本的实体关系进行抽取的技术,然而目前的实体关系抽取技术没有基于时刻信息线展现地震新闻事件的变化 ...
【技术保护点】
【技术特征摘要】
1.一种地震新闻信息抽取方法,其特征在于,包括以下步骤:步骤S1,将实体库中的第一实体链接到新闻文本上,并且链接有所述第一实体的新闻文本记为第一处理文本;步骤S2,对所述第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;步骤S3,通过预设的数字类社会属性和正则表达式对所述第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据所述第一数字类社会属性新闻数组对所述第二处理文本进行分词,以得到分词结果,并根据所述分词结果将不存在于所述分词结果中的所述第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将所述第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;步骤S4,对所述第二处理文本的时间要素进行识别,并根据所述时间要素对所述时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对所述时间要素所在的新闻原句进行实体识别,以识别得到所述新闻原句中的第三实体和所述第三实体对应的关系动词列表,并将所述第三实体、所述第三实体对应的关系动词列表和所述时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到所述第二数组中的所述关系动词列表中的至少一个关系动词,并依次将第三实体、所述第三实体对应的所述关系动词、所述时刻信息、所述新闻原句和所述时间要素关联成第四数组后输出;步骤S5,将所述第一数组和所述第四数组进行组合,以得到第五数组,并根据所述时刻信息的时间顺序依次输出所述第五数组。2.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述步骤S1具体包括以下步骤:步骤S11,对新闻文本进行实体识别,以于新闻文本中识别得到对应于所述第一实体的第一实体数据;步骤S12,将所述第一实体链接至所述第一实体数据。3.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,具体包括以下步骤:步骤S21,获取并将新闻文本中的待删除字符删除,以得到删除所述待删除字符后的新闻文本;步骤S22,获取根据分句字符对删除所述待删除字符后的新闻文本进行分句,以得到新闻原句。4.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述步骤S3具体包括以下步骤:步骤S31,通过预设的所述数字类社会属性和所述正则表达式对所述第二处理文本进行实体识别,以识别得到所述第一数字类社会属性新闻数组;步骤S32,将所述第一数字类社会属性新闻数组加载到所述分词模块上,采用所述分词模块对所述第二处理文本中的新闻原句进行分词,以得到对应于所述新闻原句的所述分词结果;
步骤S33,遍历所述第一数字类社会属性新闻数组中的每个元素,并判断第一数字类社会属性新闻数组中的元素是否为所述分词结果,并将不是所述分词结果的元素删除,以得到所述第二数字类社会属性新闻数组;步骤S34,对所述第二数字类社会属性新闻数组中的元素的非阿拉伯数字进行识别,并将识别得到的非阿拉伯数字转化为阿拉伯数字;步骤S35,将元素、元素对应的阿拉伯数字和元素所在的...
【专利技术属性】
技术研发人员:郭彦男,刘方然,徐常亮,贺大为,
申请(专利权)人:新华通讯社新媒体中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。