当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于深度学习的新闻地理编码方法技术

技术编号:30754383 阅读:12 留言:0更新日期:2021-11-10 12:08
本发明专利技术提供了一种基于深度学习的新闻地理编码方法,用以实现新闻内容的地理编码。本发明专利技术结合深度学习模型与地名数据库,实现了不同省份、城市、区县下的新闻地理编码,从而能得到新闻中包含的经纬度信息,让人们对新闻地点有更直观的感知,同时结果可用于新闻的地理搜索筛选、距离排序、地域推荐等功能。本发明专利技术使用基于ERNIE与Bi

【技术实现步骤摘要】
一种基于深度学习的新闻地理编码方法


[0001]本专利技术涉及计算机科学与技术中的文本挖掘、自然语言处理、地理编码,特别涉及一种基于深度学习的新闻地理编码方法。

技术介绍

[0002]随着科技和网络技术的发展,我们迎来了一个信息爆炸的时代,高效地获取信息在当今社会愈发重要。新闻是人们获取信息的重要方式,它是对新近发生的有社会意义并引起公众兴趣的事实的简短报道,是报纸、广播、电视新闻中使用得最广泛的一种体裁。
[0003]然而其在时空维度的呈现却有所欠缺。传统的新闻阅读中,人们往往只能通过阅读新闻文本或者查看图片的方式来了解新闻发生地或新闻相关地,但是却无法直观地了解新闻所发生的地理位置,从而导致读者缺乏对新闻地理位置的理解以及对新闻地点周围环境的掌握,使得新闻信息无法被直观地感知解读。同时由于新闻的空间属性无法被充分挖掘,导致了新闻的地理搜索筛选、距离排序、地域推荐等功能实现的困难。

技术实现思路

[0004]本专利技术提出了一种基于深度学习的新闻地理编码方法,通过使用深度学习技术,对新闻文本中的地点进行提取并进行地理编码,从而得到新闻中包含的经纬度信息,进而让人们对新闻地点有直观的认知,同时结果可用于新闻的地理搜索筛选、距离排序、地域推荐等功能。
[0005]本专利技术提供的技术方案是一种基于深度学习的新闻地理编码方法,包括下述步骤:
[0006]步骤S10,构建中国各省份、城市、区县地名数据库;
[0007]步骤S20,对给定的新闻链接、新闻内容,使用正文抽取器对新闻正文文本进行抽取;
[0008]步骤S30,根据步骤S20中抽取的新闻文本进行地名数据库搜索,得到新闻中可能存在的省份、城市、区县地名;
[0009]步骤S40,根据步骤S20中抽取的新闻文本进行基于ERNIE与Bi

GRU

CRF深度学习模型的命名实体识别任务,得到新闻文本中的地点名备选列表;
[0010]步骤S50,根据区县名、城市名、省份名备选列表,调用局部或全国地理编码服务对地点名备选列表中的地点名进行地理编码;
[0011]步骤S60,对编码结果候选列表进行结构组织,根据全国

地点名、省份

地点名、城市

地点名、区县

地点名的方式对地理编码结果进行组织。由此,实现新闻的地理编码,确定新闻的地理坐标,得到新闻中包含的经纬度数据。
[0012]进一步的,步骤S10具体包括:
[0013]步骤S101,获取全中国的省份、城市、区县名,按照省份名、直辖市名、非直辖市名、区县名进行分类;
[0014]步骤S102,构建地名之间的从属关系,将城市所属省份、区县所属城市名的父子关系一一对应,将对应关系存入数据库中。
[0015]步骤S103,建立查询服务,通过查询关键字可以查询数据库中是否存在相应地名,并给出地名类型以及其父子关系。
[0016]进一步的,步骤S20具体包括:
[0017]步骤S201,首先通过读取网页HTML代码,将网页解析为DOM树,每一个HTML标签都是节点,其中所有文本都是DOM树中的叶子节点。对DOM树中的每个节点进行遍历,计算该节点中所有文本叶节点的字符串总数除以该节点所包含的子节点总数,得到该节点的文本密度。通过筛选DOM树中文本密度最高的节点,得到新闻正文DOM节点。进一步地,通过获取该DOM节点内的文本叶节点的文本内容,得到新闻正文。
[0018]步骤S202,判断给定内容是链接还是文本。对于文本,直接将其作为新闻文本进行后续步骤。
[0019]步骤S203,对链接进行新闻网站判断,若链接网站为除微信、微博以外的其他新闻门户网站,则对其进行步骤S201的处理,提取新闻正文。若链接网站为新浪微博、微信文章则对其使用CSS、XPath选择器,根据微博、微信页面的DOM结构,获取包含新闻正文的DOM节点的class、id、data属性,并使用与其对应的CSS、XPath规则获取新闻正文。
[0020]进一步的,步骤S30具体包括:
[0021]步骤S301,对省份名进行搜索,如果文本中包含存在于数据库中的省份名,则将其添加入省份名备选列表中。
[0022]步骤S302,对城市名进行搜索,如果文本中包含存在于数据库中的城市名,则将其添加入城市名备选列表中,同时将城市对应的省份名添加入省份名备选列表中。
[0023]步骤S303,对区县名进行搜索,如果文本中包含存在于数据库中的区县名,则将其添加入区县名备选列表中,同时将区县对应的城市名以及城市对应的省份名分别添加入城市名和省份名备选列表中。
[0024]进一步的,步骤S40具体包括:
[0025]步骤S401,构建基于ERNIE与Bi

GRU

CRF的深度学习模型。其中,ERNIE模型使用ERNIE Base结构,由12层Encoder层叠加构成,其中每个Encoder层的输入输出均由768个Hidden Units组成。每个Encoder层由自注意力层、标准化层、全连接层、标准化层堆叠而成,其中每个自注意力层中含有12个Attention Heads。
[0026]Bi

GRU

CRF模型结构由2层双向GRU层以及全连接层堆叠而成,全连接层的输出会被输入CRF层,得到句中各字词的最大可能标签,从而输出命名实体识别结果。
[0027]ERNIE模型输入字符串文本,输出768维文本嵌入向量矩阵,该向量矩阵被输入Bi

GRU

CRF模型中的最底层双向GRU层,最终在CRF层输出得到各字词的最大可能性标签。
[0028]ERNIE模型在MSRA

NER(SIGHAN2006)数据集上进行训练,得到预训练模型。将文本输入该模型,可以得到对应模型结构的768维文本嵌入向量矩阵。Bi

GRU

CRF模型采用LAC语料库作为训练集进行训练,在训练过程中仅更新双向GRU层以及CRF层的参数,而对ERNIR模型参数进行冻结使其不参与训练。通过该基于ERNIE与Bi

GRU

CRF的深度学习模型,可以进行命名实体识别任务,得到一段文本中所包含的地点名词、机构名词。地点名词包括省份、城市、区县、道路、地标名等,机构名包括政府机构、教育机构、休闲娱乐场所等。
[0029]步骤S402,对命名实体识别得到的地点名、机构名进行合并,得到地点名备选列表
[0030]步骤S403,对地点名备选列表进行遍历,删除与省份名备选列表、城市名备选列表、区县名备选列表中重复的地点名。
[0031]进一步的,步骤S50具体包括:
[0032]步骤S501,确定地理编码范围列表。若区县名备选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的新闻地理编码方法,其特征在于,包括以下步骤:步骤S10,构建中国各省份、城市、区县地名数据库;步骤S20,对给定的新闻链接、新闻内容,使用正文抽取器对新闻正文文本进行抽取;步骤S30,根据步骤S20中抽取的新闻文本进行地名数据库搜索,得到新闻中可能存在的省份、城市、区县地名;步骤S40,根据步骤S20中抽取的新闻文本进行基于ERNIE预训练模型与Bi

GRU

CRF深度学习模型的命名实体识别任务,得到新闻文本中的地点名备选列表;步骤S50,根据区县名、城市名、省份名备选列表,调用局部或全国地理编码服务对地点名备选列表中的地点名进行地理编码;步骤S60,对编码结果候选列表进行结构组织,根据全国

地点名、省份

地点名、城市

地点名、区县

地点名的方式对地理编码结果进行组织,由此,实现新闻的地理编码,确定新闻的地理坐标,得到新闻中包含的经纬度数据。2.根据权利要求1所述的一种基于深度学习的新闻地理编码方法,其特征在于:步骤S10具体包括,步骤S101,获取全中国的省份、城市、区县名,按照省份名、直辖市名、非直辖市名、区县名进行分类;步骤S102,构建地名之间的从属关系,将城市所属省份、区县所属城市名的父子关系一一对应,将对应关系存入数据库中;步骤S103,建立查询服务,通过查询关键字查询数据库中是否存在相应地名,并给出地名类型以及其父子关系。3.根据权利要求1所述的一种基于深度学习的新闻地理编码方法,其特征在于:步骤S20具体包括,步骤S201,首先通过读取网页HTML代码,将网页解析为DOM树,每一个HTML标签都是节点,其中所有文本都是DOM树中的叶子节点;对DOM树中的每个节点进行遍历,计算该节点中所有文本叶节点的字符串总数除以该节点所包含的子节点总数,得到该节点的文本密度;通过筛选DOM树中文本密度最高的节点,得到新闻正文DOM节点;进一步地,通过获取该DOM节点内的文本叶节点的文本内容,得到新闻正文;步骤S202,判断给定内容是链接还是文本,对于文本,直接将其作为新闻文本进行后续步骤;步骤S203,对链接进行新闻网站判断,若链接网站为除微信、微博以外的其他新闻门户网站,则对其进行步骤S201的处理,提取新闻正文;若链接网站为新浪微博、微信文章则对其使用CSS、XPath选择器,根据微博、微信页面的DOM结构,获取包含新闻正文的DOM节点的class、id、data属性,并使用与其对应的CSS、XPath规则获取新闻正文。4.根据权利要求1所述的一种基于深度学习的新闻地理编码方法,其特征在于:步骤S30具体包括,步骤S301,对省份名进行搜索,如果文本中包含存在于数据库中的省份名,则将其添加入省份名备选列表中;步骤S302,对城市名进行搜索,如果文本中包含存在于数据库中的城市名,则将其添加入城市名备选列表中,同时将城市对应的省份名添加入省份名备选列表中;
步骤S303,对区县名进行搜索,如果文本中包含存在于数据库中的区县名,则将其添加入区县名备选列表中,同时将区县对应的城市名以及城市对应的省份名分别添加入城市名和省份名备选列表中。5.根据权利要求1所述的一种基于深度学习的新闻地理编码方法,其特征在于:步骤S40具体包括,步骤S401,构建基于ERNIE与Bi

GRU

CRF的深度学习模型,其中,ERNIE模型使用ERNIE Base结构,由12层Encoder层叠...

【专利技术属性】
技术研发人员:罗运胡宏伟余思佳罗彩玉蔡忠亮
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1