一种从文本中提取地理位置信息的方法及装置制造方法及图纸

技术编号:21832763 阅读:38 留言:0更新日期:2019-08-10 18:02
本发明专利技术提供的一种从文本中提取地理位置信息的方法,在获取文本中的目标信息后,通过查询数据模型或数据库获取与目标信息关联的第二位置信息和第三位置信息,生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息,并且统计在文本中获取的第二位置信息或/和第三位置信息在文本中出现的频次,最后,根据第二位置信息、第三位置信息在文本中出现的频次计算出地理位置信息的总体匹配度值,并获取总体匹配度值最大的地理位置信息,总体匹配度值最大的地理位置信息即最终获取的地理位置信息。

A Method and Device for Extracting Geographic Position Information from Text

【技术实现步骤摘要】
一种从文本中提取地理位置信息的方法及装置
本专利技术涉及地理位置信息提取方法,尤其涉及一种从文本中提取地理位置信息的方法及装置。
技术介绍
随着互联网技术的飞速发展,智能化服务在终端上应用越来越多,例如,用户在一款应用上公开一篇文章,然后终端即可根据该文章获取用户在文章中描述的地理位置。现有技术中,终端由文本中提取位置信息时,对于短语,例如文本中仅具有一个地理名称时,终端提取位置信息的准确度较高,但是,对于用户公开一篇文章、并且该文章中具有多种地理名称时,终端获取位置信息的精度将大幅下降,即,终端仅简单的提取地理名称将无法准确地获取地理位置信息。另外,由于地理名称可能具有重名现象,例如在首都北京及台湾省均具有故宫博物院,当文章中提及故宫博物院时,终端可能会获取两个不同的地理位置,从而进一步造成终端获取的位置信息精度降低。
技术实现思路
本专利技术提供了一种从文本中提取地理位置信息的方法,用于解决现有技术中从文本中提取地理位置信息精度低的技术问题。为了解决以上技术问题,本专利技术通过以下技术方案实现:一种从文本中提取地理位置信息的方法,包括:获取文本中的目标信息;根据文本中获取的目标信息查询数据模型获得与文本中目标信息关联的第二位置信息或/和第三位置信息,当查询数据模型获无法获取第二位置信息或/和第三位置信息时,查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息,生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息,其中,第二位置信息与第三位置信息关联,生成的至少两组地理位置信息中每组地理位置信息与其它组地理位置信息具有不同的第二位置信息或/和第三位置信息,并统计文本中第二位置信息或/和第三位置信息出现的频次;根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息的总体匹配度值,并获取总体匹配度值最大的地理位置信息。本专利技术提供的一种从文本中提取地理位置信息的方法,在获取文本中的目标信息后,通过查询数据模型或数据库获取与目标信息关联的第二位置信息和第三位置信息,生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息,并且统计在文本中获取的第二位置信息或/和第三位置信息在文本中出现的频次,最后,根据第二位置信息、第三位置信息在文本中出现的频次计算出地理位置信息的总体匹配度值,并获取总体匹配度值最大的地理位置信息,总体匹配度值最大的地理位置信息即最终获取的地理位置信息。优选的,所述获取文本中的目标信息包括:建立数据模型;根据数据模型查询文本内容,获取文本中包含的目标信息。采用数据模型获取文本中的目标信息,提高了目标信息的获取速度,并提高了目标信息获取的自动化程度。优选的,所述建立数据模型包括:手工标注游记类文本中的位置信息生成训练样本;基于BERT框架优化训练样本生成数据模型,所述数据模型包含有目标信息、第二位置信息和第三位置信息。手工标注游记类文本中的位置信息,提高了训练样本中位置信息的精确度,即,手工标注时可以对不规范用语进行修正,进而提高了训练样本中位置信息的精确度。优选的,统计文本中第二位置信息或/和第三位置信息出现的频次,并根据第二位置信息或/和第三位置信息在文本中出现的频次排序。根据在文本中出现的频次对第二位置信息、第三位置信息排序,有利于后续对地理位置信息的处理。优选的,统计文本中第二位置信息或/和第三位置信息出现的频次,并根据第二位置信息或/和第三位置信息在文本中出现的频次降序排列。优选的,根据如下公式计算地理位置信息的总体匹配度值:公式:A=100*(1+S*1+D*2+F*0.5);式中:A:总体匹配度值;S:文本中仅有第三位置信息时,第三位置信息在文本中出现的频次;D:文本中既有第三位置信息又有第二位置信息时,第二位置信息在文本中出现频次;F:文本中仅有第二位置信息时,第二位置信息在文本中出现的频次。一种从文本中提取地理位置信息的装置,包括储存单元,用于储存包含有目标信息、第二位置信息和第三位置信息的数据模型;位置信息获取单元,用于获取文本中的目标信息、第二位置信息或/和第三位置信息;查询单元,用于查询包含有位置信息的数据库以获取文本中缺少的第二位置信息或/和第三位置信息;和数据处理单元,用于处理获取的至少两组包含有目标信息、第二位置信息及第三位置信息的地理位置信息,并根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息总体匹配度值,得出地理位置信息总体匹配度值的最大值。本专利技术提供的一种从文本中提取地理位置信息的装置,根据第二位置信息、第三位置信息在文本中出现有频次计算地理位置信息的总体匹配度值,相对于现有技术提高了从文本中提取地理位置信息的精度。优选的,所述查询单元与至少一个包含有第二位置信息、第三位置信息的数据库通讯。一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述的从文本中提取地理位置信息的方法。一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的从文本中提取地理位置信息的方法。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。图1为本专利技术第一实施例的流程图。图2为本专利技术第二实施例的流程图。具体实施方式下面结合具体实施例介绍本专利技术的技术方案,以下实施例仅用于帮助本领域技术人员更好地理解本专利技术的技术方案,并非是对本专利技术的限制。本说明书中:目标信息可以为一个特定的位置信息,例如可以为城市中的建筑物或景区或其它场所。第二位置信息可以为城市信息,例如目标信息所在的城市。第三位置信息可以为国家信息,例如第二位置信息所在的国家。或/和是指,以文本中包含第二位置信息或/和第三位置信息为例,指文本中可以仅包含第二位置信息,文本中也可以仅包含第二位置信息,文本中也可以同时包含第二位置信息和第三位置信息。文本是指至少包含目标信息并由用户发表的文字类文章。频次是指相关信息在文本中出现的总次数。数据模型应至少包括两种不同的语言,以识别不同语言编写的文本。本专利技术的第一实施例如图1所示,一种从文本中提取地理位置信息的方法,包括:S100,获取文本中的目标信息;例如可以通过查询或标注或其它方法获取一个确定的位置信息;S200,根据文本中获取的目标信息查询数据模型获得与文本中目标信息关联的第二位置信息或/和第三位置信息;当查询数据模型获无法获取第二位置信息或/和第三位置信息时,查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息;本文中的数据模型是指存储有地理位置信息的本地数据中心,数据库是指现有技术应用所存储的位置信息数据库。通过数据库获取信息时可采用有线或无线网络。也就是说,本步骤通过数据模型或数据库对目标信息进行补充,形成生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息,其中,第二位置信息与第三位置信息关联,生成的至少两组地理位置信息中每组地理位置信本文档来自技高网...

【技术保护点】
1.一种从文本中提取地理位置信息的方法,其特征在于:包括:获取文本中的目标信息;根据文本中获取的目标信息查询数据模型获得与文本中目标信息关联的第二位置信息或/和第三位置信息,当查询数据模型获无法获取第二位置信息或/和第三位置信息时,查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息,生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息,其中,第二位置信息与第三位置信息关联,生成的至少两组地理位置信息中每组地理位置信息与其它组地理位置信息具有不同的第二位置信息或/和第三位置信息,并统计文本中第二位置信息或/和第三位置信息出现的频次;根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息的总体匹配度值,并获取总体匹配度值最大的地理位置信息。

【技术特征摘要】
1.一种从文本中提取地理位置信息的方法,其特征在于:包括:获取文本中的目标信息;根据文本中获取的目标信息查询数据模型获得与文本中目标信息关联的第二位置信息或/和第三位置信息,当查询数据模型获无法获取第二位置信息或/和第三位置信息时,查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息,生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息,其中,第二位置信息与第三位置信息关联,生成的至少两组地理位置信息中每组地理位置信息与其它组地理位置信息具有不同的第二位置信息或/和第三位置信息,并统计文本中第二位置信息或/和第三位置信息出现的频次;根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息的总体匹配度值,并获取总体匹配度值最大的地理位置信息。2.根据权利要求1所述的一种从文本中提取地理位置信息的方法,其特征在于:所述获取文本中的目标信息包括:建立数据模型;根据数据模型查询文本内容,获取文本中包含的目标信息。3.根据权利要求2所述的一种从文本中提取地理位置信息的方法,其特征在于:所述建立数据模型包括:手工标注游记类文本中的位置信息生成训练样本;基于BERT框架优化训练样本生成数据模型,所述数据模型包含有目标信息、第二位置信息和第三位置信息。4.根据权利要求1所述的一种从文本中提取地理位置信息的方法,其特征在于:统计文本中第二位置信息或/和第三位置信息出现的频次,并根据第二位置信息或/和第三位置信息在文本中出现的频次排序。5.根据权利要求4所述的一种从文本中提取地理位置信息的方法,其特征在于:统计文本中第二位置信息或/和第三位置信息出现的频次,并根据第二位置信息或/和...

【专利技术属性】
技术研发人员:翁韬陈震
申请(专利权)人:杭州恩牛网络技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1