实体识别方法、系统、设备及存储介质技术方案

技术编号:34482119 阅读:19 留言:0更新日期:2022-08-10 08:58
本发明专利技术提供了一种实体识别方法、系统、设备及存储介质,该方法包括:从文章中提取待识别实体,获取待识别实体的特征数据;在POI数据库中召回所述实体对应的候选POI;将所述待识别实体的特征数据分别和各个候选POI的特征数据组合,得到待识别实体对应于各个候选POI的匹配特征数据;将所述待识别实体对应于各个候选POI的匹配特征数据分别输入训练好的匹配模型,得到所述匹配模型输出的所述待识别实体对应于各个候选POI的匹配特征数据的匹配值;根据所述匹配值从所述候选POI中选择所述待识别实体的匹配POI。本发明专利技术可以准确快速地实现文章实体与POI的匹配,完成对实体所对应的POI识别。别。别。

【技术实现步骤摘要】
实体识别方法、系统、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种实体识别方法、系统、设备及存储介质。

技术介绍

[0002]实体识别的目标是将实体映射到POI数据库中对应的POI(Point of Interest,兴趣点),从而可以将包括文章中的实体自动链接到在线旅行社平台的POI上,对文章中的经典实体可以挂上对应的景点链接。现有的方法一般是通过人工进行文章中实体的识别,将文章中对应的实体位置确认出来。但是这种方式需要耗费大量的人力和时间,并且人工识别可能准确率不高,对于在线旅行社的管理平台也造成了很大的负担。
[0003]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]针对现有技术中的问题,本专利技术的目的在于提供一种实体识别方法、系统、设备及存储介质,实现实体识别的自动化,可以实现文章中的景点实体自动挂上POI链接,从而节省人力,提高效率和准确率。
[0005]本专利技术实施例提供一种实体识别方法,包括如下步骤:
[0006]从文章中提取待识别实体,获取待识别实体的特征数据;
[0007]在POI数据库中召回所述实体对应的候选POI;
[0008]将所述待识别实体的特征数据分别和各个候选POI的特征数据组合,得到待识别实体对应于各个候选POI的匹配特征数据;
[0009]将所述待识别实体对应于各个候选POI的匹配特征数据分别输入训练好的匹配模型,得到所述匹配模型输出的所述待识别实体对应于各个候选POI的匹配特征数据的匹配值;
[0010]根据所述匹配值从所述候选POI中选择所述待识别实体的匹配POI。
[0011]在一些实施例中,所述待识别实体的特征数据包括待识别实体的文本数据和待识别实体的上下文数据。
[0012]在一些实施例中,所述从文章中提取待识别实体,获取待识别实体的特征数据,包括如下步骤:
[0013]对文章进行切分,得到多个文章片段;
[0014]提取各个所述文章片段中的实体,将实体所对应的文章片段作为该实体的上下文数据;
[0015]将提取的实体分割为前缀、关键词和后缀。
[0016]在一些实施例中,所述在POI数据库中召回所述实体对应的候选POI,包括如下步骤:
[0017]按照优先级顺序为关键词、关键词加后缀、关键词加前缀的顺序从所述POI数据库中召回POI。
[0018]在一些实施例中,从所述POI数据库中召回POI之后,还包括如下步骤:
[0019]判断实体后缀与各个召回的POI的后缀是否一致;
[0020]滤除后缀与实体后缀不一致的召回POI。
[0021]在一些实施例中,所述滤除后缀与实体后缀不一致的候选POI之后,还包括如下步骤:
[0022]对于召回的POI,计算各个POI与实体的编辑距离;
[0023]按照所述编辑距离从小到大对各个召回的POI进行排序,从前到后选择预设数量的召回POI作为候选POI。
[0024]在一些实施例中,还包括如下步骤:
[0025]对POI数据库建立索引,所述索引包括2

gram倒排索引、字符级别倒排索引、英文倒排索引和拼音倒排索引中的一种或多种。
[0026]在一些实施例中,所述候选POI的特征数据包括候选POI的名称、别称、省份、城市和具体地址中的至少一个。
[0027]在一些实施例中,还包括将所述文章的标题和内容输入训练好的分类模型,得到所述文章的类别;
[0028]根据所述匹配值从所述候选POI中选择所述待识别实体的匹配POI,包括如下步骤:
[0029]根据文章的类型确定匹配POI的预设数量;
[0030]从所述候选POI中选择匹配值最高的预设数量的匹配POI;
[0031]根据所述文章的类别判断是否需要人工审核;
[0032]如果需要人工审核,则将所述匹配POI发送至对应的审核终端。
[0033]本专利技术实施例还提供一种实体识别系统,用于实现所述的实体识别方法,所述系统包括:
[0034]实体提取模块,用于从文章中提取待识别实体,获取待识别实体的特征数据;
[0035]POI召回模块,用于在POI数据库中召回所述实体对应的候选POI;
[0036]特征提取模块,用于将所述待识别实体的特征数据分别和各个候选POI的特征数据组合,得到待识别实体对应于各个候选POI的匹配特征数据;
[0037]POI匹配模块,用于将所述待识别实体对应于各个候选POI的匹配特征数据分别输入训练好的匹配模型,得到所述匹配模型输出的所述待识别实体对应于各个候选POI的匹配特征数据的匹配值;以及根据所述匹配值从所述候选POI中选择所述待识别实体的匹配POI。
[0038]本专利技术实施例还提供一种实体识别设备,包括:
[0039]处理器;
[0040]存储器,其中存储有所述处理器的可执行指令;
[0041]其中,所述处理器配置为经由执行所述可执行指令来执行所述的实体识别方法的步骤。
[0042]本专利技术实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理
器执行时实现所述的实体识别方法的步骤。
[0043]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
[0044]本专利技术的实体识别方法、系统、设备及存储介质具有如下有益效果:
[0045]本专利技术通过对实体进行POI召回和匹配,实现了实体识别的自动化,可以实现文章中的景点实体自动挂上POI链接,从而节省人力,提升了实体识别的效率,并且具有很高的准确率。
附图说明
[0046]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。
[0047]图1是本专利技术一实施例的实体识别方法的流程图;
[0048]图2是本专利技术一实施例的从文章中提取待识别实体,获取待识别实体的特征数据的流程图;
[0049]图3是本专利技术一实施例的在POI数据库中召回所述实体对应的候选POI的流程图;
[0050]图4是本专利技术一实施例的实体识别系统的结构示意图;
[0051]图5是本专利技术一实施例的实体识别设备的结构示意图;
[0052]图6是本专利技术一实施例的计算机可读存储介质的结构示意图。
具体实施方式
[0053]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
[0054]此外,附图仅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括如下步骤:从文章中提取待识别实体,获取待识别实体的特征数据;在POI数据库中召回所述实体对应的候选POI;将所述待识别实体的特征数据分别和各个候选POI的特征数据组合,得到待识别实体对应于各个候选POI的匹配特征数据;将所述待识别实体对应于各个候选POI的匹配特征数据分别输入训练好的匹配模型,得到所述匹配模型输出的所述待识别实体对应于各个候选POI的匹配特征数据的匹配值;根据所述匹配值从所述候选POI中选择所述待识别实体的匹配POI。2.根据权利要求1所述的实体识别方法,其特征在于,所述待识别实体的特征数据包括待识别实体的文本数据和待识别实体的上下文数据。3.根据权利要求2所述的实体识别方法,其特征在于,所述从文章中提取待识别实体,获取待识别实体的特征数据,包括如下步骤:对文章进行切分,得到多个文章片段;提取各个所述文章片段中的实体,将实体所对应的文章片段作为该实体的上下文数据;将提取的实体分割为前缀、关键词和后缀。4.根据权利要求3所述的实体识别方法,其特征在于,所述在POI数据库中召回所述实体对应的候选POI,包括如下步骤:按照优先级顺序为关键词、关键词加后缀、关键词加前缀的顺序从所述POI数据库中召回POI。5.根据权利要求4所述的实体识别方法,其特征在于,从所述POI数据库中召回POI之后,还包括如下步骤:判断实体后缀与各个召回的POI的后缀是否一致;滤除后缀与实体后缀不一致的召回POI。6.根据权利要求5所述的实体识别方法,其特征在于,所述滤除后缀与实体后缀不一致的候选POI之后,还包括如下步骤:对于召回的POI,计算各个POI与实体的编辑距离;按照所述编辑距离从小到大对各个召回的POI进行排序,从前到后选择预设数量的召回POI作为候选POI。7.根据权利要求1所述的实体识别方法,其特征在于,还包括如下步骤:对POI数据库建立索引,...

【专利技术属性】
技术研发人员:高一宸林立韵邹宇何蜀波孙玉霞
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1