实体名的识别方法和装置制造方法及图纸

技术编号:10352276 阅读:151 留言:0更新日期:2014-08-25 11:17
本发明专利技术提出一种实体名的识别方法和装置,其中,该实体名的识别方法,包括:获取待识别文本以及待识别文本的来源信息;根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。本发明专利技术的实体名的识别方法,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求。

【技术实现步骤摘要】
实体名的识别方法和装置
本专利技术涉及互联网信息处理
,特别涉及一种实体名的识别方法和装置。
技术介绍
随着计算机的广泛使用和互联网的快速发展,互联网资源逐渐丰富,信息量急剧增大。为了使用户能够在海量的信息源中迅速找到真正需要的信息,需要对信息文档进行处理,以自动识别其中的实体名,以便于用户根据实体名查找需要的信息。目前,对实体名的自动识别是一项技术难题。实体名的类型不同,其识别难度和识别方法也各不相同。实体名的识别主要有统计学习的方法和基于规则的识别方法两种方式。其中:统计学习的方法包括训练阶段和识别阶段,在训练阶段,在标注语料的基础上,通过抽取相关特征并选择合适的机器学习策略来训练专名识别的模型;在识别阶段,使用训练阶段得到的模型来自动识别新语料中的专名。但是,在训练阶段,需要人工标注、校对训练语料,非常耗时耗力,并且实体名不断变化,不时会有一些新的实体名出现,因此训练语料也需要经常更新,这十分耗费人力资源,费时费力,且准确率不高。基于规则的识别方法的思想是将人类用于识别实体名的语言学知识编写成若干条规则,让机器按照这些规则对文本中的实体名进行自动识别。这些规则一般都依赖于具体语言类型,如汉语、英语等。但是用于识别实体名的这些规则过于繁琐复杂,且知识编码的工作目前也没有统一的指导性方法,因此,基于规则的方法,需要针对不同的语言分别编写识别规则,工作量大,且通用性较差。因此,目前,实体名的识别方法普遍应用性较差,且准备工作量大,难以同时实现高准确率且低人力资源耗费。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题。为此,本专利技术的第一个目的在于提出一种实体名的识别方法,该方法能够提升实体名识别的准确率以及通用性。本专利技术的第二个目的在于提出一种实体名的识别装置。为达上述目的,根据本专利技术第一方面实施例提出了一种实体名的识别方法,包括:获取待识别文本以及所述待识别文本的来源信息;根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。本专利技术实施例的实体名的识别方法,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识另IJ,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。本专利技术第二方面实施例提供了一种实体名的识别装置,包括:获取模块,用于获取待识别文本以及所述待识别文本的来源信息;第一识别模块,用于根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;第二识别模块,用于根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。本专利技术实施例的实体名的识别装置,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识另O,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的实体名的识别方法的流程图;图2为根据本专利技术一个实施例的根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名的方法的流程图;图3为根据本专利技术一个实施例的根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名的流程图;图4为根据本专利技术一个实施例的建立词根表和词缀表的方法的流程图;图5为根据本专利技术一个实施例的建立词根识别模型的方法的流程图;图6为根据本专利技术一个实施例的建立实体识别模型的方法的流程图;图7为根据本专利技术一个实施例的实体名的识别装置的结构示意图;图8为根据本专利技术另一个实施例的实体名的识别装置的结构示意图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。下面参考附图描述根据本专利技术实施例的实体名的识别方法和装置。为了能够减少识别实体名的人力资源的耗费,且提高识别准确率,本专利技术提出了一种实体名的识别方法,包括:获取待识别文本以及待识别文本的来源信息;根据待识别文本的来源信息获取待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。在本专利技术的实施例中,实体名为现实世界中任何可区分、可识别的事物的名称。举例来说,例如,机构名、品牌名、地名、人名等。图1为根据本专利技术一个实施例的实体名的识别方法的流程图。如图1所示,根据本专利技术实施例的实体名的识别方法,包括:S101,获取待识别文本以及待识别文本的来源信息。在本专利技术的一个实施例中,待识别文本的来源信息为发布待识别文本的公司名称、网站名称等。如“深圳市连讯达电子技术开发有限公司”。在本专利技术的实施例中,待识别文本为自然语言文本。待识别文本的来源信息可为用户在提供待识别文本时同时提供,也可根据待识别文本发布时的发布信息获取,如发布者的账户信息等。因为发布者的账户信息中大多会包括发布者获取发布者的账户所在或者所代表的机构。S102,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名。在本专利技术的实施例中,第一实体名为与待识别文本的来源信息相关的实体名。举例来说,在本专利技术的一个实施例中,第一实体名可为机构名。例如,如果待识别文本的来源信息为“深圳市连讯达电子技术开发有限公司”,则第一实体名可为“连讯达电子技术开发有限公司”。具体地,在本专利技术的一个实施例中,可通过图2所示的步骤获取待识别文本中的第一实体名。如图2所示,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名的方法,包括:S201,根据词根识别模型对待识别文本的来源信息进行识别,以获取待识别文本的来源信息中的词根。在本专利技术的实施例中,词根识别模型为预先建立的。更具体地,可在对待识别文本进行识别之前训练词根识别模型,也可从其他存储装置拷贝或下载已训练好的词根识别模型。词根识别模型是根据词根表进行训练得到的,可识别待识别文本的来源信息中的词根的识别模型。举例来说,对于来源信息“深圳市连讯达电子技术开发有限公司”,通过词根识别模型可识别出其中的词根“连迅达”。S202,根据词根和预先建立的词缀表获取待识别文本中的第一实体名。在本专利技术的实施例中,词缀表为包括多个第一本文档来自技高网...
实体名的识别方法和装置

【技术保护点】
一种实体名的识别方法,其特征在于,包括:获取待识别文本以及所述待识别文本的来源信息;根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。

【技术特征摘要】
1.一种实体名的识别方法,其特征在于,包括: 获取待识别文本以及所述待识别文本的来源信息; 根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。2.如权利要求1所述的方法,其特征在于, 所述第一实体名为机构名; 所述第二实体名为品牌名。3.如权利要求1或2所述的方法,其特征在于,所述根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名,具体包括: 根据词根识别模型对所述待识别文本的来源信息进行识别,以获取所述待识别文本的来源信息中的词根; 根据所述词根 和预先建立的词缀表获取所述待识别文本中的第一实体名。4.如权利要求3所述的方法,其特征在于,还包括: 根据实体识别模型对所述待识别文本进行识别,以获取所述待识别文本中的第一实体名。5.如权利要求1或2所述的方法,其特征在于,所述根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名,具体包括: 根据所述预先建立的词根表查找所述待识别文本中非第一实体名的内容所包含的词根; 根据所述预设约束规则对所述待识别文本中非第一实体名的内容所包含的词根进行筛选,以获取所述待识别文本中非第一实体名的内容中获取第二实体名。6.如权利要求3所述的方法,其特征在于,在所述获取待识别文本以及所述待识别文本的来源信息之前,还包括: 收集多个注册实体名; 分别对所述多个注册实体名进行分词,以获取多个分词; 获取所述多个分词的属性特征; 根据所述属性特征从所述多个分词中筛选出所述词根表中的多个词根以及所述词缀表中的多个词缀,以建立所述词根表和所述词缀表。7.如权利要求3所述的方法,其特征在于,还包括: 获取第一训练语料; 根据所述第一训练语料的词语特征构建第一特征模板; 根据所述第一特征模板和条件随机场模型训练所述词根识别模型。8.如权利要求3所述的方法,其特征在于,还包括: 根据所述词根表和所述词缀表获取第二训练语料; 根据所述第二训练语料的词语特征构建第二特征模板; 根据所述第二特征模板和所述条件随机场模型训练所述实体识别模型。9.一种...

【专利技术属性】
技术研发人员:陈丽欧徐明泉韩锋姜世超周寰王平雷绍泽周丰乐
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1