实体名的识别方法和装置制造方法及图纸

技术编号：10352276 阅读：151 留言：0更新日期：2014-08-25 11:17

本发明专利技术提出一种实体名的识别方法和装置，其中，该实体名的识别方法，包括：获取待识别文本以及待识别文本的来源信息；根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名；根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。本发明专利技术的实体名的识别方法，提升了实体名识别的准确率和召回率，可适用于各种语言类型，通用性较强。此外，对于创意文本中的实体名的有效识别，极大的满足创意中个性化需求。

全部详细技术资料下载

【技术实现步骤摘要】
实体名的识别方法和装置
本专利技术涉及互联网信息处理
，特别涉及一种实体名的识别方法和装置。
技术介绍
随着计算机的广泛使用和互联网的快速发展，互联网资源逐渐丰富，信息量急剧增大。为了使用户能够在海量的信息源中迅速找到真正需要的信息，需要对信息文档进行处理，以自动识别其中的实体名，以便于用户根据实体名查找需要的信息。目前，对实体名的自动识别是一项技术难题。实体名的类型不同，其识别难度和识别方法也各不相同。实体名的识别主要有统计学习的方法和基于规则的识别方法两种方式。其中:统计学习的方法包括训练阶段和识别阶段，在训练阶段，在标注语料的基础上，通过抽取相关特征并选择合适的机器学习策略来训练专名识别的模型；在识别阶段，使用训练阶段得到的模型来自动识别新语料中的专名。但是，在训练阶段，需要人工标注、校对训练语料，非常耗时耗力，并且实体名不断变化，不时会有一些新的实体名出现，因此训练语料也需要经常更新，这十分耗费人力资源，费时费力，且准确率不高。基于规则的识别方法的思想是将人类用于识别实体名的语言学知识编写成若干条规则，让机器按照这些规则对文本中的实体名进行自动识别。这些规则一般都依赖于具体语言类型，如汉语、英语等。但是用于识别实体名的这些规则过于繁琐复杂，且知识编码的工作目前也没有统一的指导性方法，因此，基于规则的方法，需要针对不同的语言分别编写识别规则，工作量大，且通用性较差。因此，目前，实体名的识别方法普遍应用性较差，且准备工作量大，难以同时实现高准确率且低人力资源耗费。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题。为此，本...
实体名的识别方法和装置

【技术保护点】
一种实体名的识别方法，其特征在于，包括：获取待识别文本以及所述待识别文本的来源信息；根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名；根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。

【技术特征摘要】
1.一种实体名的识别方法，其特征在于，包括: 获取待识别文本以及所述待识别文本的来源信息；根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名；根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。2.如权利要求1所述的方法，其特征在于，所述第一实体名为机构名；所述第二实体名为品牌名。3.如权利要求1或2所述的方法，其特征在于，所述根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名，具体包括: 根据词根识别模型对所述待识别文本的来源信息进行识别，以获取所述待识别文本的来源信息中的词根；根据所述词根和预先建立的词缀表获取所述待识别文本中的第一实体名。4.如权利要求3所述的方法，其特征在于，还包括: 根据实体识别模型对所述待识别文本进行识别，以获取所述待识别文本中的第一实体名。5.如权利要求1或2所述的方法，其特征在于，所述根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名，具体包括: 根据所述预先建立的词根表查找所述待识别文本中非第一实体名的内容所包含的词根；根据所述预设约束规则对所述待识别文本中非第一实体名的内容所包含的词根进行筛选，以获取所述待识别文本中非第一实体名的内容中获取第二实体名。6.如权利要求3所述的方法，其特征在于，在所述获取待识别文本以及所述待识别文本的来源信息之前，还包括: 收集多个注册实体名；分别对所述多个注册实体名进行分词，以获取多个分词；获取所述多个分词的属性特征；根据所述属性特征从所述多个分词中筛选出所述词根表中的多个词根以及所述词缀表中的多个词缀，以建立所述词根表和所述词缀表。7.如权利要求3所述的方法，其特征在于，还包括: 获取第一训练语料；根据所述第一训练语料的词语特征构建第一特征模板；根据所述第一特征模板和条件随机场模型训练所述词根识别模型。8.如权利要求3所述的方法，其特征在于，还包括: 根据所述词根表和所述词缀表获取第二训练语料；根据所述第二训练语料的词语特征构建第二特征模板；根据所述第二特征模板和所述条件随机场模型训练所述实体识别模型。9.一种...

【专利技术属性】
技术研发人员：陈丽欧，徐明泉，韩锋，姜世超，周寰，王平，雷绍泽，周丰乐，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人