文本实体识别方法及装置制造方法及图纸

技术编号：23149900 阅读：26 留言：0更新日期：2020-01-18 13:47

本发明专利技术提供了一种文本实体识别方法及装置，该方法包括：基于实体词典对文本中的实体进行匹配；验证匹配实体的边界是否符合分词切分边界；对于符合分词切分边界的所述匹配实体，通过统计所述匹配实体的上下文计算其作为实体的概率。在本发明专利技术中，结合大规模实体词典，利用多模匹配算法进行实体匹配，验证实体边界是否符合分词切分边界，并通过统计计算其作为实体的概率，大大提高了实体识别的准确性。

Text entity recognition method and device

全部详细技术资料下载

【技术实现步骤摘要】
文本实体识别方法及装置
本专利技术涉及命名实体识别领域，具体而言，涉及一种文本实体识别方法及装置。
技术介绍
实体有多种类型，在不同的领域，关注的实体类型也不一样，常见的实体类型包括人名、地名、组织机构名、日期、时间、货币等。在金融领域可能更关注的实体类型包括公司名称、股票名称、股票代码等。在生物领域可能更关注的实体类型包括基因、蛋白质名称、细胞名称等。实体识别是自然语言处理中的基础性任务，语义分析、指代消解、信息检索、实体关系识别及知识图谱等任务都依赖于实体识别的结果。所以，准确识别出文本中特定类型的实体，对于后续的自然语言处理具有重要的意义。在工程开发中，CRF(ConditionalRandomField，条件随机场)模型作为理论性强、高效、可解释强的机器学习算法，经常用于实体识别的任务中。但是，仅仅利用CRF模型进行实体的识别，识别的概率不是很高。特别是对于一些特定类型的实体。
技术实现思路
本专利技术实施例提供了一种文本实体识别方法及装置，以至少解决相关技术中仅仅基于CRF模型进行实体的...

【技术保护点】
1.一种文本实体识别方法，其特征在于，包括：/n基于实体词典对文本中的实体进行匹配；/n验证匹配实体的边界是否符合分词切分边界；/n对于符合分词切分边界的所述匹配实体，通过统计所述匹配实体的上下文计算其作为实体的概率。/n

【技术特征摘要】
1.一种文本实体识别方法，其特征在于，包括：
基于实体词典对文本中的实体进行匹配；
验证匹配实体的边界是否符合分词切分边界；
对于符合分词切分边界的所述匹配实体，通过统计所述匹配实体的上下文计算其作为实体的概率。

2.根据权利要求1所述的方法，其特征在于，基于实体词典对文本中的实体进行匹配包括：
基于实体词典采用多模算法对文本中的实体进行匹配。

3.根据权利要求1所述的方法，其特征在于，对于符合分词切分边界的所述匹配实体，通过统计所述匹配实体的上下文计算其作为实体的概率，包括：
统计所述匹配实体的上下文，并对当前匹配实体的上下文进行验证；
根据验证结果判断当前匹配实体的可信度，并进行实体标记。

4.根据权利要求1所述的方法，其特征在于，还包括：
添加用户自定义实体词典以扩展特殊的实体对象。

5.根据权利要求1所述的方法，其特征在于，还包括：
对于所述文本中的未知词，通过训练的CRF模型进行实体的识别。

6.一种文本实体识别装置，其特征在于，包括：
匹配模块，用于基于实体词典对文本中的实...

【专利技术属性】
技术研发人员：聂俊丰，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人