【技术实现步骤摘要】
文本实体识别方法及装置
本专利技术涉及命名实体识别领域,具体而言,涉及一种文本实体识别方法及装置。
技术介绍
实体有多种类型,在不同的领域,关注的实体类型也不一样,常见的实体类型包括人名、地名、组织机构名、日期、时间、货币等。在金融领域可能更关注的实体类型包括公司名称、股票名称、股票代码等。在生物领域可能更关注的实体类型包括基因、蛋白质名称、细胞名称等。实体识别是自然语言处理中的基础性任务,语义分析、指代消解、信息检索、实体关系识别及知识图谱等任务都依赖于实体识别的结果。所以,准确识别出文本中特定类型的实体,对于后续的自然语言处理具有重要的意义。在工程开发中,CRF(ConditionalRandomField,条件随机场)模型作为理论性强、高效、可解释强的机器学习算法,经常用于实体识别的任务中。但是,仅仅利用CRF模型进行实体的识别,识别的概率不是很高。特别是对于一些特定类型的实体。
技术实现思路
本专利技术实施例提供了一种文本实体识别方法及装置,以至少解决相关技术中仅仅基于CRF模型进行实体的 ...
【技术保护点】
1.一种文本实体识别方法,其特征在于,包括:/n基于实体词典对文本中的实体进行匹配;/n验证匹配实体的边界是否符合分词切分边界;/n对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率。/n
【技术特征摘要】
1.一种文本实体识别方法,其特征在于,包括:
基于实体词典对文本中的实体进行匹配;
验证匹配实体的边界是否符合分词切分边界;
对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率。
2.根据权利要求1所述的方法,其特征在于,基于实体词典对文本中的实体进行匹配包括:
基于实体词典采用多模算法对文本中的实体进行匹配。
3.根据权利要求1所述的方法,其特征在于,对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率,包括:
统计所述匹配实体的上下文,并对当前匹配实体的上下文进行验证;
根据验证结果判断当前匹配实体的可信度,并进行实体标记。
4.根据权利要求1所述的方法,其特征在于,还包括:
添加用户自定义实体词典以扩展特殊的实体对象。
5.根据权利要求1所述的方法,其特征在于,还包括:
对于所述文本中的未知词,通过训练的CRF模型进行实体的识别。
6.一种文本实体识别装置,其特征在于,包括:
匹配模块,用于基于实体词典对文本中的实...
【专利技术属性】
技术研发人员:聂俊丰,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。