文本实体识别方法及装置制造方法及图纸

技术编号:23149900 阅读:26 留言:0更新日期:2020-01-18 13:47
本发明专利技术提供了一种文本实体识别方法及装置,该方法包括:基于实体词典对文本中的实体进行匹配;验证匹配实体的边界是否符合分词切分边界;对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率。在本发明专利技术中,结合大规模实体词典,利用多模匹配算法进行实体匹配,验证实体边界是否符合分词切分边界,并通过统计计算其作为实体的概率,大大提高了实体识别的准确性。

Text entity recognition method and device

【技术实现步骤摘要】
文本实体识别方法及装置
本专利技术涉及命名实体识别领域,具体而言,涉及一种文本实体识别方法及装置。
技术介绍
实体有多种类型,在不同的领域,关注的实体类型也不一样,常见的实体类型包括人名、地名、组织机构名、日期、时间、货币等。在金融领域可能更关注的实体类型包括公司名称、股票名称、股票代码等。在生物领域可能更关注的实体类型包括基因、蛋白质名称、细胞名称等。实体识别是自然语言处理中的基础性任务,语义分析、指代消解、信息检索、实体关系识别及知识图谱等任务都依赖于实体识别的结果。所以,准确识别出文本中特定类型的实体,对于后续的自然语言处理具有重要的意义。在工程开发中,CRF(ConditionalRandomField,条件随机场)模型作为理论性强、高效、可解释强的机器学习算法,经常用于实体识别的任务中。但是,仅仅利用CRF模型进行实体的识别,识别的概率不是很高。特别是对于一些特定类型的实体。
技术实现思路
本专利技术实施例提供了一种文本实体识别方法及装置,以至少解决相关技术中仅仅基于CRF模型进行实体的识别,识别的概率不是本文档来自技高网...

【技术保护点】
1.一种文本实体识别方法,其特征在于,包括:/n基于实体词典对文本中的实体进行匹配;/n验证匹配实体的边界是否符合分词切分边界;/n对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率。/n

【技术特征摘要】
1.一种文本实体识别方法,其特征在于,包括:
基于实体词典对文本中的实体进行匹配;
验证匹配实体的边界是否符合分词切分边界;
对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率。


2.根据权利要求1所述的方法,其特征在于,基于实体词典对文本中的实体进行匹配包括:
基于实体词典采用多模算法对文本中的实体进行匹配。


3.根据权利要求1所述的方法,其特征在于,对于符合分词切分边界的所述匹配实体,通过统计所述匹配实体的上下文计算其作为实体的概率,包括:
统计所述匹配实体的上下文,并对当前匹配实体的上下文进行验证;
根据验证结果判断当前匹配实体的可信度,并进行实体标记。


4.根据权利要求1所述的方法,其特征在于,还包括:
添加用户自定义实体词典以扩展特殊的实体对象。


5.根据权利要求1所述的方法,其特征在于,还包括:
对于所述文本中的未知词,通过训练的CRF模型进行实体的识别。


6.一种文本实体识别装置,其特征在于,包括:
匹配模块,用于基于实体词典对文本中的实...

【专利技术属性】
技术研发人员:聂俊丰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1