一种基于CRF的影视检索实体识别方法技术

技术编号：19341919 阅读：32 留言：0更新日期：2018-11-07 13:48

本发明专利技术公开了基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标，结合人工纠正，完成训练语料标注；然后通过设计特征模板提取特征，利用CRF进行实体识别，所涉及的技术包括：自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。本发明专利技术的方法可实现实体识别不依赖于知识库，对未登录实体也可以识别；在影视检索领域中，对不同实体类型都能取得很好的实体识别效果，实时性强。

A method of video retrieval entity recognition based on CRF

The invention discloses a method of entity recognition for video retrieval based on CRF, which mainly accomplishes training corpus annotation by automatically roughening the data of video retrieval text data, combining with manual correction, and then extracts features by designing feature templates and realizes entity recognition by using CRF. The technologies involved include: natural language interaction theory Solution, movie and video corpus annotation and entity recognition, web crawler technology. The method of the present invention can realize entity recognition independent of knowledge base, and can also recognize unlisted entity. In the field of video retrieval, good entity recognition effect can be achieved for different entity types with strong real-time performance.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CRF的影视检索实体识别方法
本专利技术涉及自然语言处理
，特别涉及一种基于CRF的影视检索实体识别方法。
技术介绍
命名实体识别是指从文本中识别出命名性指称项，包括人名、地名、机构名，以及一些特殊领域的特定实体等，它是自然语言处理领域的重要研究方向，在工程实践中有着广泛的应用，如：事件检测、信息检索、机器翻译、问答系统等领域。目前，英文实体识别技术已经达到了较高的水平；但是，中文实体识别相对比较困难。主要是由于中文自身的几个特点：(1)中文没有明确的界限标注，词的概念比较模糊；(2)中文用词灵活多变，相同的实体在不同上下文语境中有不同的意义；(3)实体存在嵌套现象，尤其在机构名中尤其严重；(4)中文有很多简化表达现象，并且英文名的中文翻译识别困难。现有的实体识别算法大多用于处理长文本，而影视检索文本非常短，没有完整的句法结构，通常包括模棱两可的短语，无法提供足够的背景信息，因此，要准确的判断出实体类型非常困难。
技术实现思路
本专利技术的目的是克服上述
技术介绍
中不足，提供一种基于CRF的影视检索实体识别方法，采用了基于CRF的实体识别技术，可实现实体识别不依赖于知识库，对未登录实体也可以识别。为了达到上述的技术效果，本专利技术采取以下技术方案：一种基于CRF的影视检索实体识别方法，包含以下步骤：步骤A.数据采集，所述数据至少包含影视数据库数据和用户影视检索文本数据；步骤B.训练语料标注，包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注；步骤C.根据影视检索数据特征，设计CRF特征模板；步骤D.根据训练语料以及CRF特征模板，进行...

【技术保护点】
1.一种基于CRF的影视检索实体识别方法，其特征在于，包含以下步骤：步骤A.数据采集，所述数据至少包含影视数据库数据和用户影视检索文本数据；步骤B.训练语料标注，包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注；步骤C.根据影视检索数据特征，设计CRF特征模板；步骤D.根据训练语料以及CRF特征模板，进行CRF模型训练；步骤E.利用训练好的CRF模型，对影视检索数据进行实体识别。

【技术特征摘要】
1.一种基于CRF的影视检索实体识别方法，其特征在于，包含以下步骤：步骤A.数据采集，所述数据至少包含影视数据库数据和用户影视检索文本数据；步骤B.训练语料标注，包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注；步骤C.根据影视检索数据特征，设计CRF特征模板；步骤D.根据训练语料以及CRF特征模板，进行CRF模型训练；步骤E.利用训练好的CRF模型，对影视检索数据进行实体识别。2.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤A中采集影视数据库数据时具体包含以下步骤：步骤A1.1从指定的站点开始，采用宽度优先策略爬取网页；步骤A1.2针对每一个获取到的网页，对其页面源代码进行解析，获取网页内相关的信息；步骤A1.3将获取到的数据写入数据库。3.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述影视数据库数据至少包含影视名、导演名、演员名。4.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤：步骤B1.1利用分词工具对...

【专利技术属性】
技术研发人员：杨兰，孙锐，展华益，王欣，赵亮，谭斌，许洛，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人