一种基于CRF的影视检索实体识别方法技术

技术编号:19341919 阅读:32 留言:0更新日期:2018-11-07 13:48
本发明专利技术公开了基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标,结合人工纠正,完成训练语料标注;然后通过设计特征模板提取特征,利用CRF进行实体识别,所涉及的技术包括:自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。本发明专利技术的方法可实现实体识别不依赖于知识库,对未登录实体也可以识别;在影视检索领域中,对不同实体类型都能取得很好的实体识别效果,实时性强。

A method of video retrieval entity recognition based on CRF

The invention discloses a method of entity recognition for video retrieval based on CRF, which mainly accomplishes training corpus annotation by automatically roughening the data of video retrieval text data, combining with manual correction, and then extracts features by designing feature templates and realizes entity recognition by using CRF. The technologies involved include: natural language interaction theory Solution, movie and video corpus annotation and entity recognition, web crawler technology. The method of the present invention can realize entity recognition independent of knowledge base, and can also recognize unlisted entity. In the field of video retrieval, good entity recognition effect can be achieved for different entity types with strong real-time performance.

【技术实现步骤摘要】
一种基于CRF的影视检索实体识别方法
本专利技术涉及自然语言处理
,特别涉及一种基于CRF的影视检索实体识别方法。
技术介绍
命名实体识别是指从文本中识别出命名性指称项,包括人名、地名、机构名,以及一些特殊领域的特定实体等,它是自然语言处理领域的重要研究方向,在工程实践中有着广泛的应用,如:事件检测、信息检索、机器翻译、问答系统等领域。目前,英文实体识别技术已经达到了较高的水平;但是,中文实体识别相对比较困难。主要是由于中文自身的几个特点:(1)中文没有明确的界限标注,词的概念比较模糊;(2)中文用词灵活多变,相同的实体在不同上下文语境中有不同的意义;(3)实体存在嵌套现象,尤其在机构名中尤其严重;(4)中文有很多简化表达现象,并且英文名的中文翻译识别困难。现有的实体识别算法大多用于处理长文本,而影视检索文本非常短,没有完整的句法结构,通常包括模棱两可的短语,无法提供足够的背景信息,因此,要准确的判断出实体类型非常困难。
技术实现思路
本专利技术的目的是克服上述
技术介绍
中不足,提供一种基于CRF的影视检索实体识别方法,采用了基于CRF的实体识别技术,可实现实体识别不依赖于知识库,对未登录实体也可以识别。为了达到上述的技术效果,本专利技术采取以下技术方案:一种基于CRF的影视检索实体识别方法,包含以下步骤:步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;步骤C.根据影视检索数据特征,设计CRF特征模板;步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别;本专利技术的基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标,结合人工纠正,完成训练语料标注;然后通过设计特征模板提取特征,利用CRF进行实体识别,所涉及的技术包括:自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。进一步地,所述步骤A中采集影视数据库数据时具体包含以下步骤:步骤A1.1从指定的站点开始,采用宽度优先策略爬取网页;步骤A1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息;步骤A1.3将获取到的数据写入数据库。进一步地,所述影视数据库数据至少包含影视名、导演名、演员名。进一步地,所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤:步骤B1.1利用分词工具对影视检索文本进行中文分词;步骤B1.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的实体类型。进一步地,还包含步骤B1.3:对自动标注后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。进一步地,所述步骤B1.2中的实体类型至少包含影视名、人名、电影类型。进一步地,所述步骤B1.1中使用的分词工具为ANSJ分词工具。进一步地,所述步骤D中进行CRF模型训练后还包含生成实体识别模型model文件的操作。进一步地,所述步骤E中对影视检索数据进行实体识别时具体包含:步骤E1.1将影视检索数据转化为CRF数据格式;步骤E1.2利用训练好的实体识别模型model文件进行实体识别。本专利技术与现有技术相比,具有以下的有益效果:本专利技术的基于CRF的影视检索实体识别方法,可应用于影视检索领域,但不仅限于该领域,可实现实体识别不依赖于知识库,对未登录实体也可以识别;且在影视检索领域中,对不同实体类型,如:影视名、人名、语言、类型等,都能取得很好的实体识别效果,实时性强。具体实施方式下面结合本专利技术的实施例对本专利技术作进一步的阐述和说明。实施例:一种基于CRF的影视检索实体识别方法,本实施例中将其应用于影视检索,具体施步骤如下:步骤S1.数据采集,该步骤中数据共分为两个部分:(1)影视数据库数据,训练语料自动标注时本实施例中采用影视数据库匹配的方式进行标注,因此,建立有影视数据库,其数据包括影视名、导演名、演员名等,本实施例中影视数据库数据主要利用网络爬虫技术从多个影视网站爬取。(2)用户影视检索文本数据,本实施例中这部分数据从电视用户的在线影视检索数据中获取。具体的,本实施例中,步骤S1中采集影视数据库数据时主要利用网络爬虫技术从多个影视网站爬取影视数据,因此,该步骤主要包含以下步骤:S1.1从指定的站点如起始网站开始,采用宽度优先策略爬取网页;S1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息,如:影视名、导演名、演员名等;S1.3将获取的数据写入影视数据库。步骤S2.训练语料标注,具体实体识别类型及BIO标注格式如下表1所示,表1:实体识别类型及BIO标注格式示意表人名B-personI-person电影区域B-movie_areaI-movie_area电影语言B-movie_languageI-movie_language电影名B-movie_nameI-movie_name电影大类型B-categoryI-category电影小类型B-movie_styleI-movie_style非实体O本实施例中语料标注主要采用两种方式:(1)基于影视数据库匹配的语料自动粗标;(2)基于人工纠正的语料精确标注。进行训练语料标注时主要包含以下步骤:S2.1利用Ansj分词工具对影视检索文本进行中文分词;S2.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的类型。如影视名、人名、电影类型等,以此完成训练语料自动粗标。S2.3对自动粗标后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。本实施例中采用BIO标注格式进行语料标注,若采集到的影视检索文本为“想看电视剧我的前半生”时,其具体标注格式如下所示:想O看O电B-category视I-category剧I-category我B-movie_name的I-movie_name前I-movie_name半I-movie_name生I-movie_name步骤S3.设计CRF特征模板,根据数据特征设计CRF特征模板,具体CRF特征模板如表2所示。表2:CRF特征模板示意表本实施例中步骤S3主要是针对影视检索领域数据特点,设计CRF特征模板template,该模板的具体说明如下:模板文件中的每一行是一个模板,每个模板都是由%x[row,col]来指定输入数据中的一个token,row指定到当前token的行偏移(行是相对位置),col指定列位置(列是绝对位置)。CRF有两种类型的模板,一元模板Unigram和二元模板Bigram,模板类型通过第一个字符指定。每一个Unigram模板,产生L*N个特征函数,其中L是标注集中类别数量,N是从模板中扩展处理的字符串种类。每一个Bigram模板,产生L*L*N个特征函数,其中L是标注集中类别数量,N是从模板中扩展处理的字符串种类。步骤S4.CRF建模,根据训练样本以及特征模板,进行CRF模型训练。该步骤中主要利用标注好的训练语料和特征模板,采用CRF进行实体识别模型训练。训练命令如下:crf_learnte本文档来自技高网...

【技术保护点】
1.一种基于CRF的影视检索实体识别方法,其特征在于,包含以下步骤:步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;步骤C.根据影视检索数据特征,设计CRF特征模板;步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别。

【技术特征摘要】
1.一种基于CRF的影视检索实体识别方法,其特征在于,包含以下步骤:步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;步骤C.根据影视检索数据特征,设计CRF特征模板;步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别。2.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤A中采集影视数据库数据时具体包含以下步骤:步骤A1.1从指定的站点开始,采用宽度优先策略爬取网页;步骤A1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息;步骤A1.3将获取到的数据写入数据库。3.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述影视数据库数据至少包含影视名、导演名、演员名。4.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤:步骤B1.1利用分词工具对...

【专利技术属性】
技术研发人员:杨兰孙锐展华益王欣赵亮谭斌许洛
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1