电子产品命名实体自动识别系统的构建方法及识别方法技术方案

技术编号:5471010 阅读:356 留言:0更新日期:2012-04-11 18:40
电子产品命名实体自动识别系统的构建方法及识别方法,本发明专利技术涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从相关信息中把电子产品的名称进行自动识别的技术。用于电子产品的名称识别。它解决了基于规则的识别系统在识别时召回率较低,而基于机器学习的识别系统识别时需要人工标注大量训练语料的问题。构建方法包括下述步骤:形成原始语料的知识库;构建一个标注语料库;基于条件随机域方法进行电子产品命名实体识别。识别方法包括下述步骤:把自由文本输入电子产品命名实体自动识别系统;系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重利用条件随机域方法进行运算得到识别结果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从 相关信息中把电子产品的名称进行自动识别的技术。
技术介绍
客观存在并可相互区别的事物称之为实体。实体可以是具体的人、事和物,也可以 是抽象的概念或联系。命名实体识别任务是指识别文本中具有特定意义的实体。随着人类 社会步入数字时代,越来越多的电子产品进入到了人们的生活中。关于电子产品的各种报 道大量出现在电子文档中。互联网上更是充满了关于电子产品的广告、使用方法和用户评 论。电子产品命名实体识别技术可以帮助人们更好的查询和管理自己感兴趣的电子产品信 息,帮助企业更快地发现互联网上用户对自己产品的反馈以及更准确地投递广告,因此这 项技术越来越受到工业界和学术界的关注。目前的命名实体识别技术主要针对新闻语料中的人名、地名、机构名等这些传统 命名实体。主要的技术可以分为两类基于规则的技术和基于机器学习的技术。基于规则 的技术主要利用命名实体的构成规则,采用人工构建知识库和规则库的方式来进行实体识 别,这种技术准确率较高,但是召回率较低,而且很难移植。基于机器学习的技术主要采用 机器学习算法和上下文特征来进行实体识别本文档来自技高网...

【技术保护点】
电子产品命名实体自动识别系统的构建方法,其特征在于它包括下述步骤:一、利用下载软件从互联网中收集多种体裁的电子产品网页信息,提取出网页信息的正文,从而形成原始语料的知识库;使用分词词性标注工具,对原始语料进行分词和词性标注处理,之后按照电子产品命名实体的定义,对分词和词性标注后的语料进行实体标注,构建一个标注语料库;所述对电子产品命名实体的定义是指按照一个电子产品命名实体的品牌名、系列名和型号三部分区分出电子产品命名实体;二、基于条件随机域方法,定义多个特征模板,特征模板利用标注语料和知识库具体化出特征,条件随机域方法在标注语料库上的运算结果可以为每个特征赋予一定的权重,特征和其对应的权重构成...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙承杰林磊梅丰王晓龙刘远超刘秉权
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1