一种自动识别产品命名实体的方法及装置制造方法及图纸

技术编号:3848581 阅读:345 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自动识别产品命名实体的方法及装置;方法包括:根据各产品的产品信息构建产品知识库;识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品。本发明专利技术能够识别出文本中的产品命名实体,并将该产品命名实体与知识库中的产品信息相对应。

【技术实现步骤摘要】

本专利技术涉及语言处理领域,尤其涉及一种自动识别产品命名实体的方法 及装置。
技术介绍
当今互联网上,拥有大量的信息,除了少部分图片和视频,绝大多数的 信息是由文本来组织的,包括大量的新闻、介绍性文章等内容。这些文本信 息中,有相当数量与产品有关,例如现在互联网硬件网站的介绍、评测性文 章中都大量的出现产品信息。现有的技术不能有效自动的从这些信息中识别 出文章中出现的产品信息,更缺乏相关技术,对文章的产品信息进行提取。相关工作包括产品命名实体识别的研究,产品命名实体是指在文本(文 章中)出现的用来表征产品信息的短语片段。产品命名实体识别属于计算语 言学的研究领域。目前有关文献发表的方法主要为基于统计/概率模型的命名实体识别,采用隐马尔可夫模型HMM、条件随机场CRF等方法进行命名 实体识别。相关研究有中国科学院计算技术研究所张华平等的相关工作、富 士通公司和中国科学院自动化所的刘非凡等进行的相关工作。这些识别方案 是建立在一定的训练样本的统计/概率模型的基础之上,在学习/识别过程中 不利用知识信息。同时其未对文本信息中潜在的命名实体进4亍标注,而不进 行与知识库的对应;导致了知道这个是一个实体,但是不知道这个实体具体 是什么的问题。
技术实现思路
本专利技术要解决的技术问题是提供一种自动识别产品命名实体的方法及 装置,能够识别出文本中的产品命名实体,并将该产品命名实体与知识库中 的产品信息相对应。为了解决上述问题,本专利技术提供了 一种自动识别产品命名实体的方法,包括根据各产品的产品信息构建产品知识库; 识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所 述识别出的产品命名实体所对应的所述产品知识库中的产品。进一步地,所述根据各产品的产品信息构建产品知识库的步骤包括对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出 该网页内各产品的产品信息,包括产品名、公司名、技术参数和出现频率, 所述产品名包括厂家、品牌名、型号、系列名等信息中的一个或几个;计算产品名中各信息t对产品e的权重V(t|e):先得到出现各e,的概率 P(e,)的总和,所述e,为包含t的产品;然后用出现e的概率P ( e )除以所述 总和得到V(t|e);以产品为条目,将产品信息和产品名中各信息的权重构建为产品知识库。进一步地,所述识别文本中的产品命名实体的步骤包括根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集 合以及产品命名实体的状态模板;通过对语料库的标注和最大似然法获取概率参数,所述语料库是指人工 已经标注好状态的文本资料;进行状态标注时将词性和知识信息作为基本状 态分类标准;所述知识信息包括潜在的公司名、品牌名、型号和系列名中的 一个或几个;将文本分割为句子;利用隐马尔可夫模型计算出最大概率状态序列,根 据最大概率状态序列匹配相应的产品命名实体的状态模板,识别出句子中所 包括的产品命名实体。进一步地,将识别出的产品命名实体与所述产品知识库中的产品进行匹 配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品的步 骤包括6计算识别出来的产品命名实体对所述产品知识库中的各产品的匹配度; 当计算该产品命名实体对于一个产品e的匹配度时,在所述产品知识库中查 找该产品命名实体中每个词对于该产品e的权重,然后相加得到对于该产品 e的匹配度;对所述产品知识库中的所有产品的匹配度进行排序,确定匹配度最高的 产品为所述识别出来的产品命名实体所对应的产品知识库中的产品。进一步地,所述的方法还包括当计算对某个产品的匹配度时,如果所述识别出来的产品命名实体前第 d个词为该产品的厂商信息,则将对该产品的匹配度增加l/d+4。本专利技术还提供了 一种自动识别产品命名实体的装置,包括 构建单元,用于根据各产品的产品信息构建产品知识库; 识别单元,用于识别文本中的产品命名实体;对应单元,用于将识别出的产品命名实体与所述产品知识库中的产品进 行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产印o进一步地,所述构建单元包括提取模块,用于对互联网上的产品库的网页进行抓取,并从所抓取的网 页中分别提取出该网页内各产品的产品信息,包括产品名、公司名、技术参 数和出现频率,所述产品名包括厂家、品牌名、型号、系列名等信息中的一 个或几个;权重计算模块,用于计算产品名中各信息t对产品e的权重V(t|e):先 得到出现各e,的概率P(e,)的总和,所述e,为包含t的产品;然后用出现e的 概率P (e)除以所述总和得到V(t|e);建库模块,用于以产品为条目,将产品信息和产品名中各信息的权重构 建为产品知识库。进一步地,所述识别单元包括设置模块,用于根据具体领域产品命名实体的构成规则,设定隐马尔可夫模型的状态集合以及产品命名实体的状态模板;参数计算模块,通过对预存的语料库的标注和最大似然法获取概率参 数,所述语料库是指人工已经标注好状态的文本资料;进行状态标注时将词 性和知识信息作为基本状态分类标准;所述知识信息包括潜在的公司名、品 牌名、型号和系列名中的一个或几个;识别模块,用于将文本分割为句子,利用隐马尔可夫模型计算出最大概 率状态序列,根据最大概率状态序列匹配相应的产品命名实体的状态模板, 分别识别出各句子中所包括的产品命名实体。进一步地,所述对应单元包括计算模块,计算识别出来的产品命名实体对所述产品知识库中的各产品 的匹配度;该产品命名实体对于一个产品e的匹配度为所述产品知识库中 该产品命名实体中每个词对于该产品e的权重之和;选择模块,用于对匹配度排序,选择匹配度最高的产品为所述识别出来 的产品命名实体所对应的产品知识库中的产品。进一步地,所述对应单元还包括加权模块,用于当所述识别出来的产品命名实体前第d个词为某个产品 的厂商信息时,将对该产品的匹配度增加1/d+4。本专利技术的技术方案能够自动的提取文本中关于产品命名实体的语义信 息,并将其与产品知识库中的相关数据项相对应,提高了识别的正确性,并附图说明图1为实施例二中的自动识别产品命名实体的装置的示意框图。 具体实施例方式下面将结合附图及实施例对本专利技术的技术方案进行更详细的说明。本文中,产品知识库是指存储产品信息通过自动、手工办法维护,并具 有自更新能力的数据库。其中每一数据项对应一种具体的硬件产品,包含产 品名、生产厂家等可以帮助识别的产品信息。实施例一, 一种自动识别产品命名实体的方法,包括 根据各产品的产品信息构建产品知识库; 识别文本中的产品命名实体;将识别出的产品命名实体与所述产品知识库中的产品进行匹S己,确定所 述识别出的产品命名实体为所述产品知识库中匹配度最高的产品。本实施例中,所述根据各产品的产品信息构建产品知识库的步骤包括对互联网上的产品库的网页进行抓取,并从所抓取的网页中分别提取出 该网页内各产品的产品信息,包括产品名、公司名、技术参数、出现频率(一 般用相关文章数量来替换)等等,所述产品名包括厂家、品牌名、型号、系 列名等信息中的一个或几个;以产品为条目,将产品信息构建为产品知识库, 并自适应调节产品名中各信息的权重。如一网页中的文本标题为"佳能EOS 450D ( Canon Eos 450D),,,标 注了实体标准名本文档来自技高网...

【技术保护点】
一种自动识别产品命名实体的方法,包括: 根据各产品的产品信息构建产品知识库; 识别文本中的产品命名实体; 将识别出的产品命名实体与所述产品知识库中的产品进行匹配,确定所述识别出的产品命名实体所对应的所述产品知识库中的产品。

【技术特征摘要】

【专利技术属性】
技术研发人员:于文渊
申请(专利权)人:北京学之途网络科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1