当前位置: 首页 > 专利查询>北京大学专利>正文

字符数据识别及处理的方法和装置制造方法及图纸

技术编号:6994468 阅读:167 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了字符数据识别及处理的方法和装置,本发明专利技术的方法包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。本发明专利技术加入了特征缀作为识别特征列,避免了后期检索、翻译时预定义字符数据识别误差较大的问题,提高了命名实体的识别精度,避免表达自由或不足够规范而未被识别或被错误识别出的命名实体。

【技术实现步骤摘要】

本专利技术涉及计算机数据检索的
,具体而言,涉及字符数据识别及处理的 方法和装置。
技术介绍
互联网自上世纪90年代初诞生以来得到了迅猛发展,其信息发布主要以网页的 形式实现。据最新的估计,互联网中网页的数量已经超过了 550个billion(l个billion 等于10亿),而互联网作为世界上最大的信息仓库,覆盖了现实世界的各个领域。面对这种 海量信息源,人们迫切需要一些自动化的工具帮助他们迅速找到真正重要的信息,于是信 息抽取研究应运而生。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的 信息,并以特定的形式存储起来,供用户查询或进一步分析利用。而命名实体识别作为其中 的一个基本步骤,已经逐步成为自然语言处理的一项关键技术。命名实体(Named Entity)是现实世界中的具体的或者抽象的实体。主要包括实 体、时间表达式、数字表达式等。在具体应用中,命名实体的具体含义也需视情况而定;例 如,可能需要把住址、网址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体; 有些词属于专门领域中的实体名,例如药名、轮船名字、参考目录等,也应该把其归入考虑 范围内。一般来讲,命名实体识别(Named Entity Recognition, NER)的任务被定义为识 别出文本中现有的专有名称和有意义的数量短语并加以归类。在命名实体识别的实际工作 中,时间表达式、数字表达式等的识别相对简单,其规则的设计、数据的统计训练等也比较 容易。而实体中的人名、地名、机构名,因为具有开放性、发展性、构成规律的随意性等特点, 所以其识别就可能会有较多的错选或漏选,因而这三类命名实体识别的技术创新也更有挑 战性。具体的,人名包括本国人名、外国音译名等;地名包含城市、国家、街道、省市县乡、河 流、山川等;机构名包括公司名、各级政府组合名、委员会等。基于文本信息的命名实体识别的技术方法,主要经历了两个发展阶段基于规则 的方法和基于统计的方法。早期的方法基本都是属于规则的方法,较为传统,在中均有描 述。如 Description of the LaSIE-II system as used for MUC_7(作者 -Humphreys K), Named entity recognition without gazeteers( ## :A. Mikheev ^ ) ,11 白勺Afe。 于规则的方法虽然精确度很高,但是它所耗费的资源包括人力和物力都是巨大的,主观性 很强,随着互联网上文档数量的猛增和需求的不断变化,基于规则的方法开始显得力不从 心。同时,伴随着计算机计算速度的加快和大量熟语料的出现,使得统计方法成为实现命 名实体识别的主流方法。隐马尔可夫模型(HMM),最大熵模型(ME),决策树方法,基于错误 驱动的转换机器学习方法都被应用于命名实体识别的研究。其中,条件随机场模型(CRF) 取得了明显优于其他方法的效果,近年一直得到广泛关注,这在许多论文中得到体现,如 Chinese Segmentation and New Word Detecting using Conditional Random Fields(作 者Fuchun Peng等),Early results for named entity recognition with conditionalrandom fields (作者:Α· McCallum 等)。当前比较普遍使用的是规则和统计相结合的方法。两者的优缺点形成互补关系。 不论是综合提取不同特征,还是选用监督式、半监督式、非监督式等机器学习方法,其前提 都需要面向不同的语言类型和文本格式,分析清楚困难所在。中文命名实体本身所具有的 发展性和构词方式的随意性,以及各类词之间的共享性和制约性都对命名实体识别带来很 大的困难。词在中文中是个模糊的概念,没有明确的定义。即使人理解汉语也会出现边界 歧义的情况,机器处理更加不可避免。中文命名实体的生成规律以及结构更加复杂,尤其是 缩略语的表示形式具有多样性,很难提取构成规则,因此不可能用一种识别模型应用于所 有的命名实体。特别的,与英文相比,中文缺少在命名实体识别中起重要作用的词形变换特 征。而且,到目前为止,能用于中文命名实体识别的大型开放性语料还很少,基本上研究者 主要基于公认的采用北大标注集标注的1998年1-6月份的《人民日报》标注语料,以及微 软亚洲研究院发布的繁简体语料。互联网中的新闻评论是指普通浏览者在具有评论发布权限的网站针对某一事件 人物等的新闻正文而发布的评论,是目前人们在互联网上信息获取的重要来源之一。基于 新闻评论信息产生了许多重要的应用和研究课题。例如,舆情分析,这是近十年自然语言处 理和信息检索领域的热点研究课题,其目标是从连续的记录中识别出系统未知的话题以及 与该话题相关的报道,而准确的进行命名实体识别是进行分析的前提步骤之一。互联网上的中文新闻评论是由不同的网络使用个体根据自己的意愿、喜好发表观 点的媒介,评论人通过对某一则新闻发表评论来完成从互联网信息的获取者到提供者的角 色转化。评论人个体之间基本相互独立,这就造成了不但不同的新闻消息所获得的关注度 差别很大,而且每则评论的文本表达缺乏语义的统一性。具体来讲,主要有以下特点1、文本格式不规则。由于新闻评论出自各式各样的评论人,评论文本中往往包含 大量噪音片段,包括字符错误拼写(因为评论人包含某种情感倾向而故意写错或这是因为 键盘操作而无意写错),标点的特殊混用,多余空格键,无实际意义字符,不规则名称及简写 等,这种噪音片段为分析处理自动化带来诸多干扰。例如,“汇源”(一种饮料品牌)可能被 错误拼写为“汇圆”,而“抵制可口可乐”中各个汉字间的空格是无意义的。2、各种自由撰写风格。评论人的知识背景、文化程度等多样化,表达方式、选择词 汇也多样化,不同的评论人所用词语甚至句子结构可能不同,而想要表达的观点却相近。3、相对用词简洁。网络评论人写评论趋向于使用网络用语及惯用流行词汇等,这 种使用习惯未必符合标准中文表达语法,但却被网民普遍熟悉认可。特别的,评论人的用词 与句式趋向简短,很多评论只有两三句话构成。4、话题相关。评论人基本上以表达情感或观点为目的,而新闻评论更是针对新闻 正文中提到的人物或相关事件而发,因而正文和评论、评论和评论之间有很强的互关联。5、研究语料缺失状态。互联网上每天都在发布大量新闻,随之而来的是海量的评 论语料库,但是这些语料都是粗糙未处理的网页。迄今为止,评论中的命名实体识别这个子 领域还未有相关研究,从而缺乏为研究人员公认的实体标注规范,而可供研究的标注语料 也处于完全空白状态。以上这些特点,都造成了字符数据中预定义字符数据,如中文新闻评论类数据的 命名实体识别误差较大的问题。由于存在这类问题,会导致在后期的数据检索、翻译等网络操作的过程中,存在检索数据误差、检索范围不准确,翻译错误等后期问题,因此,如何有效 地发掘中文新闻评论中的可利用特点,选择合理的特征和机器学习方法,提高评论中命名 实体识别的精度,以达到互联网信息抽取中更好的实际应用效果,已成为目前自然语言处 理任务中一个重点和难点。
技术实现思路
本专利技术旨在提供一本文档来自技高网
...

【技术保护点】
1.一种字符数据识别及处理的方法,其特征在于,包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵立红万小军吴於茜杨建武肖建国
申请(专利权)人:北京大学北大方正集团有限公司北京方正电子政务信息科技有限公司北京北大方正电子有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1