一种基于画像模型的对象识别方法技术

技术编号:13678237 阅读:106 留言:0更新日期:2016-09-08 05:16
本发明专利技术公开了一种基于画像模型的文本对象识别方法,包括:a)对象模型预定义:确定需要匹配的对象,为每个对象定义不同类型的属性,对每一类型的属性,均定义为一组包含不同分类词语的集合;b)文本切分:对待处理文本对象进行切词处理,形成切词集合;c)对象映射:计算切词集合中出现的不同对象各类型属性分类词语的词频,并形成数据映射输出键‑值的键值对;d)匹配度计算:针对需要匹配的对象,如果键值不为零则确定为有效命中,否则确定为无效命中,计算有效命中的匹配对象的匹配度;e)数据归一化计算:对所有计算完成的对象匹配度进行归一化计算,得到归一化的结果。通过本发明专利技术,能够实现对海量大数据文本进行快速对象识别,大幅提高对象的识别精准度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及大规模数据下的文本抽取及文本类型识别方法。
技术介绍
从文本中识别对象的技术,在众多数据挖掘领域中都有着重要的价值,典型的技术如“人物画像识别”,如从文本中抽取各种人名或人名定义词,相关技术在舆情、新闻等应用领域较为广泛,但目前该类型技术多以关键词或基于关键词库的词典方式来进行处理,但是该传统方式存在两个重要的缺陷,一来对词表完整性的依赖过高,一旦词表完整性不足将直接影响抽取结果的准确性,二来单纯基于词表的识别技术存在先天的不足,当关键词本身存在歧义时其识别结果将面临巨大的误差,如目标人物某科技公司管理者“雷军”,由于重名的关系,待处理文本中出现的“雷军”未必指的就是目标“雷军”,此类错误在对“企业”、“机构”这类复杂对象的识别时尤为明显,如将“小米粥”中的“小米”误判为手机公司“小米”,将“联想到这件事”中的“联想”误判为科技公司“联想”。随着近年大数据相关技术的发展及应用,对文本中抽取对象的算法要求愈加提高,传统的基于关键词词典的方法已经无法满足现实的需求,传统方法造成的大量识别错误也为相关应用的可用性及易用性
带来巨大的障碍。尤其是在舆情类产品、情报类产品等对对象识别要求较高、计算量较大的应用更是如此。
技术实现思路
因此,本专利技术提供一种基于画像模型的对象识别技术,能够实现对海量大数据文本进行快速对象识别,大幅提高对象的识别精准度,形成一套高效的处理方法,为达到上述目的,本专利技术的技术方案是这样实现的:一种基于画像模型的文本对象识别方法,包括a)对象模型预定义b)文本切分c)对象映射d)匹配度计算e)数据归一化计算。一种基于画像模型的文本对象识别方法,包括:a)对象模型预定义:确定需要匹配的对象,为每个对象定义不同类型的属性,对每一类型的属性,均定义为一组包含不同分类词语的集合;b)文本切分:对待处理文本对象进行切词处理,形成切词集合;c)对象映射:计算切词集合中出现的不同对象各类型属性分类词语的词频,并形成数据映射输出键-值的键值对;d)匹配度计算:针对需要匹配的对象,如果键值不为零则确定
为有效命中,否则确定为无效命中,计算有效命中的匹配对象的匹配度;e)数据归一化计算:对所有计算完成的对象匹配度进行归一化计算,得到归一化的结果。所述的一种基于画像模型的文本对象识别方法,优选的:其中每类属性包括强信号和弱信号。所述的一种基于画像模型的文本对象识别方法,优选的:步骤d)中匹配对象的匹配度计算具体为:依照下列公式对命中对象进行匹配度计算: s ( c i ) = Σ j = x , y Σ i = 1 n ( α j v ′ ( b j i ) + β j v ′ ( p j i ) + κ j v ′ ( g j i ) + λ j v ′ ( m j i ) ) ]]>其中i∈(0,n),n为正整数;ci为单篇文本命中的不同对象;α,β,κ,λ对应不同对象属性的权重;v′(t)=min(v(t),μ)为修正的属性词命中量,其中μ为限定系数,v(t)为属性词命中量,其中t为各种不同类型的属性,包括bj、pj、gj、mj;j={x,y本文档来自技高网
...

【技术保护点】
一种基于画像模型的文本对象识别方法,其特征在于包括:a)对象模型预定义:确定需要匹配的对象,为每个对象定义不同类型的属性,对每一类型的属性,均定义为一组包含不同分类词语的集合;b)文本切分:对待处理文本对象进行切词处理,形成切词集合;c)对象映射:计算切词集合中出现的不同对象各类型属性分类词语的词频,并形成数据映射输出键‑值的键值对;d)匹配度计算:针对需要匹配的对象,如果键值不为零则确定为有效命中,否则确定为无效命中,计算有效命中的匹配对象的匹配度;e)数据归一化计算:对所有计算完成的对象匹配度进行归一化计算,得到归一化的结果。

【技术特征摘要】
1.一种基于画像模型的文本对象识别方法,其特征在于包括:a)对象模型预定义:确定需要匹配的对象,为每个对象定义不同类型的属性,对每一类型的属性,均定义为一组包含不同分类词语的集合;b)文本切分:对待处理文本对象进行切词处理,形成切词集合;c)对象映射:计算切词集合中出现的不同对象各类型属性分类词语的词频,并形成数据映射输出键-值的键值对;d)匹配度计算:针对需要匹配的对象,如果键值不为零则确定为有效命中,否则确定为无效命中,计算有效命中的匹配对象的匹配度;e)数据归一化计算:对所有计算完成的对象匹配度进行归一化计算,得到归一化的结果。2.根据权利要求1所述的一种基于画像模型的文本对象识别方法,其特征在于:每类属性包括强信号和弱信号。3.根据权利要求2所述的一种基于画像模型的文本对象识别方法,其特征在于:步骤d)中匹配对象的匹配度计算具体为:依照下列公式对命中对象进行匹配度计算: s ( c i ) = Σ j = x , y Σ i = 1 n ( α j v ...

【专利技术属性】
技术研发人员:黄玉麟朱克林春雨
申请(专利权)人:北京深度时代科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1