基于规则的文本标引方法技术

技术编号:13180985 阅读:48 留言:0更新日期:2016-05-11 12:56
一种基于规则的文本标引方法,包括以下步骤:建立特征枚举集合,集合中包括特征词集,特征邻接词集,禁止词集及其他特征变量集合等;建立规则集合,描述当某些特征符合某种同现关系后需要激活哪些标引标签的逻辑;对文本进行特征扫描,得到该文本包含的特征元素集合;对逐一使用规则匹配文本的特征关系集合;符合规则的文本,将根据规则的描述打上相应的标签,并将特征及其同现关系作为线索输出。本发明专利技术解决了单纯特征匹配无法在复杂的中文语义下进行准确判断的问题。

【技术实现步骤摘要】

本专利技术涉及文本标弓I的
,具体说是一种基于规则的文本标弓I方法。
技术介绍
随着互联网技术的不断发展,网络已成为巨大的、分布广泛的信息源,在对网络信息进行分析时,往往需要对互联网上的新闻评论、论坛帖子等文本进行分析,判断其中是否有传销广告、色情及其他违规信息,并对其打上相应的标签。又由于中文语言文本结构非常复杂,业界在文本标引中普遍使用的关键词扫描技术、广告联系方式匹配技术和建模统计技术均无法达到需要的精准度,且此类技术在上线后若需进行效果改善,或遇到新问题急需解决的情况,都存在可操作性差甚至无法人工改善,且改善后上线周期长的问题。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的,包括以下步骤: A、建立包括有关键词集合的知识集合,建立以词为基础的特征集合; B、将上述特征集合按树形分类分等级并形成词树集,词树集中的每一枝节点作为规则引用的最小集合; C、建立规则集合,定义文本打标签的条件; D、扫描文本,对文本进行关键词扫描、分词,提取文本内的关键特征; E、对提取出的关键特征进行整理,并逐一与规则进行匹配; F、关键特征与规则成功匹配的,则触发“命中”逻辑,将规则所携带的标签信息及关键特征作为结果输出。本专利技术还可以采用以下技术措施: 步骤D之后,对关键词扫描的结果和分词结果进行匹配,删除关键词扫描中输出的歧义关键词。关键词集合中又包括特征词集、特征邻接词集、禁止词集;特征词集中包括广告特征,色情特征,联系方式特征,禁止词特征。本专利技术具有的优点和积极效果是:本专利技术的,包括以下步骤:建立特征枚举集合,集合中包括特征词集,特征邻接词集,禁止词集及其他特征变量集合等;建立规则集合,描述当某些特征符合某种同现关系后需要激活哪些标引标签的逻辑;对文本进行特征扫描,得到该文本包含的特征元素集合;对逐一使用规则匹配文本的特征关系集合;符合规则的文本,将根据规则的描述打上相应的标签,并将特征及其同现关系作为线索输出。本专利技术解决了单纯特征匹配无法在复杂的中文语义下进行准确判断的问题。【具体实施方式】以下通过具体实施例对本专利技术进行详细说明。本专利技术的基于规则的文本标弓I方法,包括以下步骤: A、建立包括有关键词集合的知识集合,建立以词为基础的特征集合; B、将上述特征集合按树形分类分等级并形成词树集,词树集中的每一枝节点作为规则引用的最小集合; C、建立规则集合,定义文本打标签的条件; D、扫描文本,对文本进行关键词扫描、分词,提取文本内的关键特征; E、对提取出的关键特征进行整理,并逐一与规则进行匹配; F、关键特征与规则成功匹配的,则触发“命中”逻辑,将规则所携带的标签信息及关键特征作为结果输出。步骤D之后,对关键词扫描的结果和分词结果进行匹配,删除关键词扫描中输出的歧义关键词。关键词集合中又包括特征词集、特征邻接词集、禁止词集;特征词集中包括广告特征,色情特征,联系方式特征,禁止词特征。实施例1: 下面以广告文本标引为例: “$Ru_广告 _卖考试答案=IsNear(WordFilter(FindWTSSeg(〃class 广告 _交易行为〃),FindWTS( "class广告_交易行为干扰词")),HaveContact (ceI lphone ,0.5),10) &IsHaveffTS ("class广告_考试答案〃)”是网页内的一段对应数据, 本专利技术的处理步骤如下: 1)关键词扫描得到文中是否有"class广告_交易行为""class广告_交易行为干扰词""class 广告 _考试答案〃类的特征词(FindWTSSeg,FindWTS,IsHaveWTS); 2)对〃class广告_交易行为〃类词的扫描结果和分词结果进行匹配,删除不符合中文分词语法的误命中词(例如“本店有售”出现在“本店有售后服务”中的情况)(FindWTSSeg); 3)对文本进行联系方式提取,得到文中的联系方式权值在0.5以上的手机号码特征(HaveContact); 4)class广告_交易行为干扰词"的特征词结果,对"class广告_交易行为"进行干扰词排除,将"class广告_交易行为"的命中词更加精确化(WordFilter); 5)对〃class广告_交易行为〃和手机号特征进行距离检查,找出在文中出现两特征距离小于1个字的特征组合(IsNear ); 6)若5步骤的特征组合存在,且(&)文中同时存在"class广告_考试答案〃的特征词,则此规则命中,将对此文本打上名为“广告_卖考试答案”的标签。以上所述,仅是本专利技术的较佳实施例而已,并非对本专利技术作任何形式上的限制,虽然本专利技术已以较佳实施例公开如上,然而,并非用以限定本专利技术,任何熟悉本专业的技术人员,在不脱离本专利技术技术方案范围内,当然会利用揭示的
技术实现思路
作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本专利技术技术方案的内容,依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本专利技术技术方案的范围内。【主权项】1.一种基于规则的文本标弓I方法,包括以下步骤: A、建立包括有关键词集合的知识集合,建立以词为基础的特征集合; B、将上述特征集合按树形分类分等级并形成词树集,词树集中的每一枝节点作为规则引用的最小集合; C、建立规则集合,定义文本打标签的条件; D、扫描文本,对文本进行关键词扫描、分词,提取文本内的关键特征; E、对提取出的关键特征进行整理,并逐一与规则进行匹配; F、关键特征与规则成功匹配的,则触发“命中”逻辑,将规则所携带的标签信息及关键特征作为结果输出。2.根据权利要求1所述的,其特征在于:步骤D之后,对关键词扫描的结果和分词结果进行匹配,删除关键词扫描中输出的歧义关键词。3.根据权利要求1所述的,其特征在于:关键词集合中又包括特征词集、特征邻接词集、禁止词集;特征词集中包括广告特征,色情特征,联系方式特征,禁止词特征。【专利摘要】一种,包括以下步骤:建立特征枚举集合,集合中包括特征词集,特征邻接词集,禁止词集及其他特征变量集合等;建立规则集合,描述当某些特征符合某种同现关系后需要激活哪些标引标签的逻辑;对文本进行特征扫描,得到该文本包含的特征元素集合;对逐一使用规则匹配文本的特征关系集合;符合规则的文本,将根据规则的描述打上相应的标签,并将特征及其同现关系作为线索输出。本专利技术解决了单纯特征匹配无法在复杂的中文语义下进行准确判断的问题。【IPC分类】G06F17/27, G06F17/21【公开号】CN105573968【申请号】CN201510910423【专利技术人】常毅, 周祖胜 【申请人】天津海量信息技术有限公司【公开日】2016年5月11日【申请日】2015年12月10日本文档来自技高网
...

【技术保护点】
一种基于规则的文本标引方法,包括以下步骤:A、建立包括有关键词集合的知识集合,建立以词为基础的特征集合;B、将上述特征集合按树形分类分等级并形成词树集,词树集中的每一枝节点作为规则引用的最小集合;C、建立规则集合,定义文本打标签的条件;D、扫描文本,对文本进行关键词扫描、分词,提取文本内的关键特征;E、对提取出的关键特征进行整理,并逐一与规则进行匹配;F、关键特征与规则成功匹配的,则触发“命中”逻辑,将规则所携带的标签信息及关键特征作为结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:常毅周祖胜
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1