文本过滤系统及方法技术方案

技术编号:8563082 阅读:133 留言:0更新日期:2013-04-11 04:47
本发明专利技术公开了一种文本过滤系统及方法,该方法包括如下步骤:根据用户的过滤需求建立过滤模型;通过对一组过滤样本进行训练,形成接近用户的过滤需求的本体库;以及抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取,形成待过滤文本的实体关系对向量,计算过滤模型与待过滤文本的相似度,对高于相似度阈值的文本进行过滤,本发明专利技术依据建立的用户的过滤模型,通过实体关系抽取,准确表达过滤的文本的特征,可以提高过滤的精确性。

【技术实现步骤摘要】

本专利技术关于ー种,特别是涉及ー种基于实体关系抽取的。
技术介绍
文本过滤多年来一直受到较多的关注,在信息检索与过滤等领域中有较好的应用前景。目前的文本过滤方法中,有的采用基于遗传算法的模糊聚类方法,对种群中的每个个体进行模糊相似矩阵直接聚类,然后根据聚类的结果采用所提出的适应度函数来评估种群的适应度,然而,这种方法过滤的精度取决于聚类的效果,对于用户的过滤需求不能进行很好的表达。有些采用改进的分类算法对不良文本信息进行过滤,从数据层的角度改进传统的KNN算法,同样对用户的需求表达不够精确。有些过滤方法也采用本体的来表达用户的过滤需求,但是对于表达用户过滤需求的本体库的建立方法不够精确,这将大大影响文本的过滤精度。有些过滤算法采用了自适应学习的文本过滤,虽然可以对用户的过滤模板进行自适应的学习,能够调整过滤模型,但是采用特征向量的方式不能精确表达用户的过滤需求。
技术实现思路
为克服上述现有技术的不足,本专利技术之目的在于提供ー种,其依据建立的用户的过滤模型,通过实体关系抽取,准确表达过滤的文本的特征,可以提高过滤的精确性。为达上述及其它目的,本专利技术提出ー种文本过滤系统,至少包括过滤模型建立模组,用于根据用户的过滤需求建立过滤模型;自适应学习模组,通过对ー组过滤样本进行训练,形成接近用户的过滤需求的本体库;以及文本过滤模组,抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取,形成待过滤文本的实体关系对向量,计算过滤模型与待过滤文本的相似度,对高于相似度阈值的文本进行过滤。进ー步地,该过滤模型建立模组首先根据用户的过滤需求,明确要构建的本体所覆盖的领域和范围确定本体的领域与范围,然后在本体所涉及的领域范围内进行信息的收集和分析,明确重点概念和概念之间的关系,并且用精确的术语表达出来,最后建立本体框架。进ー步地,该本体采取三元组Topic (C, P, S)来表示,其中C表示由过滤领域内的名词概念抽象出来,具有相同属性和行为结构的概念类的集合,采用向量空间模型来表示;P描述概念和关系的属性;S表示类之间的结构关系。进ー步地,该自适应学习模组用増量式迭代方法对该组过滤样本进行训练。 进ー步地,该文本过滤模组还包括预处理模组,对待过滤文本进行去除停用词等预处理操作;特征词抽取模组,将经过预处理的待过滤文本抽取出表达文本内容的特征向量;实体关系抽取模组,首先根据所抽取的页面的特征向量,识别实体,并基于启发式规则,获取实体的上下文特征,然后构建上下文特征词的特征向量,采用应用特征频度函数对特征项进行数值化,采用k-means的联合聚类算法,来实现实体对的聚类,最后对实体对的关系进行标注;以及相似度计算模组,计算待过滤文本与过滤模型的相似度,对高于相似度阈值的文本进行过滤。进ー步地,该相似度计算模组根据向量空间模型,将两特征向量夹角的余弦值表示它们的相似度,计算出待过滤文本与过滤模型的相似度,根据设定的阈值,将超过阈值的文本过滤掉。为达到上述及其他目的,本专利技术还提供ー种文本过滤方法,包括如下步骤步骤一,根据用户的过·滤需求建立过滤模型;步骤ニ,通过对ー组过滤样本进行训练,形成接近用户的过滤需求的本体库;以及步骤三,抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取,形成待过滤文本的实体关系对向量,计算过滤模型与待过滤文本的相似度,对高于相似度阈值的文本进行过滤。8、如权利要求7所述的ー种文本过滤方法,其特征在于,步骤三包括如下步骤对待过滤文本进行去除停用词等预处理操作;将经过预处理的待过滤文本抽取出表达文本内容的特征向量;进行实体关系的抽取,形成待过滤文本的实体关系对向量;以及计算待过滤文本与过滤模型的相似度,对高于相似度阈值的文本进行过滤。进ー步地,该实体关系的抽取步骤还包括如下步骤首先根据所抽取的页面的特征向量,识别实体;基于启发式规则,获取实体的上下文特征;构建上下文特征词的特征向量,采用应用特征频度函数对特征项进行数值化;采用k-means的联合聚类算法,来实现实体对的聚类;以及对实体对的关系进行标注。这样待过滤文本就采用标注过关系的实体对及关系的向量来表示。进ー步地,步骤ー还包括如下步骤根据用户的过滤需求,明确要构建的本体所覆盖的领域和范围确定本体的领域与范围;在本体所涉及的领域范围内进行信息的收集和分析,明确重点概念和概念之间的关系,并且用精确的术语表达出来;以及建立本体框架。与现有技术相比,本专利技术一种通过采用本体来建立过滤模型,同时在过滤阶段,采用实体关系抽取方法来对待过滤文本的特征词进行实体关系的标注,因此能够较准确地表达待过滤的文本,然后通过计算待过滤的文本与过滤模型的相似度,将高于阈值的文本过滤掉,本专利技术由于能够精确地表达用户的过滤需求,因而有较高的过滤精度。附图说明图1为本专利技术ー种文本过滤系统的系统架构图;图2为本专利技术ー种文本过滤方法的步骤流程图;图3为图2之本专利技术较佳实施例中步骤203的细节流程图。具体实施例方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所掲示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术ー种文本过滤系统架构图。如图1所示,本专利技术ー种文本过滤系统,至少包括过滤模型建立模组10、自适应学习模组11以及文本过滤模组12。其中过滤模型建立模组10用于根据用户的过滤需求建立过滤模型。过滤模型建立模组10首先根据用户的过滤需求,明确要构建的本体所覆盖的领域和范围确定本体的领域与范围,然后在本体所涉及的领域范围内进行信息的收集和分析,明确重点概念和概念之间的关系,并且用精确的术语表达出来,最后建立本体框架。在本专利技术较佳实施例中,本体采取三元组Topic (C,P,S)来表示,其中C表示由过滤领域内的名词概念抽象出来,具有相同属性和行为结构的概念类的集合;P描述概念和关系的属性;S表示类之间的结构关系,如父类、子类等。C采用向量空间模型(VSM)来表示,使用ニ元组Ci (Keyi, Weighti),其中Keyi表示关键词,Weighti表示关键词的权重。自适应学习模组11通过对ー组过滤样本进行训练,形成接近用户的过滤需求的本体库。在本专利技术较佳实施例中,自适应学习模组11用増量式迭代方法对ー组过滤样本进行训练,设定固定值m作为观察新的需要被过滤掉的文档出现数量的窗ロ大小,根据评测指标的參数n来灵活设置,并设训练迭代次数为5。在增量迭代训练过程中,需要确定每次増加的特征项数目,以避免产生更多的噪音。根据增加的有效特征值,选取一定数量的増加到已有的本体库中,丰富用户的过滤需求模型。因此随着不断的学习,本体库越来越接近于用户的过滤需求,本体库所必需的特征也逐渐減少。文本过滤模组12抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取,形成待过滤文本的实体关系对向量,计算过滤模型与待过滤文本的相似度,对低于相似度阈值的文本进行过滤。具体来说,文本过滤模组12进ー步包括预处理模组120,特征词抽取模组121、实体关系抽取模组122以及相似度计算模组123。其中预处理模组本文档来自技高网...

【技术保护点】
一种文本过滤系统,至少包括:过滤模型建立模组,用于根据用户的过滤需求建立过滤模型;自适应学习模组,通过对一组过滤样本进行训练,形成接近用户的过滤需求的本体库;以及文本过滤模组,抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取,形成待过滤文本的实体关系对向量,计算过滤模型与待过滤文本的相似度,对高于相似度阈值的文本进行过滤。

【技术特征摘要】
1.一种文本过滤系统,至少包括 过滤模型建立模组,用于根据用户的过滤需求建立过滤模型; 自适应学习模组,通过对一组过滤样本进行训练,形成接近用户的过滤需求的本体库;以及 文本过滤模组,抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取,形成待过滤文本的实体关系对向量,计算过滤模型与待过滤文本的相似度,对高于相似度阈值的文本进行过滤。2.如权利要求1所述的一种文本过滤系统,其特征在于该过滤模型建立模组首先根据用户的过滤需求,明确要构建的本体所覆盖的领域和范围确定本体的领域与范围,然后在本体所涉及的领域范围内进行信息的收集和分析,明确重点概念和概念之间的关系,并且用精确的术语表达出来,最后建立本体框架。3.如权利要求2所述的一种文本过滤系统,其特征在于该本体采取三元组Topic(C,P,S)来表示,其中C表示由过滤领域内的名词概念抽象出来,具有相同属性和行为结构的概念类的集合,采用向量空间模型来表示#描述概念和关系的属性;S表示类之间的结构关系。4.如权利要求1所述的一种文本过滤系统,其特征在于该自适应学习模组用增量式迭代方法对该组过滤样本进行训练。5.如权利要求1所述的一种文本过滤系统,其特征在于,该文本过滤模组还包括 预处理模组,对待过滤文本进行去除停用词等预处理操作; 特征词抽取模组,将经过预处理的待过滤文本抽取出表达文本内容的特征向量;实体关系抽取模组,首先根据所抽取的页面的特征向量,识别实体,并基于启发式规贝U,获取实体的上下文特征,然后构建上下文特征词的特征向量,采用应用特征频度函数对特征项进行数值化,采用k-means的联合聚类算法,来实现实体对的聚类,最后对实体对的关系进行标注;以及 相似度计算模组,计算待过滤文本与过滤模型的相似度,对高于相似度阈值...

【专利技术属性】
技术研发人员:闫俊英
申请(专利权)人:上海电机学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1