文本过滤系统及方法技术方案

技术编号：8563082 阅读：133 留言：0更新日期：2013-04-11 04:47

本发明专利技术公开了一种文本过滤系统及方法，该方法包括如下步骤：根据用户的过滤需求建立过滤模型；通过对一组过滤样本进行训练，形成接近用户的过滤需求的本体库；以及抽取待过滤文本的特征词，然后识别特征词中的实体，并进行实体关系的抽取，形成待过滤文本的实体关系对向量，计算过滤模型与待过滤文本的相似度，对高于相似度阈值的文本进行过滤，本发明专利技术依据建立的用户的过滤模型，通过实体关系抽取，准确表达过滤的文本的特征，可以提高过滤的精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术关于ー种，特别是涉及ー种基于实体关系抽取的。
技术介绍
文本过滤多年来一直受到较多的关注，在信息检索与过滤等领域中有较好的应用前景。目前的文本过滤方法中，有的采用基于遗传算法的模糊聚类方法，对种群中的每个个体进行模糊相似矩阵直接聚类，然后根据聚类的结果采用所提出的适应度函数来评估种群的适应度，然而，这种方法过滤的精度取决于聚类的效果，对于用户的过滤需求不能进行很好的表达。有些采用改进的分类算法对不良文本信息进行过滤，从数据层的角度改进传统的KNN算法，同样对用户的需求表达不够精确。有些过滤方法也采用本体的来表达用户的过滤需求，但是对于表达用户过滤需求的本体库的建立方法不够精确，这将大大影响文本的过滤精度。有些过滤算法采用了自适应学习的文本过滤，虽然可以对用户的过滤模板进行自适应的学习，能够调整过滤模型，但是采用特征向量的方式不能精确表达用户的过滤需求。
技术实现思路
为克服上述现有技术的不足，本专利技术之目的在于提供ー种，其依据建立的用户的过滤模型，通过实体关系抽取，准确表达过滤的文本的特征，可以提高过滤的精确性。为达上述及其它目的，本专利技术提出ー种文本过滤系统，至少包括过滤模型建立模组，用于根据用户的过滤需求建立过滤模型；自适应学习模组，通过对ー组过滤样本进行训练，形成接近用户的过滤需求的本体库；以及文本过滤模组，抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取，形成待过滤文本的实体关系对向量，计算过滤模型与待过滤文本的相似度，对高于相似度阈值的文本进行过滤。进ー步地，该过滤模型建立模组首先根据用户的过滤需求，明确要构建的本...

【技术保护点】
一种文本过滤系统，至少包括：过滤模型建立模组，用于根据用户的过滤需求建立过滤模型；自适应学习模组，通过对一组过滤样本进行训练，形成接近用户的过滤需求的本体库；以及文本过滤模组，抽取待过滤文本的特征词，然后识别特征词中的实体，并进行实体关系的抽取，形成待过滤文本的实体关系对向量，计算过滤模型与待过滤文本的相似度，对高于相似度阈值的文本进行过滤。

【技术特征摘要】
1.一种文本过滤系统,至少包括过滤模型建立模组，用于根据用户的过滤需求建立过滤模型；自适应学习模组，通过对一组过滤样本进行训练，形成接近用户的过滤需求的本体库；以及文本过滤模组,抽取待过滤文本的特征词,然后识别特征词中的实体,并进行实体关系的抽取，形成待过滤文本的实体关系对向量，计算过滤模型与待过滤文本的相似度，对高于相似度阈值的文本进行过滤。2.如权利要求1所述的一种文本过滤系统，其特征在于该过滤模型建立模组首先根据用户的过滤需求，明确要构建的本体所覆盖的领域和范围确定本体的领域与范围，然后在本体所涉及的领域范围内进行信息的收集和分析，明确重点概念和概念之间的关系，并且用精确的术语表达出来，最后建立本体框架。3.如权利要求2所述的一种文本过滤系统，其特征在于该本体采取三元组Topic(C，P，S)来表示，其中C表示由过滤领域内的名词概念抽象出来，具有相同属性和行为结构的概念类的集合，采用向量空间模型来表示#描述概念和关系的属性；S表示类之间的结构关系。4.如权利要求1所述的一种文本过滤系统，其特征在于该自适应学习模组用增量式迭代方法对该组过滤样本进行训练。5.如权利要求1所述的一种文本过滤系统,其特征在于,该文本过滤模组还包括预处理模组，对待过滤文本进行去除停用词等预处理操作；特征词抽取模组，将经过预处理的待过滤文本抽取出表达文本内容的特征向量；实体关系抽取模组，首先根据所抽取的页面的特征向量，识别实体，并基于启发式规贝U，获取实体的上下文特征，然后构建上下文特征词的特征向量，采用应用特征频度函数对特征项进行数值化，采用k-means的联合聚类算法，来实现实体对的聚类，最后对实体对的关系进行标注；以及相似度计算模组，计算待过滤文本与过滤模型的相似度，对高于相似度阈值...

【专利技术属性】
技术研发人员：闫俊英，
申请(专利权)人：上海电机学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人