一种文本审核中的规则提取方法及系统技术方案

技术编号:21629237 阅读:23 留言:0更新日期:2019-07-17 11:11
本发明专利技术提供了一种文本审核中的规则提取方法及系统,其中,所述方法包括:获取待处理的文本数据;按照以字符为单位以及以单词为单位,分别提取所述文本数据的N‑Gram特征,以构建第一候选规则;对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N‑Gram特征,以构建第二候选规则;针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N‑Gram特征,以构建第三候选规则;利用训练数据,针对不同审核类别,确定每个规则的权重,并对权重降序排列,形成每个类别的审核规则;对于欲处理的文本首先抽取出三种候选规则,判断抽取的规则是否命中某个类别审核规则,并确定审核文本的类别。本申请提供的技术方案,能够自动提取规则,并且提高规则的可解释性。

A Method and System of Rule Extraction in Text Auditing

【技术实现步骤摘要】
一种文本审核中的规则提取方法及系统
本专利技术涉及数据处理
,特别涉及一种文本审核中的规则提取方法及系统。
技术介绍
文本审核就是检测出文本中的违规信息,包括政治敏感、色情、辱骂等。目前常见的做法是基于规则和统计的方法分析待审核文本,其中基于规则的方法就是利用人工定义的词典或者正则模板,基于统计的方法就是看成文本分类问题来解决。目前,基于规则的方法中,规则大多是人工定义的,所以扩展性不好;基于统计的方法就是看成一个文本分类问题,但是这种分类方法不好解释,比如无法解释输入的文本中因为哪些内容导致该文本违规。
技术实现思路
本申请的目的在于提供一种文本审核中的规则提取方法及系统,能够自动提取规则,并且提高规则的可解释性。为实现上述目的,本申请提供一种文本审核中的规则提取方法,所述方法包括:获取待处理的文本数据;按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征,以构建第一候选规则;对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N-Gram特征,以构建第二候选规则;针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N-Gram特征,以构建第三候选规则;针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。进一步地,按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征包括:以字符为单位,从所述文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述文本数据中提取SkippingBigram特征。进一步地,对所述文本数据进行泛化处理包括:确定包含人名和人称代词的命名实体,并利用所述命名实体对所述文本数据进行泛化。进一步地,从泛化处理后的文本数据中提取N-Gram特征包括:以字符为单位,从所述泛化处理后的文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述泛化处理后的文本数据中提取SkippingBigram特征。进一步地,所述语句依存关系树中,节点表征语句中的单词,节点与节点之间的边表征单词之间的依存关系。进一步地,根据所述语句依存关系树生成N-Gram特征包括:针对所述语句依存关系树中的叶子节点,根据与所述叶子节点具备依存关系的其它节点,生成N-Gram特征。进一步地,形成每个审核类别的审核规则包括:确定当前候选规则命中的审核文本,并识别所述命中的审核文本对应的违规类别,以确定所述当前候选规则在违规类别中的分布距离;根据所述当前候选规则在违规类别中的分布距离,构建评价函数,并利用所述评价函数确定所述当前候选规则的评价结果;分别从不同的违规类别对应的候选规则中抽取评价结果较高的目标规则,并将所述目标规则作为对应违规类别文本的标准审核规则。为实现上述目的,本申请提供一种文本审核中的规则提取系统,所述系统包括:数据获取单元,用于获取待处理的文本数据;第一候选规则构建单元,用于按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征,以构建第一候选规则;第二候选规则构建单元,用于对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N-Gram特征,以构建第二候选规则;第三候选规则构建单元,用于针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N-Gram特征,以构建第三候选规则;标准审核规则确定单元,用于针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。进一步地,所述第一候选规则构建单元包括:特征提取模块,用于以字符为单位,从所述文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述文本数据中提取SkippingBigram特征。进一步地,所述标准审核规则确定单元包括:分布距离确定模块,用于确定当前候选规则命中的审核文本,并识别所述命中的审核文本对应的违规类别,以确定所述当前候选规则在违规类别中的分布距离;评价结果确定模块,用于根据所述当前候选规则在违规类别中的分布距离,构建评价函数,并利用所述评价函数确定所述当前候选规则的评价结果;标准确定模块,用于分别从不同的违规类别对应的候选规则中抽取评价结果较高的目标规则,并将所述目标规则作为对应违规类别文本的标准审核规则。由上可见,本申请提供的技术方案,至少具备以下技术效果:1.通过在数据中自动提取规则,而不再像传统方法那样去人工编写规则,有效地解决了规则系统扩展性的问题。2.利用自动提取的规则对文本作审核时,由于规则是基于语义模型生成的,因此审核文本命中的规则具有可解释性,有效地解决了普通分类做文本审核任务的不可解释性的问题。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中文本审核中的规则提取方法流程图;图2为本专利技术实施例中文本审核中的规则提取系统的功能模块图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。请参阅图1,本申请提供一种文本审核中的规则提取方法,所述方法包括以下步骤:S1:获取待处理的文本数据;S2:按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征,以构建第一候选规则;S3:对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N-Gram特征,以构建第二候选规则;S4:针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N-Gram特征,以构建第三候选规则;S5:针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。在一个实施方式中,按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征包括:以字符为单位,从所述文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述文本数据中提取SkippingBigram特征。在一个实施方式中,对所述文本数据进行泛化处理包括:确定包含人名和人称代词的命名实体,并利用所述命名实体对所述文本数据进行泛化。在一个实施方式中,从泛化处理后的文本数据中提取N-Gram特征包括:以字符为单位,从所述泛化处理后的文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述泛化处理后的文本数据中提取SkippingBigram特征。在一个实施方式中,所述语句依存关系树中,节点表征语句中的单词,节点与节点之间的边表征单词之间的依存关系。在一个实施方式中,根据所述语句依存关系树生成N-Gram特征包括:针对所述语句依存关系树中的叶子节点,根据与所述叶子节点具备依存本文档来自技高网...

【技术保护点】
1.一种文本审核中的规则提取方法,其特征在于,所述方法包括:获取待处理的文本数据;按照以字符为单位以及以单词为单位,分别提取所述文本数据的N‑Gram特征,以构建第一候选规则;对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N‑Gram特征,以构建第二候选规则;针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N‑Gram特征,以构建第三候选规则;针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。

【技术特征摘要】
1.一种文本审核中的规则提取方法,其特征在于,所述方法包括:获取待处理的文本数据;按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征,以构建第一候选规则;对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N-Gram特征,以构建第二候选规则;针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N-Gram特征,以构建第三候选规则;针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。2.根据权利要求1所述的方法,其特征在于,按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征包括:以字符为单位,从所述文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述文本数据中提取SkippingBigram特征。3.根据权利要求1所述的方法,其特征在于,对所述文本数据进行泛化处理包括:确定包含人名和人称代词的命名实体,并利用所述命名实体对所述文本数据进行泛化。4.根据权利要求1或3所述的方法,其特征在于,从泛化处理后的文本数据中提取N-Gram特征包括:以字符为单位,从所述泛化处理后的文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述泛化处理后的文本数据中提取SkippingBigram特征。5.根据权利要求1所述的方法,其特征在于,所述语句依存关系树中,节点表征语句中的单词,节点与节点之间的边表征单词之间的依存关系。6.根据权利要求1所述的方法,其特征在于,根据所述语句依存关系树生成N-Gram特征包括:针对所述语句依存关系树中的叶子节点,根据与所述叶子节点具备依存关系的其它节点,生成N-Gram特征。7.根据权利要求1所述的方法,其特征在于,形成每个审核类别的审核规则包括:确定当前候选规则命中的审核文本,并识别所述命中的审核文本对应...

【专利技术属性】
技术研发人员:徐建
申请(专利权)人:云知声上海智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1