一种文本审核中的规则提取方法及系统技术方案

技术编号：21629237 阅读：23 留言：0更新日期：2019-07-17 11:11

本发明专利技术提供了一种文本审核中的规则提取方法及系统，其中，所述方法包括：获取待处理的文本数据；按照以字符为单位以及以单词为单位，分别提取所述文本数据的N‑Gram特征，以构建第一候选规则；对所述文本数据进行泛化处理，并从泛化处理后的文本数据中提取N‑Gram特征，以构建第二候选规则；针对所述文本数据中的语句，构建语句依存关系树，并根据所述语句依存关系树生成N‑Gram特征，以构建第三候选规则；利用训练数据，针对不同审核类别，确定每个规则的权重，并对权重降序排列，形成每个类别的审核规则；对于欲处理的文本首先抽取出三种候选规则，判断抽取的规则是否命中某个类别审核规则，并确定审核文本的类别。本申请提供的技术方案，能够自动提取规则，并且提高规则的可解释性。

A Method and System of Rule Extraction in Text Auditing

全部详细技术资料下载

【技术实现步骤摘要】
一种文本审核中的规则提取方法及系统
本专利技术涉及数据处理
，特别涉及一种文本审核中的规则提取方法及系统。
技术介绍
文本审核就是检测出文本中的违规信息，包括政治敏感、色情、辱骂等。目前常见的做法是基于规则和统计的方法分析待审核文本，其中基于规则的方法就是利用人工定义的词典或者正则模板，基于统计的方法就是看成文本分类问题来解决。目前，基于规则的方法中，规则大多是人工定义的，所以扩展性不好；基于统计的方法就是看成一个文本分类问题，但是这种分类方法不好解释，比如无法解释输入的文本中因为哪些内容导致该文本违规。
技术实现思路
本申请的目的在于提供一种文本审核中的规则提取方法及系统，能够自动提取规则，并且提高规则的可解释性。为实现上述目的，本申请提供一种文本审核中的规则提取方法，所述方法包括：获取待处理的文本数据；按照以字符为单位以及以单词为单位，分别提取所述文本数据的N-Gram特征，以构建第一候选规则；对所述文本数据进行泛化处理，并从泛化处理后的文本数据中提取N-Gram特征，以构建第二候选规则；针对所述文本数据中的语句，构建语句依存关系树，并根据所述语句依存关系树生成N-Gram特征，以构建第三候选规则；针对训练样本，抽取上述三种候选规则；并针对不同审核类别，确定对应的规则权重，并通过预先设置的阈值判定每个审核类别的规则集合，以形成每个审核类别的审核规则。进一步地，按照以字符为单位以及以单词为单位，分别提取所述文本数据的N-Gram特征包括：以字符为单位，从所述文本数据中提取长度为3的3元模型特征，以及以单词为单位，从所述文本数据中提取SkippingBi...

【技术保护点】
1.一种文本审核中的规则提取方法，其特征在于，所述方法包括：获取待处理的文本数据；按照以字符为单位以及以单词为单位，分别提取所述文本数据的N‑Gram特征，以构建第一候选规则；对所述文本数据进行泛化处理，并从泛化处理后的文本数据中提取N‑Gram特征，以构建第二候选规则；针对所述文本数据中的语句，构建语句依存关系树，并根据所述语句依存关系树生成N‑Gram特征，以构建第三候选规则；针对训练样本，抽取上述三种候选规则；并针对不同审核类别，确定对应的规则权重，并通过预先设置的阈值判定每个审核类别的规则集合，以形成每个审核类别的审核规则。

【技术特征摘要】
1.一种文本审核中的规则提取方法，其特征在于，所述方法包括：获取待处理的文本数据；按照以字符为单位以及以单词为单位，分别提取所述文本数据的N-Gram特征，以构建第一候选规则；对所述文本数据进行泛化处理，并从泛化处理后的文本数据中提取N-Gram特征，以构建第二候选规则；针对所述文本数据中的语句，构建语句依存关系树，并根据所述语句依存关系树生成N-Gram特征，以构建第三候选规则；针对训练样本，抽取上述三种候选规则；并针对不同审核类别，确定对应的规则权重，并通过预先设置的阈值判定每个审核类别的规则集合，以形成每个审核类别的审核规则。2.根据权利要求1所述的方法，其特征在于，按照以字符为单位以及以单词为单位，分别提取所述文本数据的N-Gram特征包括：以字符为单位，从所述文本数据中提取长度为3的3元模型特征，以及以单词为单位，从所述文本数据中提取SkippingBigram特征。3.根据权利要求1所述的方法，其特征在于，对所述文本数据进行泛化处理包括：确定包含人名和人称代词的命名实体，并利用所述命名实体对所述文本数据进行泛化。4.根据权利要求1或3所述的方法，其特征在于，从泛化处理后的文本数据中提取N-Gram特征包括：以字符为单位，从所述泛化处理后的文本数据中提取长度为3的3元模型特征，以及以单词为单位，从所述泛化处理后的文本数据中提取SkippingBigram特征。5.根据权利要求1所述的方法，其特征在于，所述语句依存关系树中，节点表征语句中的单词，节点与节点之间的边表征单词之间的依存关系。6.根据权利要求1所述的方法，其特征在于，根据所述语句依存关系树生成N-Gram特征包括：针对所述语句依存关系树中的叶子节点，根据与所述叶子节点具备依存关系的其它节点，生成N-Gram特征。7.根据权利要求1所述的方法，其特征在于，形成每个审核类别的审核规则包括：确定当前候选规则命中的审核文本，并识别所述命中的审核文本对应...

【专利技术属性】
技术研发人员：徐建，
申请(专利权)人：云知声上海智能科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人