【技术实现步骤摘要】
文本处理方法及装置
[0001]本申请涉及自然语言处理
,特别涉及一种文本处理方法。本申请同时涉及一种文本过滤方法、一种文本处理装置、一种文本过滤装置、一种计算设备,以及一种计算机可读存储介质。
技术介绍
[0002]随着互联网技术的发展,越来越多的人开始通过网络与人交流或发表自己的观点。为达到净化网络环境的目的,通常会对敏感词进行过滤,脱敏。现有技术中,通常采用字符串比较,字符串正则匹配这两种方法对同一段文字进行过滤。当检测到文字中包含不符合规则的敏感字/词语时,就会被特定的符号替换,或禁止该文字的发布。
[0003]然而,这种过滤方法虽然在一定程度上达到了过滤文字中出现的敏感词的目的,但同时也存在一些问题:字符串匹配只能匹配特定的或者满足特定正则表达式的词,有极大的局限性。文字过滤的范围被限定在预置的敏感词表中,过滤效果较差。
技术实现思路
[0004]有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本过滤方法、一种文本处理装置,一种 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本;对所述待处理文本进行预处理,获得所述待处理文本对应的词单元集合;计算所述词单元集合中包含的每个词单元,与预设的敏感词集合中的敏感词之间的属性相似度;根据所述属性相似度在所述词单元集合中筛选目标词单元,并基于所述目标词单元将所述敏感词集合更新为目标敏感词集合。2.根据权利要求1所述的方法,其特征在于,所述计算所述词单元集合中包含的每个词单元,与预设的敏感词集合中的敏感词之间的属性相似度,包括:对所述词单元集合中包含的每个词单元进行标准化处理,将标准化处理结果存储至数据集;计算所述数据集中的初始词单元,与预设的敏感词集合中的敏感词之间的属性相似度;所述根据所述属性相似度在所述词单元集合中筛选目标词单元,包括:根据所述属性相似度在所述数据集中筛选目标词单元。3.根据权利要求2所述的方法,其特征在于,所述计算所述数据集中的初始词单元,与预设的敏感词集合中的敏感词之间的属性相似度步骤执行之前,还包括:在所述数据集满足相似度计算条件的情况下,执行所述计算所述数据集中的初始词单元,与预设的敏感词集合中的敏感词之间的属性相似度步骤;其中,所述计算所述数据集中的初始词单元,与预设的敏感词集合中的敏感词之间的属性相似度,包括:从所述数据集中读取每个初始词单元对应的词向量;基于相似度算法,计算每个初始词单元对应的词向量,与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。4.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行预处理,获得所述待处理文本对应的词单元集合,包括:基于预设的敏感词集合对所述待处理文本进行字符串比较和字符串正则匹配,获得初始过滤文本;对所述初始过滤文本进行分词处理,获得所述词单元集合。5.根据权利要求4所述的方法,其特征在于,所述对所述初始过滤文本进行分词处理,获得所述词单元集合,包括:基于预设的数据集对所述初始过滤文本进行字符检测,获得目标字符;在所述初始过滤文本中删除所述目标字符,获得目标过滤文本;利用所述数据集和分词算法对所述目标过滤文本进行分词识别,获得与所述待处理文本对应的初始词单元集合;对所述初始词单元集合中每个词单元进行词性标记,生成携带词性信息的词单元集合。6.根据权利要求5所述的方法,其特征在于,所述利用所述数据集和分词算法对所述目标过滤文本进行分词识别,获得与所述待处理文本对应的初始词单元集合,包括:
基于所述数据集构建与所述目标过滤文本对应的有向无环图;采用动态规划策略在所述有向无环图中查找目标路径;根据所述目标路径确定目标切分组合,并根据所述目标切分组合确定初始词单元集合。7.根据权利要求4
‑
6任意一项所述的方法,其特征在于,所述对所述待处理文本进行预处理,获得所述待处理文本对应的词单元集合步骤执行之后,还包括:对所述词单元集合中的每个词单元进行标注,获得词单元标注集合;对所述词单元标注集合中的每个词单元进行变换处理,获得每个词单元对应的词向量;相应的,计算所述词单元集合中包含的每个词单元,与预设的敏感词集合中的敏感词之间的属性相似度,包括:基于相似度算法,计算每个词单元对应的词向量,与所述敏感词集合中的敏感词对应的词向量之间的属性相似度。8.根据权利要求1所述的方法,其特征在于,所述根据所述属性相似度在所述词单元集合中筛选目标词单元,包括:将所述属性相似度与预设的属性相似度阈值进行比较,选择大于等于所述属性相似度阈值的词单元作为目标词单元;或者按照预设的排序策略对...
【专利技术属性】
技术研发人员:刘波,陈炳煌,钟朝龙,刘松喜,
申请(专利权)人:成都西山居世游科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。