【技术实现步骤摘要】
输入法敏感词的过滤方法及装置
本申请涉及输入
,尤其涉及一种输入法敏感词的过滤方法及装置。
技术介绍
随着手机、平板电脑等终端设备的发展,输入法已成为终端设备进行输写的重要工具。用户在通过输入法进行输入后,会展现许多与当前输入相关联的候选词语,以便帮助用户筛选输入结果。但是有时候候选词中可能会出现一些敏感词语(如暴力、脏话、性方面等词语),这些词语并不是用户想看到的,并且在儿童用户模式下,这些词语会影响儿童的身心健康。因此现有的输入法给用户带来了困扰,从而降低了用户服务质量。
技术实现思路
本申请实施例提供一种输入法敏感词的过滤方法及装置,能够消除用户的困扰,提高用户服务质量。第一方面,本申请实施例提供一种输入法敏感词的过滤方法,该方法包括:获取待处理敏感词集组,所述待处理敏感词集组包括待处理敏感词集,所述待处理敏感词集包括标注的多条文本内容;对所述待处理敏感词集分别进行敏感词过滤操作,得到至少一个过滤样本;将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练,
【技术保护点】
1.一种输入法敏感词的过滤方法,其特征在于,所述方法包括:/n获取待处理敏感词集组,所述待处理敏感词集组包括待处理敏感词集,所述待处理敏感词集包括标注的多条文本内容;/n对所述待处理敏感词集分别进行敏感词过滤操作,得到至少一个过滤样本;/n将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练,得到输入法模型;/n根据所述输入法模型对目标候选词集进行过滤,得到至少一个目标候选词,所述目标候选词集包括多个候选词。/n
【技术特征摘要】
1.一种输入法敏感词的过滤方法,其特征在于,所述方法包括:
获取待处理敏感词集组,所述待处理敏感词集组包括待处理敏感词集,所述待处理敏感词集包括标注的多条文本内容;
对所述待处理敏感词集分别进行敏感词过滤操作,得到至少一个过滤样本;
将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练,得到输入法模型;
根据所述输入法模型对目标候选词集进行过滤,得到至少一个目标候选词,所述目标候选词集包括多个候选词。
2.根据权利要求1所述的方法,其特征在于,所述待处理敏感词集组包括待处理强敏感词集、待处理中敏感词集和待处理弱敏感词集;
所述对所述待处理敏感词集分别进行敏感词过滤操作,得到至少一个过滤样本,包括:
分别过滤所述待处理强敏感词集中的强敏感词、降低所述待处理中敏感词集中的中敏感词的数量、降低所述待处理弱敏感词集中的弱敏感词的数量,得到所述至少一个过滤样本。
3.根据权利要求2所述的方法,其特征在于,所述过滤所述待处理强敏感词集中的强敏感词,包括:
对所述待处理强敏感词集中的多条文本内容分别进行分词,得到每条文本内容的分词结果;
判断每个所述分词结果中的每个词是否为强敏感词;
若所述分词结果中存在强敏感词,删除所述待处理强敏感词集中所述分词结果对应的文本内容。
4.根据权利要求3所述的方法,其特征在于,所述对所述待处理强敏感词集中的多条文本内容分别进行分词,得到每条文本内容的分词结果,包括:
确定所述每条文本内容中的每个字的上下文信息;
根据所述每个字的上下文信息,得到所述每条文本内容中每个字之间的语义关系;
根据所述每个字之间的语义关系对每条文本内容中的字进行划分,得到每条文本内容的分词结果。
5.根据权利要求2所述的方法,其特征在于,所述降低所述待处理中敏感词集中的中敏感词的数量,包括:
对所述待处理中敏感词集中的多条文本内容分别进行分词,得到每条文本内容的分词结果;
判断每个所述分词结果中的每一个词是否为中敏感词;
若多个所述分词结果中存在中敏感词,按照第一比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。
6.根据权利要求2所述的方法,其特征在...
【专利技术属性】
技术研发人员:周锋,丁克玉,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。