文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:24518063 阅读:36 留言:0更新日期:2020-06-17 06:57
本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,涉及处理领域。该方法包括:获取游戏的文本;获取所述文本的互动信息;当所述互动信息符合预设条件时,确定所述文本是否包括预设关键词;当所述文本不包含预设关键词时,基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件;当检测符合所述统计相关条件时,基于预设的语义规则确定所述文本是否语义有效;当确定所述文本语义无效时,确定所述文本为无效文本,并对所述文本进行过滤。本申请实现了用户从评论区域内获得有效的评论内容的效率更高,用户体验更好。

Text processing method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质
本申请涉及处理
,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着互联网技术的迅速发展,用户通过互联网进行各种各样的互动。比如:用户可以在被评论主体下方的评论栏发表评论,其他用户可以对评论区的评论进行互动。目前,在对评论进行分析时,由于针对同一评论主体会有大量的评论内容,在这些评论中混有高重复率且无实际意义的内容,比如:“沙发”;甚至有些评论区域出现很多胡乱输入的无意义语句,比如:“伏羲拨拉地方不额外费阿集散地哈达口味”。由于高重复率且无实际意义的评论内容的存在,使得评论区域内的有价值的文本内容被淹没,导致用户从评论区域内获得有效的评论内容的效率很低,用户体验较差。
技术实现思路
本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,可以解决用户从评论区域内获得有效的评论内容的效率很低,用户体验较差的问题。所述技术方案如下:第一方面,提供了一种文本处理方法,该方法包括:获取游戏的文本;本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取游戏的目标文本;/n获取所述文本的互动信息;当所述互动信息符合预设条件时,确定所述文本是否包括预设关键词;/n当所述文本不包含预设关键词时,基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件;/n当检测符合所述统计相关条件时,基于预设的语义规则确定所述文本是否语义有效;/n当确定所述文本语义无效时,确定所述文本为无效文本,并对所述文本进行过滤。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取游戏的目标文本;
获取所述文本的互动信息;当所述互动信息符合预设条件时,确定所述文本是否包括预设关键词;
当所述文本不包含预设关键词时,基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件;
当检测符合所述统计相关条件时,基于预设的语义规则确定所述文本是否语义有效;
当确定所述文本语义无效时,确定所述文本为无效文本,并对所述文本进行过滤。


2.根据权利要求1所述的文本处理方法,其特征在于,所述互动信息包括所述文本的评论信息数量、支持数量、反对数量以及分享数量中的至少一种;
所述互动信息符合预设条件,包括:
当评论数量超过预设评论阈值,和/或,所述支持数量超过预设支持阈值,和/或所述反对数量不超过预设反对阈值,和/或分享数量超过预设分享阈值时,则判定所述互动信息符合预设条件。


3.根据权利要求1所述的文本处理方法,其特征在于,所述基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件的步骤,包括:
获取所述文本中的中文字符,并统计出中文字符的数量;
当中文字符的数量超过中文字符的数量阈值时,确定所述文本符合统计相关条件。


4.根据权利要求1所述的文本处理方法,其特征在于,所述基于预设的字符统计规则对所述信息进行检测以确定所述文本是否符合统计相关条件的步骤,包括:
获取所述文本中的非中文字符,并统计出非中文字符的数量;
当非中文字符的数量小于非中文字符的数量阈值时,确定所述文本符合统计相关条件。


5.根据权利要求1所述的文本处理方法,其特征在于,所述基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件的步骤,包括:
获取所述文本中的全部字符;
检测全部字符中是否存在连续重复的字符;
当检测到全部字符中存在连续重复的字符时,统计出各个连续重复的字符的重复次数;
当任一连续重复的字符的重复次数不超过重复次数阈值时,确定所述文本符合统计相关条件。


6.根据权利要求1所述的文本处理方法,其特征在于,所述基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件的步骤,包括:
获取所述文本中的全部中文字符,以及各个中文字符的首字母;
统计各个首字母连续出现的次数;
当任一首字母连续出现的次数不超过连续出现次数阈值时,确定所述文本符合统计相关条件。


7.根据权利要求1所述的文本处理方法,其特征在于,基于预设的语义规则确定所述文本是否语义有效,包括:
计算所述文本的混淆度;
当所述混淆度没有...

【专利技术属性】
技术研发人员:俞一鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1