【技术实现步骤摘要】
字符数量的统计方法、装置、设备及存储介质
本专利技术涉及数据处理
,尤其涉及一种字符数量的统计方法、装置、设备及存储介质。
技术介绍
在网络互动的过程中,越来越多的网络用户希望将自己的情绪在互动过程中表达出来。在情绪表达过程中,利用表情字符可以形象生动的表达情绪的变化。随着智能手机、平板电脑等智能移动终端的广泛普及,各类即时通讯应用软件被广泛应用于各种智能移动终端中,并且用户在使用即时通讯应用软件进行消息互动的过程中,为了将自己的情绪在互动过程中表达出来,经常会发送一些表情字符来表达自己的情绪。但是,表情字符会由于其对应的UTF-16格式的统一码(Unicode,也称万国码、单一码)的长度不同,而分为2个字符长度的表情字符和1个字符长度的表情字符。而现有对字符表情长度的判断方式通常是采用\u+4(\u后面加4位Unicode码)的方式来判断表情字符长度。这就会存在将2个字符长度的表情字符判断为2个单独的表情,或者仅统计为一个字符长度,从而造成最后对用户输入内容的字符个数统计不准确的问题。上述内容 ...
【技术保护点】
1.一种字符数量的统计方法,其特征在于,所述方法包括以下步骤:/n监测用户终端界面中文本输入框内的字符的变化情况;/n在所述文本输入框内的字符发生变化时,统计所述文本输入框内的字符的数量,得到初始字符数量统计值;/n基于预设的正则表达式,筛选并统计所述文本输入框内所有与预设多表情字符库中的预设表情字符匹配的字符,获得多字符表情数量,所述预设表情字符为由多个字符进行表征的表情字符,所述预设多表情字符库涵盖了所述文本输入框支持输入的所有多字符表情;/n根据所述初始字符数量统计值和多字符表情数量,确定所述文本输入框内的实际字符数量。/n
【技术特征摘要】
1.一种字符数量的统计方法,其特征在于,所述方法包括以下步骤:
监测用户终端界面中文本输入框内的字符的变化情况;
在所述文本输入框内的字符发生变化时,统计所述文本输入框内的字符的数量,得到初始字符数量统计值;
基于预设的正则表达式,筛选并统计所述文本输入框内所有与预设多表情字符库中的预设表情字符匹配的字符,获得多字符表情数量,所述预设表情字符为由多个字符进行表征的表情字符,所述预设多表情字符库涵盖了所述文本输入框支持输入的所有多字符表情;
根据所述初始字符数量统计值和多字符表情数量,确定所述文本输入框内的实际字符数量。
2.如权利要求1所述的方法,其特征在于,所述基于预设的正则表达式,筛选并统计所述文本输入框内所有与预设多表情字符库中的预设表情字符匹配的字符,获得多字符表情数量的步骤之前,所述方法还包括:
对所述文本输入框支持的表情字符库进行遍历,获取并记录当前表情字符对应的统一码,得到初始待分析数据;
从所述初始待分析数据中过滤出所述预设表情字符对应的统一码,得到目标待分析数据;
将所述目标待分析数据作为输入参数,输入预先构建的目标分析模型,得到第一分析结果和第二分析结果,所述第一分析结果为所述预设表情字符对应的统一码中取值相同的统一码取值,所述第二分析结果为所述预设表情字符对应的统一码中取值不同的统一码取值区间;
获取预设的正则表达式模板,所述正则表达式模板包括开头部分、固定部分、第一匹配部分和第二匹配部分;
将所述第一分析结果输入到所述正则表达式模板的第一匹配部分,将所述第二分析结果输入到所述正则表达式模板的第二匹配部分,得到所述正则表达式。
3.如权利要求2所述的方法,其特征在于,所述将所述目标待分析数据作为输入参数,输入预先构建的分析模型,得到第一分析结果和第二分析结果的步骤之前,所述方法还包括:
获取样本数据,并对所述样本数据进行数据清洗,得到目标样本数据;
采用留出法对所述目标样本数据进行划分,得到训练数据和测试数据,所述训练数据和所述测试数据互斥;
采用卷积神经网络算法,构建训练模型;
对所述训练数据进行标记,并将标记后的训练数据作为输入参数,输入到所述训练模型中进行处理,获得训练结果;
判断所述训练结果是否与标记后的所述训练数据对应的标记结果匹配;
若匹配,则将输出所述训练结果的训练模型确定为初始分析模型;若不匹配,则继续使用标记后的所述训练数据对所述训练模型进行训练,直到输出的训练结果与标记结果匹配;
对所述测试数据进行标记,并将标记后的所述测试数据作为输入参数,输入到所述初始分析模型中进行处理,获得验证结果;
判断所述验证结果是否与标记后的所述测试数据对应的标记结果匹配,若匹配,则将所述初始分析模型确定为所述目标分析模型。
4.如权利要求2所述的方法,其特征在于,所述基于预设的正则表达式,筛选并统计所述文本输入框内所有与预设多表情字符库中的预设表情字符匹配的字符,获得多字符表情数量的步骤,包括:
对所述文本输入框内的字符进行遍历,获取当前字符对应的统一码,并确定所述统一码对应的长度;
判断所述统一码对应的长度是否大于预设位数;
若所述统一码对应的长度大于预设位数,则提取所述统一码的前预设位数部分,得到第一识别部分,将剩余的统一码部分作为第二识别部分;
将所述第一识别部分与所述正则表达式中的第一匹配部分进行匹配,若所述第一识别部分与所述第一匹配部分匹配,遍历所述正则表达式中第二匹配部分的统一码取值区间,并将当前统一码取值与所述第二识别部分进行匹配,若所述第二识别部分与当前...
【专利技术属性】
技术研发人员:魏佳,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。