【技术实现步骤摘要】
英文邮件文本数据处理方法、装置、设备及可存储介质
[0001]本专利技术属于数据处理
,尤其涉及一种英文邮件文本数据处理方法、装置、设备及可存储介质。
技术介绍
[0002]在邮件数据处理中,为了自动获取邮件摘要等服务,需要首先对邮件文本进行句子切分。然而每个人书写邮件的方式不同,以英文邮件为例,有的人会用多个空格来表示标点符号,有的人会以回车符替代标点符号以表示不同句子,还有的人会一直打逗号,其中没有句号结尾,非常的不规范。
[0003]现有技术只支持规范文本的句子切割,其本质还是通过正则表达式等方式匹配标点符号来切割句子,但这种方法对不规范的邮件文本数据来讲极其不适用。
[0004]由此可见,现有的文本句子切割方法无法适用于因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的现象,使用受限的问题。
技术实现思路
[0005]本专利技术实施例的目的在于提供一种英文邮件文本数据处理方法,旨在解决现有的文本句子切割方法无法适用于因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的现象,使用受限的问题。
[0006]本专利技术实施例是这样实现的,一种英文邮件文本数据处理方法,包括:
[0007]获取待处理的英文邮件文本数据;
[0008]获取所述英文邮件文本数据中的标点符号的类型以及对应数量;
[0009]根据所述标点符号的类型以及对应数量,确定逗号占比;
[0010]当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型 ...
【技术保护点】
【技术特征摘要】
1.一种英文邮件文本数据处理方法,其特征在于,包括:获取待处理的英文邮件文本数据;获取所述英文邮件文本数据中的标点符号的类型以及对应数量;根据所述标点符号的类型以及对应数量,确定逗号占比;当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型对逗号进行纠正处理;根据所述预设的N-Gram语言模型,对经逗号纠正处理后的英文邮件文本数据进行句子切分处理;当判断经句子切分处理后的英文邮件文本数据中存在逗号数量大于预设数量阈值的长句时,则根据所述预设的N-Gram语言模型对所述英文邮件文本数据进行长句处理,以得到处理后的英文邮件文本数据。2.根据权利要求1所述的英文邮件文本数据处理方法,其特征在于,所述获取待处理的英文邮件文本数据的步骤之后,还包括:根据预设标准格式规则,对所述英文邮件文本数据中的不规则字符进行去除。3.根据权利要求1所述的英文邮件文本数据处理方法,其特征在于,所述当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型对逗号进行纠正处理的步骤,包括:当所述逗号占比不小于预设比例阈值时,则对所述英文邮件文本数据进行分句处理,得到初级句子列表;根据预设的初级首句条件,从所述初级句子列表中提取初级首句;当判断所述初级首句的句尾字符不是标点符号时,则根据预设的N-Gram语言模型确定所述初级首句的句尾对应的常规标点符号类型;将所述去除初级首句的初级句子列表确定为新一代的初级句子列表,并判断所述新一代的初级句子列表是否为空;若否,则返回至所述根据预设的初级首句条件,从所述初级句子列表中提取初级首句的步骤;若是,则结束逗号纠正处理过程。4.根据权利要求3所述的英文邮件文本数据处理方法,其特征在于,所述当判断所述初级首句的句尾字符不是标点符号时,则根据预设的N-Gram语言模型确定所述初级首句的句尾对应的常规标点符号类型的步骤,包括:当判断所述初级首句的句尾字符不是标点符号时,则依次在所述初级首句的句尾添加各种常规标点符号类型,并根据预设的N-Gram语言模型依次计算出所述各种常规标点符号类型对应的得分;将得分最高的常规标点符号类型确定为所述初级首句的句尾对应的常规标点符号类型。5.根据权利要求1所述的英文邮件文本数据处理方法,其特征在于,所述根据所述预设的N-Gram语言模型,对经逗号纠正处理后的英文邮件文本数据进行分句处理的步骤,包括:对经逗号纠正处理后的英文邮件文本数据进行分句处理,得到一级句子列表;根据预设的一级首句条件,从所述一级句子列表中提取一级首句;当判断所述一级首句的句尾字符不是标点符号时,则根据预设的N-Gram模型确定所述一级首句的句尾对应的结束标点符号类型;
将所...
【专利技术属性】
技术研发人员:祁俊辉,
申请(专利权)人:深圳市小满科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。