英文邮件文本数据处理方法、装置、设备及可存储介质制造方法及图纸

技术编号:27488660 阅读:39 留言:0更新日期:2021-03-02 18:05
本发明专利技术适用数据处理技术领域,提供英文邮件文本数据处理方法、装置、设备及可存储介质,获取英文邮件文本数据中的标点符号的类型及对应数量,确定逗号占比;当逗号占比不小于预设比例阈值时,则根据N

【技术实现步骤摘要】
英文邮件文本数据处理方法、装置、设备及可存储介质


[0001]本专利技术属于数据处理
,尤其涉及一种英文邮件文本数据处理方法、装置、设备及可存储介质。

技术介绍

[0002]在邮件数据处理中,为了自动获取邮件摘要等服务,需要首先对邮件文本进行句子切分。然而每个人书写邮件的方式不同,以英文邮件为例,有的人会用多个空格来表示标点符号,有的人会以回车符替代标点符号以表示不同句子,还有的人会一直打逗号,其中没有句号结尾,非常的不规范。
[0003]现有技术只支持规范文本的句子切割,其本质还是通过正则表达式等方式匹配标点符号来切割句子,但这种方法对不规范的邮件文本数据来讲极其不适用。
[0004]由此可见,现有的文本句子切割方法无法适用于因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的现象,使用受限的问题。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种英文邮件文本数据处理方法,旨在解决现有的文本句子切割方法无法适用于因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的现象,使用受限的问题。
[0006]本专利技术实施例是这样实现的,一种英文邮件文本数据处理方法,包括:
[0007]获取待处理的英文邮件文本数据;
[0008]获取所述英文邮件文本数据中的标点符号的类型以及对应数量;
[0009]根据所述标点符号的类型以及对应数量,确定逗号占比;
[0010]当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型对逗号进行纠正处理;
[0011]根据所述预设的N-Gram语言模型,对经逗号纠正处理后的英文邮件文本数据进行分句处理;
[0012]当判断经句子切分处理后的英文邮件文本数据中存在逗号数量大于预设数量阈值的长句时,则根据所述预设的N-Gram语言模型对所述英文邮件文本数据进行长句处理,以得到处理后的英文邮件文本数据。
[0013]本专利技术实施例的另一目的在于一种英文邮件文本数据处理装置,包括:
[0014]文本数据获取单元,用于获取待处理的英文邮件文本数据;
[0015]标点符号类型及数量获取单元,用于获取所述英文邮件文本数据中的标点符号的类型以及对应数量;
[0016]逗号占比确定单元,用于根据所述标点符号的类型以及对应数量,确定逗号占比;
[0017]逗号纠正单元,用于当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型对逗号进行纠正处理;
[0018]分句处理单元,用于根据所述预设的N-Gram语言模型,对经逗号纠正处理后的英文邮件文本数据进行分句处理;以及
[0019]长句处理单元,用于当判断经句子切分处理后的英文邮件文本数据中存在逗号数量大于预设数量阈值的长句时,则根据所述预设的N-Gram语言模型对所述英文邮件文本数据进行长句处理,以得到处理后的英文邮件文本数据。
[0020]本专利技术实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述英文邮件文本数据处理方法的步骤。
[0021]本专利技术实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述英文邮件文本数据处理方法的步骤。
[0022]本专利技术实施例提供的一种英文邮件文本数据处理方法,通过对待处理英文邮件文本数据中的标点符号的类型以及对应数量,确定逗号占比,当逗号占比不小于预设比例阈值时,则对逗号进行纠正处理,进而对经逗号纠正处理后的英文邮件文本数据进行句子切分处理,当判断经句子切分处理后的英文邮件文本数据中存在逗号数量大于预设数量阈值的长句时,则对所述英文邮件文本数据进行长句处理,以得到处理后的英文邮件文本数据。本专利技术与现有技术相比,解决了因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的现象,可以达到正确地对邮件文本进行句子划分的目的,为邮件数据的后续挖掘作技术支持。
附图说明
[0023]图1为本专利技术实施例提供的一种英文邮件文本数据处理方法的实现流程图;
[0024]图2为本专利技术实施例提供的另一种英文邮件文本数据处理方法的实现流程图;
[0025]图3为本专利技术实施例提供的又一种英文邮件文本数据处理方法的实现流程图;
[0026]图4为本专利技术实施例提供的再一种英文邮件文本数据处理方法的实现流程图;
[0027]图5为本专利技术实施例提供的还一种英文邮件文本数据处理方法的实现流程图;
[0028]图6为本专利技术实施例提供的一种英文邮件文本数据处理装置的结构框图;
[0029]图7为本专利技术实施例提供的另一种英文邮件文本数据处理装置的结构框图。
具体实施方式
[0030]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0031]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0032]应当理解,尽管在本专利技术实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
[0033]本专利技术实施例为了解决现有的文本句子切割方法无法适用于因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的现象,使用受限的问题,提供的一种英文邮件文本数据处理方法,通过对待处理英文邮件文本数据中的标点符号的类型以及对应数量,确定逗号占比,当逗号占比不小于预设比例阈值时,则对逗号进行纠正处理,进而对经逗号纠正处理后的英文邮件文本数据进行句子切分处理,当判断经句子切分处理后的英文邮件文本数据中存在逗号数量大于预设数量阈值的长句时,则对所述英文邮件文本数据进行长句处理,以得到处理后的英文邮件文本数据,可以达到正确地对因不同人书写邮件的习惯不同而导致的正则表达式分句不规范的邮件文本进行句子划分的目的,为邮件数据的后续挖掘作技术支持。
[0034]为了进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术的具体实施方式、结构、特征及其功效,详细说明如下。
[0035]如图1所示,在一个实施例中,提出了一种英文邮件文本数据处理方法,为了便于说明,仅示出与本专利技术实施例相关的部分,详述如下:
[0036]步骤S101,获取待处理的英文邮件文本数据。
[0037]在本专利技术实施例中,英文邮件文本数据即英文邮件文本内容,其格式可以为ASCII、MIME、*.txt等,具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种英文邮件文本数据处理方法,其特征在于,包括:获取待处理的英文邮件文本数据;获取所述英文邮件文本数据中的标点符号的类型以及对应数量;根据所述标点符号的类型以及对应数量,确定逗号占比;当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型对逗号进行纠正处理;根据所述预设的N-Gram语言模型,对经逗号纠正处理后的英文邮件文本数据进行句子切分处理;当判断经句子切分处理后的英文邮件文本数据中存在逗号数量大于预设数量阈值的长句时,则根据所述预设的N-Gram语言模型对所述英文邮件文本数据进行长句处理,以得到处理后的英文邮件文本数据。2.根据权利要求1所述的英文邮件文本数据处理方法,其特征在于,所述获取待处理的英文邮件文本数据的步骤之后,还包括:根据预设标准格式规则,对所述英文邮件文本数据中的不规则字符进行去除。3.根据权利要求1所述的英文邮件文本数据处理方法,其特征在于,所述当所述逗号占比不小于预设比例阈值时,则根据预设的N-Gram语言模型对逗号进行纠正处理的步骤,包括:当所述逗号占比不小于预设比例阈值时,则对所述英文邮件文本数据进行分句处理,得到初级句子列表;根据预设的初级首句条件,从所述初级句子列表中提取初级首句;当判断所述初级首句的句尾字符不是标点符号时,则根据预设的N-Gram语言模型确定所述初级首句的句尾对应的常规标点符号类型;将所述去除初级首句的初级句子列表确定为新一代的初级句子列表,并判断所述新一代的初级句子列表是否为空;若否,则返回至所述根据预设的初级首句条件,从所述初级句子列表中提取初级首句的步骤;若是,则结束逗号纠正处理过程。4.根据权利要求3所述的英文邮件文本数据处理方法,其特征在于,所述当判断所述初级首句的句尾字符不是标点符号时,则根据预设的N-Gram语言模型确定所述初级首句的句尾对应的常规标点符号类型的步骤,包括:当判断所述初级首句的句尾字符不是标点符号时,则依次在所述初级首句的句尾添加各种常规标点符号类型,并根据预设的N-Gram语言模型依次计算出所述各种常规标点符号类型对应的得分;将得分最高的常规标点符号类型确定为所述初级首句的句尾对应的常规标点符号类型。5.根据权利要求1所述的英文邮件文本数据处理方法,其特征在于,所述根据所述预设的N-Gram语言模型,对经逗号纠正处理后的英文邮件文本数据进行分句处理的步骤,包括:对经逗号纠正处理后的英文邮件文本数据进行分句处理,得到一级句子列表;根据预设的一级首句条件,从所述一级句子列表中提取一级首句;当判断所述一级首句的句尾字符不是标点符号时,则根据预设的N-Gram模型确定所述一级首句的句尾对应的结束标点符号类型;
将所...

【专利技术属性】
技术研发人员:祁俊辉
申请(专利权)人:深圳市小满科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1