【技术实现步骤摘要】
一种电子邮件语言的识别方法及系统
本专利技术涉及邮件信息识别领域,主要涉及一种电子邮件语言的识别方法及系统,属于语言识别领域。
技术介绍
电子邮件是—种用电子手段提供信息交换的通信方式,是互联网应用最广的服务,是全球许多个人、企事业单位网络办公流程的基础。电子邮件可以是文字、图像、声音等多种形式。同时,用户可以得到大量免费的新闻、专题邮件,并实现轻松的信息搜索。电子邮件的存在极大地方便了人与人之间的沟通与交流,促进了社会的发展。在这个数据爆发的时代,电子邮件无时无刻不在传输、存储,企业内部电子邮件数据、电子邮件服务商邮件数据非常庞大而难以维护和分类。尤其涉及到全球不同国家的电子邮件、不同文化的电子邮件、多种语言混杂的电子邮件,想要通过语言文化及语言侧重对庞大的电子邮件数据进行区分分析就尤其困难,需要花费大量的时间通过人工识别方式对电子邮件处理分类。在现有技术中,通常通过电子邮件过滤器将收到的电子邮件进行归类并将其收入相应的文件夹或电子邮箱的阅读软件。但是电子邮件过滤器只能根据电子邮件的来源、电子邮件的主题和电子邮件的长度来进行分类,无法识别出电子邮件所使用的语言, ...
【技术保护点】
一种电子邮件语言的识别方法,其特征在于,该方法包括以下步骤:步骤1:选取电子邮件,获得满足预定要求的电子邮件;步骤2:读取满足预定要求的电子邮件的相关内容;步骤3:对满足预定要求的电子邮件的相关内容做语言识别处理;步骤4:统计所述满足预定要求的电子邮件的语言种类及每种语言的比重。
【技术特征摘要】
1.一种电子邮件语言的识别方法,其特征在于,该方法包括以下步骤:步骤1:选取电子邮件,获得满足预定要求的电子邮件;步骤2:读取满足预定要求的电子邮件的相关内容;步骤3:对满足预定要求的电子邮件的相关内容做语言识别处理;步骤4:统计所述满足预定要求的电子邮件的语言种类及每种语言的比重。2.根据权利要求1所述方法,其特征在于,所述预定要求为电子邮件的格式遵循RFC协议,其中RFC协议是指1982年出版的RFC822的电子邮件格式的规定。3.根据权利要求1所述方法,其特征在于,读取的满足预定要求的电子邮件的相关内容包括电子邮件发件服务器地址、电子邮件收件服务器地址、电子邮件的优先级、电子邮件发件人、电子邮件收件人列表、电子邮件抄送人列表、电子邮件密送人列表、电子邮件标题、电子邮件正文和电子邮件附件;优选地,在读取的满足预定要求的电子邮件的相关内容中以电子邮件标题、电子邮件正文和电子邮件附件为电子邮件语言识别的主要要素。4.根据权利要求3所述方法,其特征在于,步骤3中,对满足预定要求的电子邮件的相关内容做语言识别处理包括以下子步骤:子步骤3.1:将所述电子邮件标题、电子邮件正文和电子邮件附件分别转化为二进制编码;优选地,所述电子邮件附件包括MicrosoftOffice文件、PDF文件和TXT文件,子步骤3.2:对所述二进制编码做初步语言识别处理,获得初次识别结果;优选地,在子步骤3.2中通过Unicode编码对所述二进制编码做初步语言识别处理,获得初次识别结果,子步骤3.3:对所述初次识别结果做二次语言识别处理,获得二次识别结果;在子步骤3.3中通过语言习惯对所述初次识别结果做二次语言识别处理,获得二次识别结果。5.根据权利要求1至4之一所述方法,其特征在于,统计所述二次识别结果获得所述满足预定要求的电子邮件的语言种类及每种语言的比重。6.一种电子邮件语言的识别系统,其特征在于,该系统包括选取模块(001)、读取模块(002)、识别模块(003)、统计模块(004)和展示模块(005),其中,所述选取模块(001)用于选取满足预定要求的电子邮件,所述读取模块(002)...
【专利技术属性】
技术研发人员:孙宁,
申请(专利权)人:北京宸瑞国新科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。