基于邮件信息判定邮件语种的方法技术

技术编号:9489952 阅读:118 留言:0更新日期:2013-12-25 23:43
本发明专利技术公开了基于邮件信息判定邮件语种的方法,包括:分析邮件中所包含的所有类型特征,提取归属每类特征的关键字;将所述提取的每类特征的关键字与映射表中相应的特征项分别进行匹配;确定每类特征的关键字所对应的所有语种,并计算每个语种所对应的关键字在该特征所有关键字中比重,将该比重作为每个语种的分项权重值;对所有类型的特征中相同语种的分项权重值进行求和,得出每个语种的最终权重值;对每个语种的最终权重值进行判定,确定最终唯一语种。本发明专利技术通过对邮件的翻译语种进行自动识别,使邮件归类和邮件翻译任务分发的过程实现自动化,提高了邮件流转效率。

【技术实现步骤摘要】
基于邮件信息判定邮件语种的方法
本专利技术属于计算机
,尤其涉及基于邮件信息判定邮件语种的方法。
技术介绍
外贸企业有80%的业务沟通都是通过邮件来完成的。外语邮件沟通,尤其是英文以外的外语,对于中小型外贸企业的业主和初中级外贸员来说都是巨大的障碍。目前的邮件的翻译系统是人为对翻译内容进行判定翻译的语种,这种判定方法,使对翻译订单的吞吐能力弱,从而降低了整个翻译系统的翻译订单的分配效率,特别是当系统内多语翻译邮件订单需求达到一定规模时,纯人工判定邮件语种、翻译任务分发导致的效率低下问题尤其严重。
技术实现思路
有鉴于此,本专利技术的目的是提出基于邮件信息判定邮件语种的方法,以解决现有技术中翻译订单的吞吐能力弱的问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。本专利技术公开了基于邮件信息判定邮件语种的方法,包括:分析邮件中所包含的所有类型特征,提取归属每类特征的关键字;将所述提取的每类特征的关键字与映射表中相应的特征项分别进行匹配,确定每类特征的关键字所对应的所有语种,及每个语种在该特征中的分项权重值;对所有类型的特征中相同语种的分项权重值进行求和,得出每个语种的最终权重值;对每个语种的最终权重值进行判定,确定最终唯一语种。优选地,所述映射表包括:语种映射表和邮件历史行为映射表;所述语种映射表中至少包括以下之一类型的特征项:字符集、邮件地址、邮件地址域和时区;其中,所述字符集为多种语种显示,所述邮件地址、邮件地址域和时区对应着地理信息及该地理信息所对应的所有语种;所述邮件历史行为映射表中至少包括以下之一类型的特征项:邮件接收地址、邮件发送地址、邮件接收地址域和邮件发送地址域;其中,所述邮件接收地址、邮件发送地址、邮件接收地址域和邮件发送地址域对应着地理信息及该地理信息所对应的所有语种。优选地,邮件特征的类型包括:主题字符集、正文字符集、日期、经过的中转服务器地址、接收地址、发送地址、接收地址域和发送地址域;其中,所述主题字符集的数据、所述正文字符集的数据、日期信息、经过的中转服务器地址、接收地址、发送地址、接收地址域和发送地址域作为所述邮件的关键字。优选地,所述将所述提取的每类特征的关键字与映射表中相应的特征项分别进行匹配,确定每类特征的关键字所对应的所有语种及每个语种在该特征中的分项权重值的过程包括:提取邮件的主题字符集的数据,与语种映射表中所述字符集的特征项进行对照,得到主题字符集的数据所对应的所有语种,计算每个语种对应的数据在所述主题字符集的数据中的比重,将对应相同语种的数据的比重累加,其和作为在该特征中每个语种的分项权重值;提取邮件的正文字符集的数据,与语种映射表中所述字符集的特征项进行对照,得到正文字符集的数据所对应的所有语种,计算每个语种对应的数据在所述正文字符集的数据中的比重,将对应相同语种的数据的比重累加,其和作为该特征中每个语种的分项权重值;提取邮件的发送地址域,与语种映射表中的所述邮件地址域的特征项进行对照,得到发送地址域的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将该比重作为在该特征中每个语种的分项权重值;提取邮件的经过的中转服务器地址,与语种映射表中的所述邮件地址的特征项进行对照,得到经过的中转服务器地址的地理信息所对应的所有语种,计算每个语种在所用语种中的比重,将该比重作为在该特征中每个语种的分项权重值;提取邮件的日期数据,将其转换为时区数据,与语种映射表中的所述时区的特征项进行对照,得到时区的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将该比重作为在该特征中每个语种的分项权重值;对所述提取邮件的主题字符集的数据进行分词处理,将每个分词与所述语种映射表中的所述字符集的特征项进行对照,得到每个分词所对应的语种,计算每个不重复的分词在所有分词中的比重,将对应相同语种的分词的比重累加,其和作为在该特征中每个语种的分项权重值;对所述提取邮件的正文字符集的数据进行分词处理,将每个分词与所述语种映射表中的所述字符集的特征项进行对照,得到每个分词所对应的语种,计算每个不重复的分词在所有分词中的比重,将对应相同语种的分词的比重累加,其和作为在该特征中每个语种的分项权重值。优选地,其特征在于,还包括:提取邮件的接收地址,与邮件历史行为表中所述接收地址的特征项进行对照,得到接收地址的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将该比重作为在该特征中每个语种的分项权重值;提取邮件的接收地址域,与邮件历史行为表中所述接收地址域的特征项进行对照,得到接收地址域的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将该比重作为在该特征中每个语种的分项权重值;提取邮件的发送地址,与邮件历史行为表中所述发送地址的特征项进行对照,得到发送地址的地理信息所对应的所有语种,计算每个语种在该所有语种中的比重,将该比重作为在该特征中每个语种的分项权重值;提取邮件的发送地址域,与邮件历史行为表中所述发送地址域的特征项进行对照,得到发送地址域的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将该比重作为在该特征中每个语种的分项权重值。优选地,所述对每个语种的最终权重值进行判定的过程包括:将每个所述语种的最终权重值分别减去设定的有效语种阈值;得出结果大于0,则将该语种定为有效语种;否则,将该语种定为无效语种。优选地,其特征在于,还包括:将所有的有效语种按照其最终权重值从大到小排列,对前两个进行求差;得出结果的绝对值大于设定的权重差阈值,则判断最大的最终权重值的语种为最终唯一语种;否则,所述有效语种为疑是语种,进行人工判定,确定最终唯一语种。优选地,当所述语种全为无效语种时,进行人工判定,确定最终唯一语种。优选地,还包括:当对所述语种的最终权重值进行判定的次数达到一定次数后,计算判定中人工判定在所有判定中的占有率,将所述人工判定的占有率与设定的微调阈值进行比较;所述人工判定的占有率小于设定的微调阈值,则保持语种映射表不变;否则,将所有人工判定的语种进行统计,根据统计结果对语种映射表中的相应的语种的特征项进行调节。优选地,当只存在一个所述有效语种时,将该语种确定为最终唯一语种。本专利技术中的基于邮件信息判定邮件语种的方法,具有以下优点:1、将邮件语种识别、邮件归类的过程实现自动化;2、使翻译订单的吞吐能力得到了大大加强,从而提高了整个翻译过程的效率。为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。说明书附图此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了实施例1的流程图;图2示出了实施例2的流程图。具体实施方式下面将参考附本文档来自技高网...
基于邮件信息判定邮件语种的方法

【技术保护点】
基于邮件信息判定邮件语种的方法,其特征在于,包括:分析邮件中所包含的所有类型特征,提取归属每类特征的关键字;将所述提取的每类特征的关键字与映射表中相应的特征项分别进行匹配,确定每类特征的关键字所对应的所有语种,及每个语种在该特征中的分项权重值;对所有类型的特征中相同语种的分项权重值进行求和,得出每个语种的最终权重值;对每个语种的最终权重值进行判定,确定最终唯一语种。

【技术特征摘要】
1.基于邮件信息判定邮件语种的方法,其特征在于,包括:分析邮件中所包含的所有类型特征,提取归属每类特征的关键字;将所述提取的每类特征的关键字与映射表中相应的特征项分别进行匹配,确定每类特征的关键字所对应的所有语种,及每个语种在该特征中的分项权重值;对所有类型的特征中相同语种的分项权重值进行求和,得出每个语种的最终权重值;对每个语种的最终权重值进行判定,确定最终唯一语种;所述映射表包括:语种映射表和邮件历史行为映射表;所述语种映射表中至少包括以下之一类型的特征项:字符集、邮件地址、邮件地址域和时区;其中,所述字符集为多种语种显示,所述邮件地址、邮件地址域和时区对应着地理信息及该地理信息所对应的所有语种;所述邮件历史行为映射表中至少包括以下之一类型的特征项:邮件接收地址、邮件发送地址、邮件接收地址域和邮件发送地址域;其中,所述邮件接收地址、邮件发送地址、邮件接收地址域和邮件发送地址域对应着地理信息及该地理信息所对应的所有语种。2.根据权利要求1所述的方法,其特征在于,邮件的类型特征包括:主题字符集、正文字符集、日期、经过的中转服务器地址、接收地址、发送地址、接收地址域和发送地址域;其中,所述主题字符集的数据、所述正文字符集的数据、日期信息、经过的中转服务器地址、接收地址、发送地址、接收地址域和发送地址域作为所述邮件的关键字。3.根据权利要求2所述的方法,其特征在于,所述将所述提取的每类特征的关键字与映射表中相应的特征项分别进行匹配,确定每类特征的关键字所对应的所有语种及每个语种在该特征中的分项权重值的过程包括:提取邮件的主题字符集的数据,与语种映射表中所述字符集的特征项进行对照,得到主题字符集的数据所对应的所有语种,计算每个语种对应的数据在所述主题字符集的数据中的比重,将对应相同语种的数据的比重累加,其和作为在该特征中对应语种的分项权重值;提取邮件的正文字符集的数据,与语种映射表中所述字符集的特征项进行对照,得到正文字符集的数据所对应的所有语种,计算每个语种对应的数据在所述正文字符集的数据中的比重,将对应相同语种的数据的比重累加,其和作为在该特征中对应语种的分项权重值;提取邮件的发送地址域,与语种映射表中的所述邮件地址域的特征项进行对照,得到发送地址域的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将各个语种的比重作为在该特征中对应各个语种的分项权重值;提取邮件的经过的中转服务器地址,与语种映射表中的所述邮件地址的特征项进行对照,得到经过的中转服务器地址的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将各个语种的比重作为在该特征中对应各个语种的分项权重值;提取邮件的日期数据,将其转换为时区数据,与语种映射表中的所述时区的特征项进行对照,得到时区的地理信息所对应的所有语种,计算每个语种在所有语种中的比重,将各个语种的比重作为...

【专利技术属性】
技术研发人员:江潮
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1