应用了图像处理的文档结构分析装置制造方法及图纸

技术编号:22354037 阅读:138 留言:0更新日期:2019-10-23 01:28
提供一种能够精度良好地容易且高速地进行垃圾邮件的判定的文档结构分析装置。邮件处理装置(100)构成为包括:数据取得部(112),其从网络(NW)取得样本数据和电子邮件;信号化部(114),其对由数据取得部(112)取得的样本数据等进行n值化;样本存储部(120),其存储被信号化部(114)进行n值化后的数据;信号处理部(130),其比较存储于样本存储部(120)中的n值化后的样本数据与所输入的电子邮件,根据它们的类似度来判定电子邮件是否为垃圾邮件;以及垃圾邮件储存部(140),其根据判定结果来储存垃圾邮件。

Document structure analysis device with image processing

【技术实现步骤摘要】
【国外来华专利技术】应用了图像处理的文档结构分析装置
本专利技术涉及应用电子邮件、文档数据等的数据的图像处理的文档结构分析装置,尤其涉及判定电子邮件是否为垃圾邮件(未请求电子邮件)等的方法。
技术介绍
作为排除垃圾邮件的方法,在将电子邮件发布给接收者的邮件服务器侧,预先登记用于判定是否为垃圾邮件的判定信息、例如,关键词、发送者的地址和URL等,在所接收的电子邮件中包含判定信息的情况下,将所接收的电子邮件分类为垃圾邮件,从而删除该邮件,或停止向用户的分发。此外,在用户侧的终端,通过用户自身设定的滤波规则,将包含特定的地址和关键词的电子邮件作为垃圾邮件滤波。例如,在专利文献1中公开了如下的电子邮件处理装置,其将除电子邮件的正文、发送者和发送地址、接收者和接收地址以外的外观信息(例如,电子邮件的行数、附件、电子邮件的形式和电子邮件的语言等)作为表示电子邮件的外观特征的轮廓信息提取,并根据所提取的轮廓信息对外部的管理中心请求发送用于检测垃圾邮件的垃圾邮件检测信息,在电子邮件的内容符合所对应的垃圾邮件检测信息时将该电子邮件判定为是垃圾邮件,在判定为电子邮件不是垃圾邮件时,向外部的管理中心发送轮廓信息,由此请求被更本文档来自技高网...

【技术保护点】
1.一种文档结构分析装置,其具有:取得单元,其取得包含表示字符串的代码的样本数据;信号化单元,其对所取得的样本数据的每个字符的代码分别进行n值化,转换为P行×Q列的数据格式,其中,n是2以上的自然数;存储单元,其存储由所述信号化单元进行n值化后的样本数据;计算单元,其通过运算处理来分别比较输入数据的P行×Q列的各个数据与存储于所述存储单元中的n值化后的样本数据的P行×Q列的各个数据,基于样本数据与输入数据之间的重复程度而计算类似度,其中,该输入数据是对表示字符串的代码进行n值化得到的,且由所述信号化单元转换为P行×Q列的数据格式;以及分类单元,其根据计算出的类似度,对输入数据进行分类,所述取得...

【技术特征摘要】
【国外来华专利技术】2015.12.01 JP 2015-2344081.一种文档结构分析装置,其具有:取得单元,其取得包含表示字符串的代码的样本数据;信号化单元,其对所取得的样本数据的每个字符的代码分别进行n值化,转换为P行×Q列的数据格式,其中,n是2以上的自然数;存储单元,其存储由所述信号化单元进行n值化后的样本数据;计算单元,其通过运算处理来分别比较输入数据的P行×Q列的各个数据与存储于所述存储单元中的n值化后的样本数据的P行×Q列的各个数据,基于样本数据与输入数据之间的重复程度而计算类似度,其中,该输入数据是对表示字符串的代码进行n值化得到的,且由所述信号化单元转换为P行×Q列的数据格式;以及分类单元,其根据计算出的类似度,对输入数据进行分类,所述取得单元判别是所述样本数据还是所述输入数据。2.根据权利要求1所述的文档结构分析装置,其中,所述信号化单元还在对表示字符串的代码进行2值化之前,将包含特征性表现的字符串转换为2值化以外的数据,对所述包含特征性表现的字符串以外的字符串进行2值化。3.根据权利要求1所述的文档结构分析装置,其中,所述信号化单元对所取得的样本数据进行...

【专利技术属性】
技术研发人员:小岛美津夫横山淳铃木龙生沼田翔平
申请(专利权)人:艾梅崔克斯株式会社
类型:发明
国别省市:日本,JP

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1