文章解析系统及使用其的消息交换的特征评价系统技术方案

技术编号:33018904 阅读:27 留言:0更新日期:2022-04-15 08:51
目的在于提供文章解析系统,该文章解析系统的成本低并且能够检测表达特征或构造特征的文章。本发明专利技术的文章解析系统(100)构成为具有:文章取得部(110),其取得文章数据;特征提取部(120),其将由文章取得部(110)取得的文章数据转换为时间序列信号,从转换后的时间序列信号提取特征;特征存储部(130),其存储由特征提取部(120)提取出的特征;以及特异文章检测部(140),其基于特征存储部(130)的特征来检测特异文章。特异文章。特异文章。

【技术实现步骤摘要】
【国外来华专利技术】文章解析系统及使用其的消息交换的特征评价系统


[0001]本专利技术涉及文章解析系统及使用其的消息交换的特征评价系统。

技术介绍

[0002]将使计算机理解人在信息传递中使用的自然语言的尝试称为自然语言理解。使用自然语言理解的信息处理系统广泛用于文章的自动翻译或声音应答系统、机器人技术、安全等领域。由于互联网技术的进步,多国间的文化和商务的交流变得容易,必须实时地处理各种语言或被混用的多国语。作为处理多国语的例子,在作为在互联网上的消息交换的一种类型的电子邮件系统中,如下的服务器或终端装置已经实用化:在用于检测垃圾邮件或病毒等非法消息的过滤功能中搭载了与预先准备的基于多种语言的定义文件进行高效匹配的匹配系统。例如,专利文献1公开了如下技术:将记载了字符串等的样本数据信号化为n值化(n为2以上的自然数)的样本数据,计算n值化后的样本数据与n值化后的输入数据之间的相似度,基于计算出的相似度来识别输入数据是否是垃圾邮件。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:日本专利第6267830号公报...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种文章解析系统,其对文章进行解析,所述文章解析系统具有:取得单元,其取得文章数据;转换单元,其将所取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;特征提取单元,其从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及判定单元,其使用所述特征信息来判定新取得的文章数据的同一性。2.根据权利要求1所述的文章解析系统,其中,文章解析系统还具有检测单元,该检测单元基于所述判定单元的判定结果来检测与所述特征信息不同的特异文章。3.根据权利要求1所述的文章解析系统,其中,所述转换单元基于预先准备的转换表将字符转换为数值数据。4.根据权利要求1或3所述的文章解析系统,其中,所述转换单元对所述时间序列信号进行归一化,使其收敛于最小值0与最大值1的范围内。5.根据权利要求1或4所述的文章解析系统,其中,所述转换单元使超过所设定的阈值的所述时间序列信号的值衰减,对衰减后的时间序列信号进行归一化。6.根据权利要求1或4所述的文章解析系统,其中,所述特征提取单元从通过通常的表达特征或构造特征来记载的文章数据的归一化后的时间序列信号中提取特征,对特征进行学习,以使用提取出的特征得到对所述时间序列信号的输入波形进行再现的输出波形。7.根据权利要求6所述的文章解析系统,其中,所述特征提取单元通过自动编码器对所述特征信息进行编码。8.根据权利要求7所述的文章解析系统,其中,所述特征提取单元通过神经网络对所述特征信息进行学习。9.一种消息交换的特征评价系统,其包含权...

【专利技术属性】
技术研发人员:冈响小岛美津夫中桥彬
申请(专利权)人:艾梅崔克斯持株公司株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1