聚焦的语义分类制造技术

技术编号:16048969 阅读:35 留言:0更新日期:2017-08-20 08:41
一种计算设备包括至少一个处理器和语义分析模块。语义分析模块用于针对多个文档集合中的每个文档集合确定文档集合中所包括的文档的语义类别的分布。语义分析模块还用于从所述多个文档集合中选择第一文档集合以用于分析目标文档,并将目标文档的语义类别的先验分布设置为与第一文档集合中所包括的文档的语义类别的分布相等同。语义分析模块还用于使用训练数据集合和目标文档的语义类别的先验分布来执行目标文档的贝叶斯分类,并且基于所述贝叶斯分类确定目标文档的语义类别。

【技术实现步骤摘要】
【国外来华专利技术】聚焦的语义分类
技术介绍
一些计算系统可以使用包括写入文本的文档。另外,一些计算系统可以尝试解释此类文档的含义。例如,垃圾邮件过滤器可以接收传入的电子邮件,并且可以尝试确定电子邮件的文本内容的含义。然后,垃圾邮件过滤器可以基于文本内容的含义识别非期望的电子邮件。附图说明关于附图描述一些实施方式。图1是根据一些实施方式的示例性计算设备的示意图。图2是根据一些实施方式的示例性语义分析操作的图示。图3是根据一些实施方式的示例性数据流的图示。图4是根据一些实施方式的语义分类的过程的流程图。图5是根据一些实施方式的语义分类的过程的流程图。具体实施方式在一些计算系统中,文档的语义可以基于文档中所包括的词来估计。然而,一些词可以根据文档的语境指示不同的语义,并且可能因此引起语义的错误估计。例如,在涉及医学主题的文档中,词“sick”(病)可能指示负面语义。然而,在涉及流行音乐主题的文档中,词“sick”(病)可以被用作指示正面语义的俚语。在另一个示例中,特定词可能通常用于指示正面语义,但是在指定语境中可以讽刺地使用,并且因此在那样的语境中指示负面语义。根据一些实施方式,提供用于目标文档的语义分类的技术或机制。如以下参照图1-5进一步描述的,一些实施方式可以包括与特定语境相对应的文档的组。可以使用写入规则的集合针对每个组生成语义概要。当接收到目标文档时,可以基于与目标文档的相关度来选择特定的组。可以使用训练数据集合和选择的组的语义概要来执行目标文档的机器学习分类。在一些实施方式中,可以提供目标文档的聚焦语境的语义分类。图1是根据一些实施方式的示例性计算设备100的示意图。计算设备100可以是例如计算机、便携式设备、服务器、网络设备、通信设备等。另外,计算设备100可以是相关或互连设备的任何分组,诸如刀片式服务器、计算集群等。此外,在一些实施方式中,计算设备100可以是用于估计文本信息的语义的专用设备。如所示的,计算设备100可以包括处理器110、存储器120、机器可读贮存器130、和网络接口130。处理器110可以包括微处理器、微控制器、处理器模块或子系统、可编程集成电路、可编程门阵列、多个处理器、包括多个处理核的微处理器、或另一控制或计算设备。存储器120可以是任何类型的计算机存储器(例如,动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)等)。网络接口190可以提供入站和出站的网络通信。网络接口190可以使用任何网络标准或协议(例如,以太网、光纤信道、以太网光纤通道(FCoE)、因特网小型计算机系统接口(iSCSI)、无线网络标准或协议等)。另外,网络接口190可以提供与诸如互联网网站、RSS(丰富站点摘要)供给、社交媒体应用、新闻源、消息平台等之类的信息源的通信。在一些实施方式中,机器可读贮存器130可以包括诸如硬盘驱动器、快闪贮存器、光盘等之类的非暂时性存储介质。如所示的,机器可读贮存器130可以包括语义分析模块140、分类规则150、文档集合170、以及训练数据180。在一些实施方式中,语义分析模块140可以经由网络接口190接收一个或多个文档供给。例如,语义分析模块140可以从诸如RSS供给、社交媒体发布、新闻专线、文本消息、订阅供给等之类的源接收连续的供给。文档供给可以是定期的或不定期的,并且可以在无限制的或延长的时间段(例如,每分钟、每天、在随机间隔、在一年或多年中的各种时间期间等)提供。在一些实施方式中,语义分析模块140可以将接收到的文档路由至一个或多个文档集合170。在一些实施方式中,每个文档集合170可以是与特定语境相关联的文档的组。例如,指定的文档集合170可以专用于诸如政治、商业新闻、足球、棒球、音乐、游戏、爱好、健康、金融、电影、电视剧等之类的主题。本文所使用的术语“文档”可以指包括语言信息的任何数据结构。例如,文档可以包括文本信息(例如,词处理文档、注释、电子邮件、社交媒体发布、文本消息、文章、书、数据库条目、博客发布、评论、标签、图像等)。在另一示例中,文档可以包括语音信息(例如,音频记录、视频记录、语音消息等)。在一些实施方式中,分类规则150可以是可由人类分析师写入的存储的人工制作的规则的集合。另外,分类规则150可以由人类分析师根据需要重写和更新以反映语境或主题的当前改变。分类规则150可以识别文档中的字符或词的预定义的顺序,并且可以将那些顺序与不同类别的语义相关联。另外,分类规则150可以根据正被分析的文档集合170的语境或主题来指定不同类别的语义。在一些实施方式中,语义分析模块140可以使用分类规则150来针对文档集合170中的每个文档确定语义分类。语义分析模块140可以使用语义分类来针对每个文档集合170生成语义分布。例如,文档集合170的语义分布可以指示被分类为不同语义类别的文档的比例或数量。语义类别可以与有利度(favorability)的类型或程度(例如,非常正面、轻微正面、中性、轻微负面、非常负面等)相对应。在一些实施方式中,语义分析模块140可以接收目标文档以用于语义分析。语义分析模块140可以选择用于对目标文档进行分析的特定文档集合170。特定文档集合170的选择可以基于每个文档集合170与目标文档的相关度的测量。在一些实施方式中,每个文档集合170的相关度的测量可以通过针对文档集合170所包括的目标文档关键词执行查询来获得。例如,查询可以返回每个文档集合170中包括与目标文档共同的关键词的文档的数目。在此示例中,语义分析模块140然后可以选择具有最高数目的具有共同词的文档的文档集合170来分析目标文档。在一些实施方式中,语义分析模块140可以将目标文档的先验语义概要设置为与为了对目标文档进行分析而选择的文档集合170相关联的语义概要相等同。语义分析模块140可以执行目标文档的机器学习分类。机器学习分类可以是使用训练数据180训练的统计性学习算法。另外,目标文档的机器学习分类可以是使用目标文档的先验语义概要作为输入以指定每个类别的先验概率(即,假设的成员处于那个类别中的可能性)的统计性学习算法。在一些实施方式中,机器学习分类可以是目标文档的贝叶斯分类(例如,朴素贝叶斯分类器)。例如,语义分析模块140可以使用贝叶斯分类器来执行目标文档的监督式学习分类,贝叶斯分类使用训练数据180来训练并且使用目标文档的先验语义概要来确定每个类别的先验概率。在一些实施方式中,机器学习分类可以提供目标文档是任何给定类别的成员的后验概率。另外,语义分析模块140可以基于机器学习分类的结果来确定目标文档的语义类别。训练数据180可以是用于机器学习分类中的示例的集合。在一些实施方式中,训练数据180可以是已经被人类分析师注解的文本信息的语料库。训练数据180可以包括语言注解(例如,标签、元数据、注释等)。在一些实施方式中,训练数据180可以被通用化(即,不专用于特定主题或语境)。另外,训练数据180可以是大体静态的,并且可以不被连续和/或自动更新。相比之下,文档集合170可以通过从供给接收的文档被相对频繁地更新。另外,分类规则150可以被人类用户相对频繁地重写和更新以反映语境或主题的任何当前改变。以下结合图2-5进一步讨论语义分析模块140、分类规则150、文档本文档来自技高网...
聚焦的语义分类

【技术保护点】
一种计算设备,包括:至少一个处理器;语义分类模块,所述语义分类模块在所述至少一个处理器上能运行用以:针对多个文档集合中的每个文档集合,确定所述文档集合中所包括的文档的语义类别的分布;从所述多个文档集合选择第一文档集合以用于分析目标文档;将所述目标文档的语义类别的先验分布设置为与所述第一文档集合中所包括的文档的所述语义类别的分布相等同;使用训练数据集合和所述目标文档的所述语义类别的先验分布来执行所述目标文档的贝叶斯分类;并且基于所述贝叶斯分类确定所述目标文档的语义类别。

【技术特征摘要】
【国外来华专利技术】1.一种计算设备,包括:至少一个处理器;语义分类模块,所述语义分类模块在所述至少一个处理器上能运行用以:针对多个文档集合中的每个文档集合,确定所述文档集合中所包括的文档的语义类别的分布;从所述多个文档集合选择第一文档集合以用于分析目标文档;将所述目标文档的语义类别的先验分布设置为与所述第一文档集合中所包括的文档的所述语义类别的分布相等同;使用训练数据集合和所述目标文档的所述语义类别的先验分布来执行所述目标文档的贝叶斯分类;并且基于所述贝叶斯分类确定所述目标文档的语义类别。2.根据权利要求1所述的计算设备,所述语义分析模块进一步用以:接收新文档的供给;更新所述多个文档集合中的至少一个文档集合以包括所述新文档;并且针对所述多个文档集合中的所述至少一个文档集合,响应于接收到所述新文档而更新语义变量的所述分布。3.根据权利要求2所述的计算设备,其中所述新文档的供给包括来自社交媒体平台的连续供给。4.根据权利要求1所述的计算设备,其中所述语义分析模块用于使用写入规则的集合来确定所述文档集合中所包括的所述文档的所述语义类别的分布。5.根据权利要求1所述的计算设备,其中所述多个文档集合中的每个文档集合与特定主题相关联。6.根据权利要求1所述的计算设备,其中所述语义分析模块用于基于针对所述目标文档和所述多个文档集合之间的共同词的查询来选择所述第一文档集合。7.根据权利要求1所述的计算设备,其中所述训练数据集合是大体静态的并且包括至少一个注解。8.一种方法,包括:接收目标文档以用于语义分类;基于所述目标文档选择多个文档集合中的特定文档集合;获得与所述特定文档集合相关联的语义类别的分布;将所述目标文档的语义类别的先验分布设置为与所述特定文档集合中所包括的文档的所述语义类别的分布相等同;使用训练数据集合和所述目标文档的语义变量的所述先...

【专利技术属性】
技术研发人员:约翰·西蒙·福瑟吉尔
申请(专利权)人:隆沙有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1