聚焦的语义分类制造技术

技术编号:16048969 阅读:62 留言:0更新日期:2017-08-20 08:41
一种计算设备包括至少一个处理器和语义分析模块。语义分析模块用于针对多个文档集合中的每个文档集合确定文档集合中所包括的文档的语义类别的分布。语义分析模块还用于从所述多个文档集合中选择第一文档集合以用于分析目标文档,并将目标文档的语义类别的先验分布设置为与第一文档集合中所包括的文档的语义类别的分布相等同。语义分析模块还用于使用训练数据集合和目标文档的语义类别的先验分布来执行目标文档的贝叶斯分类,并且基于所述贝叶斯分类确定目标文档的语义类别。

【技术实现步骤摘要】
【国外来华专利技术】聚焦的语义分类
技术介绍
一些计算系统可以使用包括写入文本的文档。另外,一些计算系统可以尝试解释此类文档的含义。例如,垃圾邮件过滤器可以接收传入的电子邮件,并且可以尝试确定电子邮件的文本内容的含义。然后,垃圾邮件过滤器可以基于文本内容的含义识别非期望的电子邮件。附图说明关于附图描述一些实施方式。图1是根据一些实施方式的示例性计算设备的示意图。图2是根据一些实施方式的示例性语义分析操作的图示。图3是根据一些实施方式的示例性数据流的图示。图4是根据一些实施方式的语义分类的过程的流程图。图5是根据一些实施方式的语义分类的过程的流程图。具体实施方式在一些计算系统中,文档的语义可以基于文档中所包括的词来估计。然而,一些词可以根据文档的语境指示不同的语义,并且可能因此引起语义的错误估计。例如,在涉及医学主题的文档中,词“sick”(病)可能指示负面语义。然而,在涉及流行音乐主题的文档中,词“sick”(病)可以被用作指示正面语义的俚语。在另一个示例中,特定词可能通常用于指示正面语义,但是在指定语境中可以讽刺地使用,并且因此在那样的语境中指示负面语义。根据一些实施方式,提供用于目标文档的语义分类的技术或本文档来自技高网...
聚焦的语义分类

【技术保护点】
一种计算设备,包括:至少一个处理器;语义分类模块,所述语义分类模块在所述至少一个处理器上能运行用以:针对多个文档集合中的每个文档集合,确定所述文档集合中所包括的文档的语义类别的分布;从所述多个文档集合选择第一文档集合以用于分析目标文档;将所述目标文档的语义类别的先验分布设置为与所述第一文档集合中所包括的文档的所述语义类别的分布相等同;使用训练数据集合和所述目标文档的所述语义类别的先验分布来执行所述目标文档的贝叶斯分类;并且基于所述贝叶斯分类确定所述目标文档的语义类别。

【技术特征摘要】
【国外来华专利技术】1.一种计算设备,包括:至少一个处理器;语义分类模块,所述语义分类模块在所述至少一个处理器上能运行用以:针对多个文档集合中的每个文档集合,确定所述文档集合中所包括的文档的语义类别的分布;从所述多个文档集合选择第一文档集合以用于分析目标文档;将所述目标文档的语义类别的先验分布设置为与所述第一文档集合中所包括的文档的所述语义类别的分布相等同;使用训练数据集合和所述目标文档的所述语义类别的先验分布来执行所述目标文档的贝叶斯分类;并且基于所述贝叶斯分类确定所述目标文档的语义类别。2.根据权利要求1所述的计算设备,所述语义分析模块进一步用以:接收新文档的供给;更新所述多个文档集合中的至少一个文档集合以包括所述新文档;并且针对所述多个文档集合中的所述至少一个文档集合,响应于接收到所述新文档而更新语义变量的所述分布。3.根据权利要求2所述的计算设备,其中所述新文档的供给包括来自社交媒体平台的连续供给。4.根据权利要求1所述的计算设备,其中所述语义分析模块用于使用写入规则的集合来确定所述文档集合中所包括的所述文档的所述语义类别的分布。5.根据权利要求1所述的计算设备,其中所述多个文档集合中的每个文档集合与特定主题相关联。6.根据权利要求1所述的计算设备,其中所述语义分析模块用于基于针对所述目标文档和所述多个文档集合之间的共同词的查询来选择所述第一文档集合。7.根据权利要求1所述的计算设备,其中所述训练数据集合是大体静态的并且包括至少一个注解。8.一种方法,包括:接收目标文档以用于语义分类;基于所述目标文档选择多个文档集合中的特定文档集合;获得与所述特定文档集合相关联的语义类别的分布;将所述目标文档的语义类别的先验分布设置为与所述特定文档集合中所包括的文档的所述语义类别的分布相等同;使用训练数据集合和所述目标文档的语义变量的所述先...

【专利技术属性】
技术研发人员:约翰·西蒙·福瑟吉尔
申请(专利权)人:隆沙有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1