公开了一种确定在文档中所表达的情绪的系统、存储指令的计算机可读存储介质以及计算机实现的方法。从多个文档接收文档。识别该文档中的、包括在来自关键词列表的至少一个关键词的预定距离内的至少一个情绪签名的句子,其中关键词列表是从多个文档中提取的,并且使用相转变公式对关键词列表进行过滤,并且其中所述至少一个情绪签名对应于该句子中至少一个情绪的表达。确定与该句子的至少一个关键词对应的至少一个类别,其中,至少一个类别被包括在类别列表中,该类别列表是使用关键词列表生成的。基于至少一个情绪签名来确定与至少一个类别对应的至少一个情绪。
【技术实现步骤摘要】
【国外来华专利技术】
所公开的实施例一般地涉及确定在文档中所表达的情绪。。
技术介绍
因特网包括关于各种主题的信息。该信息可能由特定领域的专家或者临时用户(例如,博主、评论员等等)撰写。搜索引擎允许用户识别包括关于用户感兴趣的主题的信息的文档。然而,目前难以识别这些用户所表达的关于特定主题(例如,特定宾馆的房间质量)的情绪。附图说明图I是示出根据一些实施例的网络的框图。图2是示出根据一些实施例的情绪服务器的框图。图3是根据一些实施例的确定在文档中所表达的情绪的方法的流程图。图4是根据一些实施例的提取关键词列表的方法的流程图。图5是根据一些实施例的生成类别列表的方法的流程图。图6是根据一些实施例的生成类别列表的另一方法的流程图。图7是根据一些实施例的确定与句子的至少一个关键词对应的至少一个类别的另一方法的流程图。图8是根据一些实施例的确定类别的类别谱的方法的流程图。图9是根据一些实施例的从文档集中选择多个文档的方法的流程图。图10是根据一些实施例的机器的框图。在附图中,相似参考标号指代对应的部分。具体实施例方式以下描述包括体现示例性实施例的示例性系统、方法、技术、指令序列、以及计算机程序产品。在以下描述中,为了说明的目的,提出了很多具体细节以便提供对于本专利技术主题的各种实施例的理解。然而,对于本领域技术人员而言明显的是本专利技术主题的实施例可以在没有这些具体细节的情况下实践。总的来说,没有详细示出公知的指令实例、协议、结构和技术。这里描述的实施例提供了确定在文档中所表达的情绪的技术。图I是示出根据一些实施例的网络120的框图。网络120通常可以包括能够将计算节点耦接到一起的任何类型的有线或无线通信通道。这包括但不限于局域网、广域网、或网络组合。在一些实施例中,网络120包括因特网。在一些实施例中,服务器100耦接到网络120。服务器100可以包括文档102。文档102可以是任何类型的文档,包括但不限于web文档(例如,超文本标记语言(HTML)文档、可扩展标记语言(XML)文档等)、文本文档、电子数据表(spreadsheet)、报告书(presentation)、扫描文档(例如,扫描文本等)、图像等等。在一些实施例中,聚集器104耦接到网络120。聚集器104可以包括文档106。在 一些实施例中,聚集器104从服务器100获得文档102的至少一个子集。例如,聚集器104可以爬行(crawl)服务器100,并且从服务器100取回文档102的至少一个子集。在一些实施例中,情绪服务器108耦接到网络120。情绪服务器108被配置来确定在文档中所表达的情绪,如这里所描述的。情绪服务器108所使用的文档可以包括从服务器100 (例如,通过爬行服务器100)获得的文档、从聚集器104 (例如,通过从聚集器104购买文档)获得的文档或者其组合。图2是示出根据一些实施例的情绪服务器108的框图。情绪服务器108包括情绪模块202,被配置来确定在文档中所表达的情绪;爬行模块204 (可选的),被配置来爬行服务器100以获得文档102的至少一个子集;关键词模块206,被配置来从文档中提取关键词;过滤模块208,被配置来过滤关键词和文档;以及分类模块210,被配置来分类文档、句子、和/或关键词。注意,可以组合这些1 块的功能。例如,情绪1 块202可以包括关键词模块206和过滤模块208的功能。下面关于图3 - 9更详细地描述这些模块。确定在文档中所表达的情绪图3是根据一些实施例的确定在文档中所表达的情绪的方法300的流程图。情绪模块202接收(302)来自多个文档的文档。例如,所述多个文档可以包括文档102的至少一个子集、文档106的至少一个子集、或者其组合。下面关于图9更详细地描述选择多个文档的过程。然后,情绪模块202识别(304)该文档中的句子,该句子包括在来自关键词列表的至少一个关键词的预定距离内的至少一个情绪签名。所述至少一个情绪签名对应于该句子中的至少一个情绪的表达。在一些实施例中,所述至少一个情绪签名包括至少一个词(例如,形容词),所述至少一个词指示在该句子中存在所述至少一个情绪的表达。在一些实施例中,情绪签名与倾向(polarity)相关联。例如,所述倾向可以指示该情绪签名反映正面的情绪、负面的情绪、或中性的情绪。注意,情绪模块202可以识别大于或小于一个句子的语法单元。例如,情绪模块202可以识别包括处于至少一个关键词的预定距离内的至少一个情绪签名的段落或短语。在一些实施例中,从所述多个文档中提取关键词列表,并且使用相转变公式(phase transition formula)过滤该关键词列表。下面关于图4更详细地描述这些实施例。在一些实施例中,所述至少一个情绪签名被包括在情绪签名列表中。情绪签名列表可以被手动生成。分类模块210然后确定(306)与该句子的至少一个关键词对应的至少一个类别。在一些实施例中,所述至少一个类别与产品、服务、或其组合相关联。下面关于图7和8更详细地描述确定与句子的至少一个关键词对应的至少一个类别的过程。在一些实施例中,所述至少一个类别被包括在类别列表中,该类别列表是使用关键词列表而生成的。下面关于图5和6更详细地描述这些实施例。情绪模块202然后基于所述至少一个情绪签名来确定(308)与所述至少一个类别对应的至少一个情绪。在一些实施例中,所述至少一个情绪是与至少一个类别相关的观点的表达。为了阐明关于图3描述的过程,考虑包括示例句子“房间很臭,地毯很脏”的示例文档。假设词“臭”和“脏”是表达负面情绪(例如,负面倾向)的情绪签名,词“房间”和“地毯”是关键词,并且预定距离为3。由于情绪签名“臭”与关键词“房间”相距两个词并且 情绪签名“脏”与关键词“地毯”相距两个词,因此情绪模块202识别出(304)该示例句子。分类模块210然后确定(306)与该句子的关键词对应的类别。在该示例中,分类模块210可以确定“宾馆房间”为该句子的关键词的类别。情绪模块202然后确定关于宾馆房间(例如,所述类别)所表达的情绪是负面情绪。提取关键词列表在一些实施例中,在识别(304)文档中的包括在来自关键词列表的至少一个关键词的预定距离内的至少一个情绪签名的句子之前,关键词模块206从所述多个文档中提取关键词列表。图4是根据一些实施例的提取关键词列表的方法400的流程图。关键词模块206从所述多个文档中的每个文档中提取(402)关键词。对于每个关键词,关键词模块206执行以下操作。关键词模块206计算(404)该关键词在所述多个文档中的频率f、以及包括该关键词的文档的数量N。接下来,关键词模块206使用(406)相转变公式,基于该关键词在所述多个文档中的频率以及包括该关键词的文档的数量来计算关键词的相关性。在一些实施例中,相转变公式为|其中X > I。在 hr一些实施例中,X为3。然后当该关键词的相关性超过预定阈值时,关键词模块206将该关键词添加(408)到关键词列表。生成类别列表在一些实施例中,在确定(306)与句子的至少一个关键词对应的至少一个类别之前,分类模块210生成类别列表。图5是根据一些实施例的生成类别列表的方法500的流程图。分类模块210识另Ij (502)所述多个文档中包括来自关键本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:M杜昂范,
申请(专利权)人:梅塔瓦纳股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。