当前位置: 首页 > 专利查询>谷歌公司专利>正文

一种自动生成标题的方法及系统技术方案

技术编号:13348032 阅读:104 留言:0更新日期:2016-07-15 00:49
从文档的语料库学习等同句法模式的多个集合。接收一个或多个输入文档的集合。针对与等同句法模式的多个集合中的一个等同句法模式的集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合。从所述等同句法模式的集合中为标题选择句法模式。所述句法模式反映所述一个或多个输入文档的集合所描述的主要事件。使用所述句法模式生成标题。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请要求于2013年6月27日提交的题为“AutomaticGenerationofHeadlines”的美国临时申请No.61/840417以及于2013年10月22日提交的题为“AutomaticGenerationofHeadlines”的美国专利申请No.14/060562的权益;上述每份申请的全部内容通过引用结合于此。
技术介绍
本公开涉及自动生成标题。为了为新闻文章生成标题,一些当前的方法包括手动生成标题或自动从文章中识别并选择句子作为题目。然而,这些方法经常无法进行扩展以覆盖从web所爬行得到的新闻。这有时可能是由于需要大量的人工介入或者该方法是基于具有一致的内容和格式的文章的模型集合,其中从web所爬行得到的文章经常具有变化的内容和格式。一些现有解决方案试图使用文章的主要段落作为那些文章的标题。然而,这些解决方案经常并不切合实际,原因在于重要的信息可能跨文章中的若干句子进行分布,或者所选择的句子可能比所期望或可允许的标题尺寸更长。为了减小句子的尺寸,一些解决方案已经尝试对句子中的单词进行重新排序。然而,它们所使用的重新排序的技术所产生的标题容易包含有不正确的语法。选择一个或多个句子并且随后将它们减小为目标标题尺寸的其它方法依赖于手动的监管和/或注解,并且因此通常无法进行扩展且一般仅能够应用于单个文档而并不是两个或更多新闻文章的集合。此外,由于保持数据库为最新所需的人力工作的水平,经常难以利用最新标题保持对知识数据库的更新。例如,在一些现有系统中,如果发生了明显的事件,则知识数据库必须利用有关该事件的信息进行手动更新。
技术实现思路
根据本公开中所描述的主题的一个新颖方面,一种系统从文档的语料库学习等同语法模式的多个集合。所述系统接收一个或多个输入文档的集合。所述系统针对与所述等同语法模式的多个集合中的等同语法模式集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合。所述系统从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件。所述系统使用所述语法模式生成所述标题。一般地,根据本公开中所描述的主题的另一个新颖方面可以以包括从文档的语料库学习等同语法模式的多个集合的方法来实现;接收一个或多个输入文档的集合;针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合;从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件;并且使用所述语法模式生成所述标题。这些方面中的一个或多个的其它实施方式包括相对应的系统、装置,以及在计算机存储设备上进行编码的被配置成执行所述方法的动作的计算机程序。这些和其它实施方式可选地均可以包括以下特征中的一个或多个。例如,所述操作可以进一步包括将所述等同语法模式的多个集合映射至知识图中的相对应的项目;从与所述等同语法模式的集合相匹配的所述一个或多个表达确定一个或多个实体;确定所述知识图中与所述一个或多个表达所描述的所述一个或多个实体相对应的一个或多个条目;更新所述知识图中的所述一个或多个条目以使用所述标题反映主要事件;对来自所述一个或多个表达的一个或多个实体进行处理;生成所述标题包括用所述一个或多个实体填充所述语法模式;接收相关文档的多个集合;针对所述相关文档的多个集合中的每一个,确定涉及相对应信息的表达;基于所述表达确定等同语法模式的多个集合;将所述等同语法模式的多个集合存储在数据存储中;使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模式的多个集合中的一个或多个之中;确定从所述一个或多个输入文档所处理的表达的数目满足预定证据阈值;并且基于满足所述证据阈值而确定所述等同语法模式的集合与所述一个或多个输入文档的集合相关。例如,所述特征可以包括,所述一个或多个输入文档的集合包括相关新闻文章的新闻集合。这里所描述的技术在许多方面是有利的。例如,该技术能够学习等同表达的模型并且使用它来理解一个或多个新闻文档中所报告的主要事件是什么,并且能够进行扩展从而处理web大小的数据,在系统的一次运行之中对数以百万计的新闻文章进行处理。此外,该技术能够基于描述自动学习的事件的等同表达而针对并未在原始文档中出现的一个或数个文档生成标题。在一些情况下,这可以提供生成并不受到版权影响的标题的好处(因为它们并未使用与所公开的作品相同的词语)。该技术还能够自动确定所学习模式之间的关联性以及知识库中的关系,并且在对有关各种实体的最新新闻进行处理时更新那些关系。作为结果,使用该技术能够使保持知识库更新的过程完全自动化,因此并不需要人为注解。然而,应当理解的是,该特征和优势的列举并不是无所不包的,并且许多另外的特征和优势得以被构想到并落入本公开的范围之内。此外,应当理解的是,本公开中所使用的语言原则上已经出于可靠性和指示性的目的进行了选择,而并不对这里所公开的主题的范围加以限制。附图说明在附图的图中通过示例而非限制的方式对本公开进行图示,其中同样的附图标记被用来指代相似的要素。图1是图示用于自动生成标题并且保持最新知识图的示例系统的框图。图2是图示示例新闻系统的框图。图3是用于自动生成标题的示例方法的流程图。图4是用于基于来自新闻文档的实体和事件而将等同语法模式聚类为多个集合的示例方法的流程图。图5A至B是有关基于等同语法模式的集群为新闻文档生成标题的示例方法的流程图。图6是用于基于等同语法模式的集群自动更新知识图的示例方法的流程图;图7是描绘示例模式确定处理的示例方法。图8描绘了示例的概率模型。图9是图示用于生成相关抽象标题的示例方法的框图。图10是包括样本相关抽象标题的示例图形用户界面。具体实施方式新闻事件经常被以不同方式进行报道,例如由各个新闻机构从多个视角进行报道,而不是从单一视角被报道。不同新闻机构可以以不同方式对给定事件进行解释,并且各个国家或地区根据其如何受到影响而可能侧重于该事件的不同方面,或者以不同方式对那些方面进行描述。此外,通常在该事实之后撰写有关事件的观点和深度分析。各种内容和风格可以是机会以及挑战。例如,不同新闻源对给定事件进行描述的方式能够提供对于概括有用的冗余性,因为主要新闻源所本文档来自技高网
...

【技术保护点】
一种计算机实施的方法,包括:从文档的语料库学习等同语法模式的多个集合;接收一个或多个输入文档的集合;针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合;从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件;以及使用所述语法模式生成所述标题。

【技术特征摘要】
【国外来华专利技术】2013.06.27 US 61/840,417;2013.10.22 US 14/060,5621.一种计算机实施的方法,包括:
从文档的语料库学习等同语法模式的多个集合;
接收一个或多个输入文档的集合;
针对与所述等同语法模式的多个集合中的一个等同语法模式的集
合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合;
从所述等同语法模式的集合中为标题选择语法模式,所述语法模
式反映所述一个或多个输入文档的集合所描述的主要事件;以及
使用所述语法模式生成所述标题。
2.根据权利要求1所述的计算机实现的方法,进一步包括:
将所述等同语法模式的多个集合映射至知识图中的相对应的项
目;
从与所述等同语法模式的集合相匹配的所述一个或多个表达中确
定一个或多个实体;
确定所述知识图中与所述一个或多个表达所描述的所述一个或多
个实体相对应的一个或多个条目;以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所
述主要事件。
3.根据权利要求1所述的计算机实现的方法,其中,所述一个或
多个输入文档的集合包括相关新闻文章的新闻集合。
4.根据权利要求1所述的计算机实现的方法,进一步包括:
对来自所述一个或多个表达的一个或多个实体进行处理,其中,
生成所述标题包括用所述一个或多个实体填充所述语法模式。
5.根据权利要求1所述的计算机实现的方法,其中,学习所述等
同语法模式的多个集合进一步包括:
接收相关文档的多个集合;
针对所述相关文档的多个集合中的每一个,确定涉及相对应的信
息的表达;
基于所述表达确定等同语法模式的多个集合;以及
将所述等同语法模式的多个集合存储在数据存储中。
6.根据权利要求5所述的计算机实现的方法,进一步包括:
使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模
式的多个集合中的一个或多个之中。
7.根据权利要求1所述的计算机实现的方法,其中,处理所述一
个或多个输入文档的集合包括:
确定从所述一个或多个输入文档所处理的表达的数目满足预定证
据阈值;以及
基于满足所述证据阈值而确定所述等同语法模式的集合与所述一
个或多个输入文档的集合相关。
8.一种包括计算机可用介质的计算机程序产品,所述计算机可用
介质包括计算机可读程序,其中,所述计算机可读程序在计算机上执
行时使得所述计算机:
从文档的语料库学习等同语法模式的多个集合;
接收一个或多个输入文档的集合;
针对与所述等同语法模式的多个集合中的一个等同语法模式的集
合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合;
从所述等同语法模式的集合中为标题选择语法模式,所述语法模
式反映所述一个或多个输入文档的集合所描述的主要事件;以及
使用所述语法模式生成所述标题。
9.根据权利要求8所述的计算机程序产品,其中,所述计算机可
读程序在所述计算机上执行时,进一步使得该计算机:
将所述等同语法模式的多个集合映射至知识图中的相对应的项
目;
从与所述等同语法模式的集合相匹配的所述一个或多个表达确定
一个或多个实体;
确定所述知识图中与所述一个或多个表达所描述的所述一个或多
个实体相对应的一个或多个条目;以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所
述主要事件。
10.根据权利要求8所述的计算机程序产品,其中,所述一个或多
个输入文档的集合...

【专利技术属性】
技术研发人员:恩里克·阿方塞卡丹尼利·皮金吉列尔莫·加里多·尤斯特叶卡捷琳娜·菲利波娃
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1