当前位置: 首页 > 专利查询>奥多比公司专利>正文

预测文本内容中的样式破坏制造技术

技术编号:21184822 阅读:46 留言:0更新日期:2019-05-22 15:26
本发明专利技术的实施例提供了针对支持预测内容中的样式破坏的系统、方法和计算机存储介质。在一个实施例中,获取需要进行样式破坏预测的目标内容。标识与目标内容相关联的样式特征。使用这样的样式特征和样式破坏预测模型预测目标内容中的样式破坏,样式破坏指示在目标内容(例如,单个文档)中使用的样式的变化。

Predicting Style Breakage in Text Content

Embodiments of the present invention provide systems, methods and computer storage media for supporting style breakage in prediction content. In one embodiment, the target content requiring style damage prediction is acquired. Identify style features associated with the target content. Style breakage prediction model is used to predict style breakage in target content. Style breakage indicates the change of style used in target content (for example, a single document).

【技术实现步骤摘要】
预测文本内容中的样式破坏
技术介绍
通常,由不同作者创建的内容在单个文档中聚合在一起。然而,通常,由不同作者创建的内容部分包含不同的书写样式,诸如例如,单词、语法样式和/或标点样式的不同选择。例如,一位作者书写的文本在样式上可能与另一位作者书写的文本不同。因此,聚合由不同作者创建的内容部分经常导致在整个文档中使用不一致的样式并且从而导致拼凑的或难以阅读的内容。在很多情况下,可能希望产生流畅阅读的多作者文档,即,在整个文档中保持一致的样式。为了保持文档中的样式一致性,用户可以手动检查内容以识别和校正任何标识的样式不一致。然而,这样的手动检测和校正是乏味且耗时的。此外,手动检测和校正样式破坏可能导致不准确和/或不完整的样式一致性。即使使用标识语法错误或难以阅读的句子的工具也不能检测样式不一致并且确保在整个文档中使用一致的样式。
技术实现思路
本专利技术的实施例涉及用于支持文本内容中的样式破坏预测的方法、系统和计算机可读介质。也就是说,预测内容中的样式破坏或样式变化。有利地,检测样式破坏使得能够修改内容以获取一致的样式。为了预测样式破坏,本文中描述的实施例支持使用训练内容生成样式破坏预测模型。特别地,可以分析训练内容以自动标识与内容相关联的样式特征。另外,可以获取样式破坏注释(例如,由评估内容的个人提供)。基于样式特征和样式破坏注释,可以训练样式破坏预测模型。然后,可以使用这样的样式破坏预测模型来与新内容或目标内容相关联地预测样式破坏。例如,可以分析目标内容以标识样式特征。然后,样式破坏预测模型可以使用所标识的样式特征来预测内容中的各种样式破坏。提供本“
技术实现思路
”是为了以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本“
技术实现思路
”不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附图说明以下参考附图详细描述本专利技术,在附图中:图1是根据本专利技术的实施例的用于支持样式破坏预测的系统的示意图;图2是根据本专利技术的实施例的样式破坏检测引擎的描绘;图3是根据本专利技术的实施例的示出各种输入内容选项的用户界面显示;图4是根据示例实施例的示出样式破坏的表示的用户显示界面;图5是示出根据本专利技术的实施例的用于支持样式破坏预测的方法的流程图;图6是示出根据本专利技术的实施例的用于生成样式破坏预测模型的方法的流程图;图7是示出根据本专利技术的实施例的用于预测样式破坏的方法的流程图;以及图8是适于在实现本专利技术的实施例时使用的示例性计算环境的框图。具体实施方式本文中具体描述了本专利技术的主题以满足法定要求。然而,描述本身并不旨在限制本专利的范围。相反,专利技术人已经预期,所要求保护的主题还可以以其他方式实施,以结合其他现有或未来技术包括与本文档中描述的步骤不同的步骤或类似的步骤的组合。此外,尽管本文中可以使用术语“步骤”和/或“块”来表示所采用的方法的不同元素,但是除非和除了当明确地描述了各个步骤的顺序时,否则这些术语不应当被解释为暗示本文中公开的各个步骤之中或之间的任何特定顺序。诸如电子文档等内容通常是经由由不同个人或作者创建和/或在不同时间点创建的内容部分组合而成的。作为示例,这样的多作者内容可以经由协作书写、来自不同作者的现有内容的组合、或在不同时间点生成的来自同一作者的内容的组合来创建。通常,由不同作者提供的内容部分包含不同的样式,诸如例如,单词、语法样式和/或标点样式的不同选择。例如,作为一个明显的示例,莎士比亚书写的文本通常与更为当代的作家书写的文本完全不同。即使在当代作家之间,写作样式仍然存在差异。因此,聚合由不同作者创建的内容部分经常导致使用不一致的样式并且从而导致拼凑的或难以阅读的内容。为了保持内容中的样式一致性,用户可以手动检查内容以识别和校正任何标识的样式不一致。然而,这样的手动检测和校正是乏味且耗时的。随着作者数目的增加和/或内容量的增加,可能放大标识和校正样式不一致的时间量。此外,手动检测和校正样式破坏可能经常导致不准确和/或不完整的样式一致性。即使使用标识语法错误或难以阅读的句子的工具也不能检测样式不一致并且确保在整个文档中使用一致的样式。已经尝试了一些与分析内容有关的自动化方法。例如,一种方法可以对不同作者书写的文档进行聚类。然而,这样的方法假定单个文档由一个作者书写。另一种内容分析方法可以基于话题变化来对句子进行聚类。然而,这样的内容分析方法未能检测诸如文档等内容中的样式破坏。因此,本文中描述的实施例涉及自动检测内容、并且尤其是多作者内容中的样式破坏。如本文中使用的样式破坏通常是指文本内容中的样式的变化或样式的不同使用。当另一作者书写内容时,通常会发生样式破坏。检测内容中的样式破坏使得能够跨内容保持样式一致性。在这方面,从协作创作/编辑的各种文档和/或内容的多个片段组合而成的内容可以在整个内容中实现一致的样式。通常,如本文中使用的,样式或书写样式是指作者书写的技术或方式,例如,与句法、标点、单词选择、语法和/或音调的使用有关。为此,特定样式的内容通常是由单个作者创作的内容或看起来是由单个作者创作的内容。为了检测内容中的样式破坏,可以分析内容以标识与内容相关联的样式特征。样式特征可以包括用于预测样式破坏的各种特征,诸如词汇特征和句法特征。有利地,在实施例中,可以利用句法特征来标识样式破坏,而不管内容的话题或主题如何。为此,单个话题或主题可以涵盖在单个多作者内容中,但仍然可以检测到样式破坏。所标识的样式特征可以与(多个)样式破坏预测模型相关联地使用以预测内容中的对应的样式破坏。样式破坏预测模型可以使用训练内容来生成。特别地,可以分析训练内容以标识样式特征,诸如词汇特征和句法特征。内容还可以由个人(本文中称为注释者)进行分析,个人查看内容并且提供关于内容中的感知到的或已知的样式破坏的样式破坏注释或反馈。然后可以使用样式特征和提供的注释来生成样式破坏预测模型。利用这种样式破坏预测模型可以实现自动化和高效的样式破坏预测。重要的是,因为在内容中检测到样式破坏,所以本文中描述的实施例以内容片段方式分析内容。为此,将内容解析或分成各种内容片段(例如,句子或内容的其他部分)并且在片段级别对内容进行分析。样式破坏预测模型可以从内容中的先前分析的片段学习样式,并且之后预测在特定内容片段处是否发生样式破坏。这样,有利地,当协作创作文档时,可以检测样式发生改变的片段,诸如句子或句子边界。根据本文中描述的一些实施例,在检测到样式破坏时,可以在视觉上向用户呈现样式破坏,使得用户可以修改内容以产生始终一致的样式。在一些情况下,可以生成用于一个片段或片段集合的(多个)样式修改推荐并且将其提供给用户。例如,可以向用户提供应当被应用以确保一致性的样式改变类型的推荐。例如,可以提供“减小句子长度”的推荐。作为另一示例,可以建议要应用的特定样式改变的推荐。例如,可以建议去除特定短语(例如,介词短语)的推荐以减小句子长度。在其他情况下,可以自动实现样式推荐以生成始终具有一致的样式的内容。现在转到图1,提供了示意图,其示出了其中可以采用本专利技术的一些实施例的示例性系统100。除了未示出的其他组件,环境100可以包括注释者设备102、用户设备104、样式破坏预测引擎106和数据存储库108。应当理解,图1所本文档来自技高网
...

【技术保护点】
1.一种或多种计算机存储介质,其存储计算机可用指令,所述计算机可用指令在由一个或多个计算设备使用时引起所述一个或多个计算设备执行包括以下各项的操作:获取需要进行样式破坏预测的目标内容,所述目标内容包括由多个个体创建的内容;标识与所述目标内容中的多个内容片段相关联的样式特征;以及使用所述样式特征和样式破坏预测模型来预测所述目标内容中的样式破坏,所述样式破坏指示所述目标内容中的文本的书写样式的变化。

【技术特征摘要】
2017.11.14 US 15/812,6321.一种或多种计算机存储介质,其存储计算机可用指令,所述计算机可用指令在由一个或多个计算设备使用时引起所述一个或多个计算设备执行包括以下各项的操作:获取需要进行样式破坏预测的目标内容,所述目标内容包括由多个个体创建的内容;标识与所述目标内容中的多个内容片段相关联的样式特征;以及使用所述样式特征和样式破坏预测模型来预测所述目标内容中的样式破坏,所述样式破坏指示所述目标内容中的文本的书写样式的变化。2.根据权利要求1所述的一种或多种计算机存储介质,其中所述样式特征包括词汇特征。3.根据权利要求1所述的一种或多种计算机存储介质,其中所述样式特征包括句法特征。4.根据权利要求2所述的一个或多个计算机存储介质,其中所述词汇特征包括以下中的一项或多项:平均单词长度、句子长度、单词长度频率、Flesh-Kincaid可读性得分、不在英语词典中的单词的频率、Honore索引值、一次性罕用词值、二次性罕用词值、Yule索引值和形符比。5.根据权利要求3所述的一种或多种计算机存储介质,其中所述句法特征包括以下中的一项或多项:功能词的计数、标点计数、大写计数和词性n元语法。6.根据权利要求1所述的一个或多个计算机存储介质,还包括为所述多个内容片段中的每个内容片段生成样式向量,每个样式向量使用与所述内容片段相对应的所述样式特征而被生成。7.根据权利要求6所述的一种或多种计算机存储介质,还包括使用主成分分析来降低所述样式特征的维度。8.根据权利要求1所述的一种或多种计算机存储介质,其中所述样式破坏预测模型包括长短期记忆模型。9.根据权利要求1所述的一种或多种计算机存储介质,还包括在所述目标内容中提供所述样式破坏的表示。10.根据权利要求1所述的一种或多种计算机存储介质,还包括:...

【专利技术属性】
技术研发人员:P·R·马内里克A·纳塔拉杰V·格普塔B·拉吉克
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1