Embodiments of the present invention provide systems, methods and computer storage media for supporting style breakage in prediction content. In one embodiment, the target content requiring style damage prediction is acquired. Identify style features associated with the target content. Style breakage prediction model is used to predict style breakage in target content. Style breakage indicates the change of style used in target content (for example, a single document).
【技术实现步骤摘要】
预测文本内容中的样式破坏
技术介绍
通常,由不同作者创建的内容在单个文档中聚合在一起。然而,通常,由不同作者创建的内容部分包含不同的书写样式,诸如例如,单词、语法样式和/或标点样式的不同选择。例如,一位作者书写的文本在样式上可能与另一位作者书写的文本不同。因此,聚合由不同作者创建的内容部分经常导致在整个文档中使用不一致的样式并且从而导致拼凑的或难以阅读的内容。在很多情况下,可能希望产生流畅阅读的多作者文档,即,在整个文档中保持一致的样式。为了保持文档中的样式一致性,用户可以手动检查内容以识别和校正任何标识的样式不一致。然而,这样的手动检测和校正是乏味且耗时的。此外,手动检测和校正样式破坏可能导致不准确和/或不完整的样式一致性。即使使用标识语法错误或难以阅读的句子的工具也不能检测样式不一致并且确保在整个文档中使用一致的样式。
技术实现思路
本专利技术的实施例涉及用于支持文本内容中的样式破坏预测的方法、系统和计算机可读介质。也就是说,预测内容中的样式破坏或样式变化。有利地,检测样式破坏使得能够修改内容以获取一致的样式。为了预测样式破坏,本文中描述的实施例支持使用训练内容生成样式破坏预测模型。特别地,可以分析训练内容以自动标识与内容相关联的样式特征。另外,可以获取样式破坏注释(例如,由评估内容的个人提供)。基于样式特征和样式破坏注释,可以训练样式破坏预测模型。然后,可以使用这样的样式破坏预测模型来与新内容或目标内容相关联地预测样式破坏。例如,可以分析目标内容以标识样式特征。然后,样式破坏预测模型可以使用所标识的样式特征来预测内容中的各种样式破坏。提供本“
技术实现思路
”是为 ...
【技术保护点】
1.一种或多种计算机存储介质,其存储计算机可用指令,所述计算机可用指令在由一个或多个计算设备使用时引起所述一个或多个计算设备执行包括以下各项的操作:获取需要进行样式破坏预测的目标内容,所述目标内容包括由多个个体创建的内容;标识与所述目标内容中的多个内容片段相关联的样式特征;以及使用所述样式特征和样式破坏预测模型来预测所述目标内容中的样式破坏,所述样式破坏指示所述目标内容中的文本的书写样式的变化。
【技术特征摘要】
2017.11.14 US 15/812,6321.一种或多种计算机存储介质,其存储计算机可用指令,所述计算机可用指令在由一个或多个计算设备使用时引起所述一个或多个计算设备执行包括以下各项的操作:获取需要进行样式破坏预测的目标内容,所述目标内容包括由多个个体创建的内容;标识与所述目标内容中的多个内容片段相关联的样式特征;以及使用所述样式特征和样式破坏预测模型来预测所述目标内容中的样式破坏,所述样式破坏指示所述目标内容中的文本的书写样式的变化。2.根据权利要求1所述的一种或多种计算机存储介质,其中所述样式特征包括词汇特征。3.根据权利要求1所述的一种或多种计算机存储介质,其中所述样式特征包括句法特征。4.根据权利要求2所述的一个或多个计算机存储介质,其中所述词汇特征包括以下中的一项或多项:平均单词长度、句子长度、单词长度频率、Flesh-Kincaid可读性得分、不在英语词典中的单词的频率、Honore索引值、一次性罕用词值、二次性罕用词值、Yule索引值和形符比。5.根据权利要求3所述的一种或多种计算机存储介质,其中所述句法特征包括以下中的一项或多项:功能词的计数、标点计数、大写计数和词性n元语法。6.根据权利要求1所述的一个或多个计算机存储介质,还包括为所述多个内容片段中的每个内容片段生成样式向量,每个样式向量使用与所述内容片段相对应的所述样式特征而被生成。7.根据权利要求6所述的一种或多种计算机存储介质,还包括使用主成分分析来降低所述样式特征的维度。8.根据权利要求1所述的一种或多种计算机存储介质,其中所述样式破坏预测模型包括长短期记忆模型。9.根据权利要求1所述的一种或多种计算机存储介质,还包括在所述目标内容中提供所述样式破坏的表示。10.根据权利要求1所述的一种或多种计算机存储介质,还包括:...
【专利技术属性】
技术研发人员:P·R·马内里克,A·纳塔拉杰,V·格普塔,B·拉吉克,
申请(专利权)人:奥多比公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。