当前位置: 首页 > 专利查询>谷歌公司专利>正文

基于作者的文本分类和转换制造技术

技术编号:15910794 阅读:38 留言:0更新日期:2017-08-01 22:30
本发明专利技术涉及基于作者的文本分类和转换。包括在计算机存储介质上编码的计算机程序的方法、系统和装置,用于基于对来自特定作者的训练文本的分析对文本进行转换和分类。其中方法中的一种包括:接收输入文本,所述输入文本包括一个或多个词以及请求的作者;基于编码器语言模型,生成表示所述输入文本的向量流,所述向量流包括一个或多个多维向量,每个多维向量与输入文本的词中的关联词相关联,并且表示上下文的分布,其中关联词出现在多个训练文本中;以及至少部分基于解码器语言模型、所生成的向量流、以及请求的作者,产生表示所述输入文本的特定转换的输出文本。

Based on the author's text classification and transformation

The present invention relates to text categorization and conversion based on author. Methods, systems, and apparatus including computer programs encoded on a computer storage medium for converting and classifying text based on the analysis of training texts from a particular author. A method including: receiving input text, the input text includes one or more words and request the author; encoder language model based on the generation of said input text vector flow, the vector flow includes one or more vector associated with each dimension vector Related words with the words in the input text, and context distribution, the associated words appear in a number of training texts; and at least part of decoder based on vector language model, the generated flow, and request the author, produces text output specific conversion of the input text.

【技术实现步骤摘要】
基于作者的文本分类和转换
技术介绍
本说明书描述了与基于对来自特定作者训练文本的分析来转换及分类文本有关的技术。文本编写应用(例如,文字处理器、电子邮件客户端、web浏览器以及其它的应用)经由键盘或其它输入设备来接收来自用户的文本输入。在某些情形中,这些应用可以允许用户对文本进行格式化和布置。一些应用对输入文本进行分析以识别出通常的错误。例如,拼写错误、语法错误或者格式错误。
技术实现思路
本说明书描述了与用请求的语言风格来重写文本有关的技术。通常,本说明书中所描述主题的一个创新方面可以体现在一种方法中,所述方法包括以下动作:接收输入文本,所述输入文本包括一个或多个词和请求作者的名称;基于编码器语言模型,生成表示所述输入文本的向量流,其中所述向量流包括一个或多个多维向量,每个所述多维向量与输入文本中的词中的一个或多个关联词相关联,并且表示上下文分布,其中关联词出现在由所述编码器语言模型所处理的多个训练文本中;以及至少部分基于解码器语言模型、所生成的向量流、以及请求作者,来产生表示所述输入文本的特定转换的输出文本,其中所述解码器语言模型存储有由特定作者在多个训练文本中所使用的词的分布,所述多个训本文档来自技高网...
基于作者的文本分类和转换

【技术保护点】
一种由包括一个或多个计算机的系统所执行的方法,所述方法包括:接收输入文本,所述输入文本包括一个或多个词和请求作者的名称;基于编码器语言模型,生成表示所述输入文本的向量流,其中所述向量流包括一个或多个多维向量,每个所述多维向量与所述输入文本中的词中的一个或多个关联词相关联,并且表示上下文分布,其中所述关联词出现在由所述编码器语言模型所处理的多个训练文本中;以及至少部分基于解码器语言模型、所生成的向量流、以及所述请求作者,来产生表示所述输入文本的特定转换的输出文本,其中所述解码器语言模型存储有由特定作者在所述多个训练文本中所使用的词的分布,所述多个训练文本使得所述编码器语言模型产生表示所述词的特定...

【技术特征摘要】
2015.08.07 US 62/202,6011.一种由包括一个或多个计算机的系统所执行的方法,所述方法包括:接收输入文本,所述输入文本包括一个或多个词和请求作者的名称;基于编码器语言模型,生成表示所述输入文本的向量流,其中所述向量流包括一个或多个多维向量,每个所述多维向量与所述输入文本中的词中的一个或多个关联词相关联,并且表示上下文分布,其中所述关联词出现在由所述编码器语言模型所处理的多个训练文本中;以及至少部分基于解码器语言模型、所生成的向量流、以及所述请求作者,来产生表示所述输入文本的特定转换的输出文本,其中所述解码器语言模型存储有由特定作者在所述多个训练文本中所使用的词的分布,所述多个训练文本使得所述编码器语言模型产生表示所述词的特定向量。2.根据权利要求1所述的方法,其中所述输入文本的所述特定转换是将所述输入文本向以所述请求作者的风格所写作的文本的转换。3.根据权利要求1所述的方法,进一步包括:使用至少所述多个训练文本来训练所述编码器语言模型;以及使用由所述编码器语言模型生成的表示所述多个训练文本的至少一个向量流、所述多个训练文本、以及与每个训练文本相关联的特定作者,来训练所述解码器语言模型。4.根据权利要求3所述的方法,其中所述特定作者包括所关联的训练文本的一个或多个共同作者。5.根据权利要求3所述的方法,其中所述特定作者是与训练文本相关联的匿名作者,该训练文本的作者是未知的。6.根据权利要求1所述的方法,其中所述请求作者包括所述多个训练文本的所述特定作者中的一个或多个作者。7.根据权利要求1所述的方法,进一步包括接收所述输入文本的原始作者的名称,其中产生所述输出文本是至少部分基于所述原始作者被执行的。8.根据权利要求1所述的方法,其中所述编码器语言模型和所述解码器语言模型是人工神经网络模型。9.根据权利要求1所述的方法,进一步包括:接收所述输入文本的作者的名称,其中产生所述输出文本进一步基于所述输入文本的所述作者。10.一种由包括一个或多个计算机的系统所执行的方法,所述方法包括:接收输入文本,所述输入文本包括一个或多个词和请求作者的名称;基于编码器语言模型,生成表示所述输入文本的向量流,其中所述向量流包括一个或多个多维向量,每个所述多维向量与所述输入文本中的词中的一个或多个关联词相关联,并且表示上下文分布,其中所述关联词出现在由所述编码器语言...

【专利技术属性】
技术研发人员:布莱恩·帕特里克·斯特罗普马修·斯蒂德曼·亨德森
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1