一种目标语句识别方法及装置制造方法及图纸

技术编号:17442053 阅读:48 留言:0更新日期:2018-03-10 14:45
本发明专利技术实施例提供了一种目标语句识别方法及装置,其中方法包括:获取待处理的文本,其中所述文本包含一条或多条自然语言语句;提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。本发明专利技术可自动发现属于目标语句(例如优美句子)的语句,从而大大提高了目标语句的识别效率;同时,本发明专利技术的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。

【技术实现步骤摘要】
一种目标语句识别方法及装置
本专利技术涉及自然语言处理领域,尤其是涉及一种目标语句识别方法及装置。
技术介绍
人们在阅读文章(例如学生的作文或其他文本内容)时,往往会出于某种目的而在文章中寻找一些目标语句,如优美句子等。现有的目标语句识别方法一般是依靠人工对文章进行阅读,然后指出文章中的目标语句。例如,老师在对作文进行批改时,可以标出作文中的优美句子,并给出相应评语,这对学生提高作文水平有重大意义,其中所述优美句子一般可指表达优美、见解独特等的句子,如使用较多成语、引经据典的句子等等。然而,专利技术人在实现本专利技术的过程中发现,随着信息技术的飞速发展,教育行业也开始步入信息化时代,涌现出了众多的在线教育平台,越来越多的学生也开始习惯在线教育的方式,在同一个在线教育平台上,大量学生作为用户进行在线学习、在线考试等操作,此时老师面对的学生不再是传统的一个班几十个学生,而是数以万计的平台用户。在这种新形势下,老师的工作量开始成倍增长,尤其是老师对作文的批改,更是费时费力。同时,老师一篇篇的批改作文时,主观性往往较大,不同老师对同一篇作文中哪些是目标语句的评判结果很有可能不同,即识别结果完本文档来自技高网...
一种目标语句识别方法及装置

【技术保护点】
一种目标语句识别方法,其特征在于,所述方法包括:获取待处理的文本,其中所述文本包含一条或多条自然语言语句;提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。

【技术特征摘要】
1.一种目标语句识别方法,其特征在于,所述方法包括:获取待处理的文本,其中所述文本包含一条或多条自然语言语句;提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。2.根据权利要求1所述的方法,其特征在于,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:对当前语句进行分词;获取分词后得到每个词的词向量;根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。3.根据权利要求2所述的方法,其特征在于,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,包括:将当前语句每个词的词向量输入所述LSTM-RNN层;将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。4.根据权利要求1所述的方法,其特征在于,所述第二特征包括以下一种或多种:词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;是否包含成语;不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。5.根据权利要求4所述的方法,其特征在于:提取当前语句的词性分布,包括:统计当前语句中的总词数,计算当前语句中每种词性的词的个数与所述总词数的比值,以得到当前语句的词性分布;提取当前语句的平均词频,包括:分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频;提取当前语句的最大词频和最小词频,包括:分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频;提取当前语句的不重复词占比,包括:分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比;提取当前语句的重复词类型数,包括:分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。6.根据权利要求1所述的方法,其特征在于,所述根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句,包括:将当前语句的识别特征作为所述目标语句识别模型的输入;接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;当所述概率大于预设阈值时,则确定当前语句属于目标语句。7.根据权利要求1所述的方法,其特征在于,所述识别出所述文本中的目标语句之后,所述方法还包括:在所述文本中使用预设...

【专利技术属性】
技术研发人员:施亮亮付瑞吉胡国平宋巍秦兵刘挺
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1