建立语句编辑模型的方法、语句自动编辑方法及对应装置制造方法及图纸

技术编号:13781463 阅读:68 留言:0更新日期:2016-10-04 18:15
本发明专利技术提供了一种建立语句编辑模型的方法、语句自动编辑方法及对应装置,具体包括:从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题,构成query‑title对;将各query‑title对中的title作为待编辑语句,query作为对应的编辑后语句,构成训练语料;利用所述训练语料训练翻译模型和第一语言模型,得到包含所述翻译模型和第一语言模型的语句编辑模型。获取到待编辑语句后,将所述待编辑语句输入语句编辑模型,得到各候选编辑语句的编辑得分;选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句。本发明专利技术能够实现语句的自动编辑,提高可读性,降低人力成本。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种建立语句编辑模型的方法、语句自动编辑方法及对应装置
技术介绍
随着网络技术的迅速发展,人们通过网络能够获得多种多样的信息,各服务商除了向用户提供数量繁多的信息之外,对信息的质量要求也越来越高。同样一句话,采用不同的词语和表达方式会给用户带来不同的体验。在很多场景下,一些信息是自动生成的。例如在一些网站或者网络服务中,对于诸如人物、动物、地点、影视等实体词的简介,是通过从网络上抓取并从中提取主要信息后自动形成的语句。但这种自动形成的语句往往可读性较差,给用户带来很差的阅读体验,更谈不上达到“信、达、雅”的要求。如果对于这些语句都由人工参与进行编辑,那么人力成本太高。
技术实现思路
有鉴于此,本专利技术提供了一种建立语句编辑模型的方法、语句自动编辑方法及对应装置,以便于实现语句的自动编辑,提高可读性,降低人力成本。具体技术方案如下:本专利技术提供了一种建立语句编辑模型的方法,该方法包括:从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题,构成query-title对;将各query-title对中的title作为待编辑语句,query作为对应的编辑后语句,构成训练语料;利用所述训练语料训练翻译模型和第一语言模型,得到包含所述翻译模型
和第一语言模型的语句编辑模型。根据本专利技术一优选实施方式,所述从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题,构成query-title对包括:从搜索日志中获取query;利用预先训练得到的分类器对所述query进行分类,得到属于优选表达类别的query;从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title,构成query-title对。根据本专利技术一优选实施方式,所述分类器的训练包括:从百科网页中获取词条对应的优选表达语句,或者利用优选表达语句模板从网页上获取优选表达语句;利用获取的优选表达语句作为正样本训练所述分类器。根据本专利技术一优选实施方式,从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title,构成query-title对包括:从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title;将获取的title拆分为一个以上的子title;利用query及其对应的子title,分别构成query-title对。根据本专利技术一优选实施方式,该方法还包括:在训练语句编辑模型之前,对所述训练语料进行以下过滤处理中的至少一种:若query-title对中query和title没有任何词语重叠,则过滤掉该query-title对;若query-title对中query和title完全相同,则过滤掉该query-title对;若query-title对中query的长度不满足预设长度要求,则过滤掉该query-title对;若query-title对中长度较短者与长度较长者之间的长度比例小于预设的比例阈值,则过滤掉该query-title对。根据本专利技术一优选实施方式,利用所述训练语料训练翻译模型包括:利用训练语料中的待编辑语句及其对应的编辑后语句,训练翻译模型,所述翻译模型用于计算各待编辑语句对应的编辑后语句的翻译得分。根据本专利技术一优选实施方式,利用所述训练语料训练第一语言模型包括:利用训练语料中的编辑后语句,训练第一语言模型,所述第一语言模型用于计算n元词组之间的搭配得分,所述n为预设的正整数。根据本专利技术一优选实施方式,所述语句编辑模型还包括长度模型,所述长度模型用于计算不同长度的语句的长度得分。根据本专利技术一优选实施方式,所述语句编辑模型还包括第二语言模型;该方法还包括:利用新闻标题作为训练语料,训练第二语言模型,所述第二语言模型用于计算m元词组之间的搭配得分,所述m为预设的正整数。根据本专利技术一优选实施方式,所述语句编辑模型还包括句法结构模型;该方法还包括:将人工编辑的语句作为训练样本,训练句法结构模型,所述句法结构模型用于计算各语句与人工编辑的语句在句法结构上的相似度评分。根据本专利技术一优选实施方式,所述语句编辑模型为其所包含各模型进行加权融合后得到的模型。本专利技术还提供了一种语句自动编辑方法,该方法包括:获取待编辑语句;将所述待编辑语句输入语句编辑模型,得到各候选编辑语句的编辑得分;选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句;其中所述语句编辑模型利用上述建立语句编辑模型的方法建立。根据本专利技术一优选实施方式,所述待编辑语句为针对实体词的描述语句;所述编辑后的语句为:所述实体词作为搜索结果页中query对应的推荐实体词的推荐理由。本专利技术还提供了一种建立语句编辑模型的装置,该装置包括:语料获取单元,用于从搜索日志中获取搜索关键词query以及query对应的
被点击搜索结果的标题,构成query-title对;将各query-title对中的title作为待编辑语句,query作为对应的编辑后语句,构成训练语料;模型训练单元,用于利用所述训练语料训练翻译模型和第一语言模型,得到包含所述翻译模型和第一语言模型的语句编辑模型。根据本专利技术一优选实施方式,所述语料获取单元包括:第一获取子单元,用于从搜索日志中获取query;分类子单元,用于利用预先训练得到的分类器对所述query进行分类,得到属于优选表达类别的query;第二获取子单元,用于从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title,构成query-title对。根据本专利技术一优选实施方式,所述语料获取单元还包括:训练子单元,用于从百科网页中获取词条对应的优选表达语句,或者利用优选表达语句模板从网页上获取优选表达语句;利用获取的优选表达语句作为正样本训练所述分类器。根据本专利技术一优选实施方式,所述第二获取子单元,具体执行:从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title;将获取的title拆分为一个以上的子title;利用query及其对应的子title,分别构成query-title对。根据本专利技术一优选实施方式,该装置还包括:过滤处理单元,用于对所述训练语料进行以下过滤处理中的至少一种:若query-title对中query和title没有任何词语重叠,则过滤掉该query-title对;若query-title对中query和title完全相同,则过滤掉该query-title对;若query-title对中query的长度不满足预设长度要求,则过滤掉该query-title对;若query-title对中长度较短者与长度较长者之间的长度比例小于预设的比例
阈值,则过滤掉该query-title对。根据本专利技术一优选实施方式,所述模型训练单元包括:翻译模型训练子单元,用于利用训练语料中的待编辑语句及其对应的编辑后语句,训练翻译模型,所述翻译模型用于计算各待编辑语句对应的编辑后语句的翻译得分。根据本专利技术一优选实施方式,所述模型训练单元包括:第一语言模型训练子单元,用于利用训练语料中的编辑后语句,训练第一语言模型,所述第一语言模型用于计算n元词组之间的搭配得分,所述n为预设的正整数本文档来自技高网
...

【技术保护点】
一种建立语句编辑模型的方法,其特征在于,该方法包括:从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题,构成query‑title对;将各query‑title对中的title作为待编辑语句,query作为对应的编辑后语句,构成训练语料;利用所述训练语料训练翻译模型和第一语言模型,得到包含所述翻译模型和第一语言模型的语句编辑模型。

【技术特征摘要】
1.一种建立语句编辑模型的方法,其特征在于,该方法包括:从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题,构成query-title对;将各query-title对中的title作为待编辑语句,query作为对应的编辑后语句,构成训练语料;利用所述训练语料训练翻译模型和第一语言模型,得到包含所述翻译模型和第一语言模型的语句编辑模型。2.根据权利要求1所述的方法,其特征在于,所述从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题,构成query-title对包括:从搜索日志中获取query;利用预先训练得到的分类器对所述query进行分类,得到属于优选表达类别的query;从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title,构成query-title对。3.根据权利要求2所述的方法,其特征在于,所述分类器的训练包括:从百科网页中获取词条对应的优选表达语句,或者利用优选表达语句模板从网页上获取优选表达语句;利用获取的优选表达语句作为正样本训练所述分类器。4.根据权利要求2所述的方法,其特征在于,从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title,构成query-title对包括:从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title;将获取的title拆分为一个以上的子title;利用query及其对应的子title,分别构成query-title对。5.根据权利要求1所述的方法,其特征在于,该方法还包括:在训练语句
\t编辑模型之前,对所述训练语料进行以下过滤处理中的至少一种:若query-title对中query和title没有任何词语重叠,则过滤掉该query-title对;若query-title对中query和title完全相同,则过滤掉该query-title对;若query-title对中query的长度不满足预设长度要求,则过滤掉该query-title对;若query-title对中长度较短者与长度较长者之间的长度比例小于预设的比例阈值,则过滤掉该query-title对。6.根据权利要求1所述的方法,其特征在于,利用所述训练语料训练翻译模型包括:利用训练语料中的待编辑语句及其对应的编辑后语句,训练翻译模型,所述翻译模型用于计算各待编辑语句对应的编辑后语句的翻译得分。7.根据权利要求1所述的方法,其特征在于,利用所述训练语料训练第一语言模型包括:利用训练语料中的编辑后语句,训练第一语言模型,所述第一语言模型用于计算n元词组之间的搭配得分,所述n为预设的正整数。8.根据权利要求1所述的方法,其特征在于,所述语句编辑模型还包括长度模型,所述长度模型用于计算不同长度的语句的长度得分。9.根据权利要求1所述的方法,其特征在于,所述语句编辑模型还包括第二语言模型;该方法还包括:利用新闻标题作为训练语料,训练第二语言模型,所述第二语言模型用于计算m元词组之间的搭配得分,所述m为预设的正整数。10.根据权利要求1所述的方法,其特征在于,所述语句编辑模型还包括句法结构模型;该方法还包括:将人工编辑的语句作为训练样本,训练句法结构模型,所述句法结构模型用于计算各语句与人工编辑的语句在句法结构上的相似度评分。11.根据权利要求1所述的方法,其特征在于,所述语句编辑模型为其所包含各模型进行加权融合后得到的模型。12.一种语句自动编辑方法,其特征在于,该方法包括:获取待编辑语句;将所述待编辑语句输入语句编辑模型,得到各候选编辑语句的编辑得分;选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句;其中所述语句编辑模型利用如权利要求1至11任一权项所述的方法建立。13.根据权利要求12所述的方法,其特征在于,所述待编辑语句为针对实体词的描述语句;所述编辑后的语句为:所述实体词作为搜索结果页中query对应的推荐实体词...

【专利技术属性】
技术研发人员:黄际洲赵世奇王海峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1