建立问答文本评价模型与评价问答文本的方法、装置制造方法及图纸

技术编号:18083984 阅读:27 留言:0更新日期:2018-05-31 12:29
本发明专利技术提供一种建立问答文本评价模型的方法,该方法包括:获取已标记问答得分的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分以及文本特征作为输入,将所述已标记的问答得分作为输出,训练分类模型,得到问答文本评价模型。本发明专利技术提供一种评价问答文本的方法,该方法包括:获取待识别的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分与文本特征作为问答文本评价模型的输入,将所述问答文本评价模型的输出结果作为所述问答文本对的问答得分。本发明专利技术能够减少评价问答文本时所需的成本,并提高对优质问答文本的识别效果。

【技术实现步骤摘要】
建立问答文本评价模型与评价问答文本的方法、装置
本专利技术涉及自然语言处理技术,尤其涉及一种建立问答文本评价模型与评价问答文本的方法、装置。
技术介绍
现有网页中存在大量的问答文本,其中问答文本涉及各个领域,例如医学领域、科技领域等各个专业领域。而在现有网页中存在的各种问答文本的质量参差不齐,因此无法给用户带来良好的借鉴意义。现有技术在对问答文本中的优质文本进行鉴别时,通常采用人工定制规则的方法进行鉴别。但是,基于人工定制规则的方法不具有泛化能力,对于定制规则以外的问答数据无法识别是否为优质问答数据,因此对优质问答数据的覆盖率较低;此外,人工定制规则的成本较高。因此,亟需提供一种能够有效评价问答问答的方法。
技术实现思路
有鉴于此,本专利技术提供了一种建立问答文本评价模型与评价问答文本的方法和装置,用于减少评价问答文本的成本,并提高对优质问答文本的识别效果。本专利技术为解决技术问题所采用的技术方案是提供一种建立问答文本评价模型的方法,所述方法包括:获取已标记问答得分的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分以及文本特征作为输入,将所述已标记的问答得分作为输出,训练分类模型,得到问答文本评价模型。根据本专利技术一优选实施例,所述语义评价模型是通过如下方式预先训练得到的:获取已标记语义得分的问答文本对,所述问答文本对中包含提问文本以及回答文本;分别对提问文本以及回答文本进行切词处理;将所述提问文本以及回答文本的切词结果作为输入,将所述已标记的语义得分作为输出,训练神经网络模型,得到语义评价模型。根据本专利技术一优选实施例,所述问答文本对的文本特征包括:提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。根据本专利技术一优选实施例,所述分类模型为迭代决策树模型。根据本专利技术一优选实施例,所述神经网络模型为基于词袋的深度神经网络模型。本专利技术为解决技术问题所采用的技术方案是提供一种建立问答文本评价模型的装置,所述装置包括:第一获取单元,用于获取已标记问答得分的问答文本对;第一处理单元,用于通过语义评价模型获取所述问答文本对的语义得分;第二处理单元,用于提取所述问答文本对的文本特征;第一训练单元,用于将所述语义得分以及文本特征作为输入,将所述已标记的问答得分作为输出,训练分类模型,得到问答文本评价模型。根据本专利技术一优选实施例,所述装置还包括第二训练单元,用于通过如下方式预先训练得到语义评价模型:获取已标记语义得分的问答文本对,所述问答文本对中包含提问文本以及回答文本;分别对提问文本以及回答文本进行切词处理;将所述提问文本以及回答文本的切词结果作为输入,将所述已标记的语义得分作为输出,训练神经网络模型,得到语义评价模型。根据本专利技术一优选实施例,所述第二处理单元提取的问答文本对的文本特征包括:提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。本专利技术为解决技术问题所采用的技术方案是提供一种评价问答文本的方法,所述方法包括:获取待识别的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分与文本特征作为问答文本评价模型的输入,将所述问答文本评价模型的输出结果作为所述问答文本对的问答得分。根据本专利技术一优选实施例,该方法进一步包括:判断所述问答得分是否满足预设要求,若满足,则确定所述问答文本对为优质问答数据。根据本专利技术一优选实施例,所述问答文本对的文本特征包括:提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。本专利技术为解决技术问题所采用的技术方案是提供一种评价问答文本的装置,所述装置包括:第二获取单元,用于获取待识别的问答文本对;第三处理单元,用于通过语义评价模型获取所述问答文本对的语义得分;第四处理单元,用于提取所述问答文本对的文本特征;评价单元,用于将所述语义得分与文本特征作为问答文本评价模型的输入,将所述问答文本评价模型的输出结果作为所述问答文本对的问答得分。根据本专利技术一优选实施例,所述评价单元还用于进一步执行:判断所述问答得分是否满足预设要求,若满足,则确定所述问答文本对为优质问答数据。根据本专利技术一优选实施例,所述第四处理单元提取的问答文本对的文本特征包括:提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。由以上技术方案可以看出,本专利技术将问答文本对的语义信息和文本特征相结合,通过预先建立的问答文本评价模型对问答文本对进行评价的方式,减少了在评价问答文本时所需的成本,并提高了对优质问答文本的识别效果。【附图说明】图1为本专利技术一实施例提供的建立问答文本评价模型的方法流程图;图2为本专利技术一实施例提供的基于词袋的深度神经网络模型的框架图;图3为本专利技术一实施例提供的评价问答文本的方法流程图;图4为本专利技术一实施例提供的建立问答文本评价模型的装置结构图;图5为本专利技术一实施例提供的评价问答文本的装置结构图;图6为本专利技术一实施例提供的计算机系统/服务器的框图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。本专利技术的核心思想在于:通过利用问答文本对的语义信息以及文本特征,使用预先训练得到的问答文本评价模型确定该问答文本对的问答得分,进而根据该问答得分确定该问答文本对是否为优质问答数据。通过该评价方法,能够有效地识别各领域中优质的问答数据,相比于使用简单的人工定制规则来说,本专利技术所提供的评价方法具有更强的识别能力以及泛化能力。可以理解的是,当前的问答数据涵盖各个专业领域,例如医疗领域、科技领域、法律领域等,本文以评价的问答文本对为医疗领域的问答数据为例进行说明。图1为本专利技术一实施例提供的建立问答文本评价模型的方法流程图,如图1中所示,所述方法包括:在101中,获取已标记问答得分的问答文本对。在本步骤中,所获取的问答文本对中包含有提问文本以及回答文本。其中,提问文本记录用户对所提问题的描述,回答文本记录其他用户对用户所提问题的回答的描述。另外,本步骤中所获得的问答文本对已经预先标记其对应的问答得分,通过该标记的问答得分能够得知本文档来自技高网...
建立问答文本评价模型与评价问答文本的方法、装置

【技术保护点】
一种建立问答文本评价模型的方法,其特征在于,所述方法包括:获取已标记问答得分的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分以及文本特征作为输入,将所述已标记的问答得分作为输出,训练分类模型,得到问答文本评价模型。

【技术特征摘要】
1.一种建立问答文本评价模型的方法,其特征在于,所述方法包括:获取已标记问答得分的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分以及文本特征作为输入,将所述已标记的问答得分作为输出,训练分类模型,得到问答文本评价模型。2.根据权利要求1所述的方法,其特征在于,所述语义评价模型是通过如下方式预先训练得到的:获取已标记语义得分的问答文本对,所述问答文本对中包含提问文本以及回答文本;分别对提问文本以及回答文本进行切词处理;将所述提问文本以及回答文本的切词结果作为输入,将所述已标记的语义得分作为输出,训练神经网络模型,得到语义评价模型。3.根据权利要求1所述的方法,其特征在于,所述问答文本对的文本特征包括:提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。4.根据权利要求1所述的方法,其特征在于,所述分类模型为迭代决策树模型。5.根据权利要求2所述的方法,其特征在于,所述神经网络模型为基于词袋的深度神经网络模型。6.一种评价问答文本的方法,其特征在于,所述方法包括:获取待识别的问答文本对;通过语义评价模型获取所述问答文本对的语义得分;提取所述问答文本对的文本特征;将所述语义得分与文本特征作为问答文本评价模型的输入,将所述问答文本评价模型的输出结果作为所述问答文本对的问答得分。7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:判断所述问答得分是否满足预设要求,若满足,则确定所述问答文本对为优质问答数据。8.根据权利要求6所述的方法,其特征在于,所述问答文本对的文本特征包括:提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。9.一种建立问答文本评价模型的装置,其特征在于,所述装置包括:第一获取单元,用于获取已标记问答得分的问答文本对;第一处理单元,用于通过语义评价模型获取所述问答文本对的语义得分;第二处理单元,用于提取...

【专利技术属性】
技术研发人员:曹宇慧冯仕堃何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1