建立问答文本评价模型与评价问答文本的方法、装置制造方法及图纸

技术编号：18083984 阅读：27 留言：0更新日期：2018-05-31 12:29

本发明专利技术提供一种建立问答文本评价模型的方法，该方法包括：获取已标记问答得分的问答文本对；通过语义评价模型获取所述问答文本对的语义得分；提取所述问答文本对的文本特征；将所述语义得分以及文本特征作为输入，将所述已标记的问答得分作为输出，训练分类模型，得到问答文本评价模型。本发明专利技术提供一种评价问答文本的方法，该方法包括：获取待识别的问答文本对；通过语义评价模型获取所述问答文本对的语义得分；提取所述问答文本对的文本特征；将所述语义得分与文本特征作为问答文本评价模型的输入，将所述问答文本评价模型的输出结果作为所述问答文本对的问答得分。本发明专利技术能够减少评价问答文本时所需的成本，并提高对优质问答文本的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
建立问答文本评价模型与评价问答文本的方法、装置
本专利技术涉及自然语言处理技术，尤其涉及一种建立问答文本评价模型与评价问答文本的方法、装置。
技术介绍
现有网页中存在大量的问答文本，其中问答文本涉及各个领域，例如医学领域、科技领域等各个专业领域。而在现有网页中存在的各种问答文本的质量参差不齐，因此无法给用户带来良好的借鉴意义。现有技术在对问答文本中的优质文本进行鉴别时，通常采用人工定制规则的方法进行鉴别。但是，基于人工定制规则的方法不具有泛化能力，对于定制规则以外的问答数据无法识别是否为优质问答数据，因此对优质问答数据的覆盖率较低；此外，人工定制规则的成本较高。因此，亟需提供一种能够有效评价问答问答的方法。
技术实现思路
有鉴于此，本专利技术提供了一种建立问答文本评价模型与评价问答文本的方法和装置，用于减少评价问答文本的成本，并提高对优质问答文本的识别效果。本专利技术为解决技术问题所采用的技术方案是提供一种建立问答文本评价模型的方法，所述方法包括：获取已标记问答得分的问答文本对；通过语义评价模型获取所述问答文本对的语义得分；提取所述问答文本对的文本特征；将所述语义得分以及文本特征作为输入，将所述已标记的问答得分作为输出，训练分类模型，得到问答文本评价模型。根据本专利技术一优选实施例，所述语义评价模型是通过如下方式预先训练得到的：获取已标记语义得分的问答文本对，所述问答文本对中包含提问文本以及回答文本；分别对提问文本以及回答文本进行切词处理；将所述提问文本以及回答文本的切词结果作为输入，将所述已标记的语义得分作为输出，训练神经网络模型，得到语义评价模...
建立问答文本评价模型与评价问答文本的方法、装置

【技术保护点】
一种建立问答文本评价模型的方法，其特征在于，所述方法包括：获取已标记问答得分的问答文本对；通过语义评价模型获取所述问答文本对的语义得分；提取所述问答文本对的文本特征；将所述语义得分以及文本特征作为输入，将所述已标记的问答得分作为输出，训练分类模型，得到问答文本评价模型。

【技术特征摘要】
1.一种建立问答文本评价模型的方法，其特征在于，所述方法包括：获取已标记问答得分的问答文本对；通过语义评价模型获取所述问答文本对的语义得分；提取所述问答文本对的文本特征；将所述语义得分以及文本特征作为输入，将所述已标记的问答得分作为输出，训练分类模型，得到问答文本评价模型。2.根据权利要求1所述的方法，其特征在于，所述语义评价模型是通过如下方式预先训练得到的：获取已标记语义得分的问答文本对，所述问答文本对中包含提问文本以及回答文本；分别对提问文本以及回答文本进行切词处理；将所述提问文本以及回答文本的切词结果作为输入，将所述已标记的语义得分作为输出，训练神经网络模型，得到语义评价模型。3.根据权利要求1所述的方法，其特征在于，所述问答文本对的文本特征包括：提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。4.根据权利要求1所述的方法，其特征在于，所述分类模型为迭代决策树模型。5.根据权利要求2所述的方法，其特征在于，所述神经网络模型为基于词袋的深度神经网络模型。6.一种评价问答文本的方法，其特征在于，所述方法包括：获取待识别的问答文本对；通过语义评价模型获取所述问答文本对的语义得分；提取所述问答文本对的文本特征；将所述语义得分与文本特征作为问答文本评价模型的输入，将所述问答文本评价模型的输出结果作为所述问答文本对的问答得分。7.根据权利要求6所述的方法，其特征在于，该方法进一步包括：判断所述问答得分是否满足预设要求，若满足，则确定所述问答文本对为优质问答数据。8.根据权利要求6所述的方法，其特征在于，所述问答文本对的文本特征包括：提问文本中专业实体词的数量、回答文本中意图词的数量、回答文本的长度以及提问文本与回答文本的匹配度中的至少一种。9.一种建立问答文本评价模型的装置，其特征在于，所述装置包括：第一获取单元，用于获取已标记问答得分的问答文本对；第一处理单元，用于通过语义评价模型获取所述问答文本对的语义得分；第二处理单元，用于提取...

【专利技术属性】
技术研发人员：曹宇慧，冯仕堃，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人