【技术实现步骤摘要】
一种文本提取方法、装置、设备及介质
本专利技术涉及自然语言处理
,尤其涉及一种文本提取方法、装置、设备及介质。
技术介绍
目前,评论分析时自然语言处理领域的热门问题。评论分析的目的是从用户评论文本中抽取多个属性的态度评价。通常用户的评论文本是较长文本(由多个语句构成的评论文本),并且会包含多个属性的评价文本,通过属性的评价文本可以确定用户对该属性的评价态度。现有技术通过分类模型确定出的一个属性评价态度的分类,会对确定其他属性评价态度的分类产生影响。例如,一个关于酒店评论文本“这个酒店装修不错位置一般我找了半天才找到,早餐还是挺好吃的,但是价格贼贵”。其中,“不错”是一个积极评价态度,若分类模型确定属性“位置”的评价态度为积极评价态度,则影响了属性“装修”的评价态度。若在分类模型进行对属性的评价态度分类之前,利用序列标注模型先确定文本中包含哪些属性的评价态度,然后将确定的属性输入到该属性对应的分类模型中确定文本关于该属性的态度评价,这将需要大量的被标注出每种属性的文本作为训练序列标注模型,也意味着需要大量的标注成 ...
【技术保护点】
1.一种文本提取方法,其特征在于,所述方法包括:/n获取目标场景的目标文本,所述目标场景对应预设数量个场景属性;/n利用预先训练的位置确定模型确定场景属性对应的属性评价文本在所述目标文本中的位置,所述位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的;/n根据所述场景属性对应的属性评价文本在所述目标文本中的位置,提取场景属性对应的属性评论文本。/n
【技术特征摘要】
1.一种文本提取方法,其特征在于,所述方法包括:
获取目标场景的目标文本,所述目标场景对应预设数量个场景属性;
利用预先训练的位置确定模型确定场景属性对应的属性评价文本在所述目标文本中的位置,所述位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的;
根据所述场景属性对应的属性评价文本在所述目标文本中的位置,提取场景属性对应的属性评论文本。
2.根据权利要求1所述的方法,其特征在于,所述位置确定模型,采用如下步骤训练:
以所述目标场景的第一文本样本、设置的第一文本样本的场景属性标记、设置的场景属性对应的属性评论文本在第一文本样本中的位置,作为所述关系确定模型的输入,以所述场景属性对应的属性评论文本在第一文本样本中的位置作为所述关系确定模型的输出,对关系确定模型进行训练,将训练后的关系确定模型作为所述位置确定模型。
3.根据权利要求2所述的方法,其特征在于,所述关系确定模型,采用如下步骤确定:
将包含多个第二样本的第二样本集合,以及设置的所述第二样本集合中任意两个第二文本样本之间的文本关联关系作为输入,将所述第二样本集合中任意两个第二文本样本之间的文本关联关系作为输出,对所述第一神经网络模型进行训练,使文本关系确定准确率大于第一预设准确率;
将训练后的第一神经网络模型确定为所述关系确定模型;
其中,所述第一文本样本数量与所述第二文本样本数量的比值小于第一数值。
4.根据权利要求3所述的方法,其特征在于,所述将训练后的第一神经网络模型确定为所述关系确定模型之前,所述方法还包括:
从第三文本样本集合中选取多个第三文本,并删除选取的第三文本中的至少一部分内容,将包含删除部分内容的第三文本的第三文本样本集合作为所述第一神经网络模型的输入,并将第三文本作为输出,对所述第一神经网络模型进行训练,使文本填充准确率大于第二预设准确率;
其中,所述第一文本样本数量与所述...
【专利技术属性】
技术研发人员:游程,陈孝良,苏少炜,常乐,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。