【技术实现步骤摘要】
文本功能区域拆分方法、装置、计算机设备及存储介质
[0001]本专利技术涉及大数据科学领域,特别涉及一种文本功能区域拆分方法、装置、计算机设备及存储介质。
技术介绍
[0002]法律文书在语义上是有明确的功能段落划分的,现有的分析手段多基于正则的专家模式去进行分析,一方面在段落的划分上无法使用上下文的语义关联,准确率较低不符合自然意义上的段落划分,另一方面在遇到大的文本时分析会特别慢,效率低,而人工智能技术的出现为大数据的数据分析和数据价值挖掘提供的了一种较佳的解决方案。
[0003]现有的人工智能技术在文本处理方面存在的问题是在文本距离过长的情况下无法关联语义,并且在法律文书中自然段落的开始行、结束行的表述特征在往往比较相近,只结合特征行的上下文错误率会较高,因此亟需一种能够提高特征判断准确率的方法。
技术实现思路
[0004]基于此,本申请实施例提供了一种文本功能区域拆分方法、装置、计算机设备及存储介质,用于解决现有段落划分不够准确和效率低、速度慢的问题
[0005]第一方面,提供了一种文 ...
【技术保护点】
【技术特征摘要】
1.一种文本功能区域拆分方法,其特征在于,所述方法包括:获取待拆分文本;将所述待拆分文本输入至预先训练得到的神经网络模型中,得到所述神经网络模型输出的初始特征行;基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行;将所述合并特征行输入至所述神经网络模型中,得到目标特征行;根据所述目标特征行对所述待拆分文本进行拆分。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练方式包括:获取训练文本,通过预设的关键字对所述训练文本进行标注得到初始特征行;根据所述初始特征行及所述初始特征行在所述训练文本中的上下文信息得到合并特征行;通过正样本集和负样本集对所述神经网络模型进行训练,其中,所述正样本集包括所述初始特征行与所述合并特征行,所述负样本集包括所述训练文本中非正样本集的所有行。3.根据权利要求1所述的方法,其特征在于,所述合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行,将所述合并特征行输入至所述神经网络模型中,得到目标特征行,包括:将所述第一合并特征行输入至所述神经网络模型中,得到第一目标特征行,根据所述第一目标特征行以及所述第一目标特征行在所述待拆分文本中的上下文信息得到第二合并特征行;将所述第二合并特征行输入至所述神经网络模型中,得到第二目标特征行,根据所述第二目标特征行以及所述第二目标特征行在所述待拆分文本中的上下文信息得到第三合并特征行;将所述第三合并特征行输入至所述神经网络模型中,得到目标特征行。4.根据权利要求3所述的方法,其特征在于,所述第一合并特征行,基于初始特征行以及所述初始特征行在待拆分文本中的上一行文本进行合并得到。5.根据权利要求3...
【专利技术属性】
技术研发人员:麦天骥,
申请(专利权)人:北京市律典通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。