【技术实现步骤摘要】
一种使用序列标注进行识别文本分段的方法
本专利技术涉及文字处理
,特别是一种使用序列标注进行识别文本分段的方法。
技术介绍
随着人工智能时代的到来,对于机器理解大段文本能力的要求越来越高。长文本因其信息量复杂,书写方式多样等,机器很难直接对其进行理解,所以可以先对长文本进行分解,拆解出其关键性信息片段,然后再逐个对片段信息进行进一步抽取和刻画,采用分治思想的方式是目前业界的一种主流做法。在对长文本进行目标片段划分上,当前有使用多分类方式,即对子句建立多分类模型,然后基于规则或者模型在对子句进行连续性再拼接,构建成片段。但该方法缺乏上下文信息,对子句类型比较分散的情况难以应付。还有使用深度学习问答模型方法,该方法能够做到端到端识别,但其对数据量和数据质量有比较高的要求,同时计算复杂度也很高,应用成本较高。
技术实现思路
本专利技术的主要目的在于提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形 ...
【技术保护点】
1.一种使用序列标注进行识别文本分段的方法,其特征在于,包括步骤:/nA、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;/nB、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;/nC、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;/nD、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。/n
【技术特征摘要】
1.一种使用序列标注进行识别文本分段的方法,其特征在于,包括步骤:
A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;
B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;
C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;
D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;...
【专利技术属性】
技术研发人员:罗立刚,刘辉,张正宽,张天泽,常涛,王玲,
申请(专利权)人:零氪科技天津有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。