本发明专利技术提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,对映射后的簇序列训练序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。通过样本集合为数据库范本,进行标准化建模。在后续识别文本分段时,把对待分段文本中的句式模型进行标准化,而后依据模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。
A method of text segmentation recognition using sequence annotation
【技术实现步骤摘要】
一种使用序列标注进行识别文本分段的方法
本专利技术涉及文字处理
,特别是一种使用序列标注进行识别文本分段的方法。
技术介绍
随着人工智能时代的到来,对于机器理解大段文本能力的要求越来越高。长文本因其信息量复杂,书写方式多样等,机器很难直接对其进行理解,所以可以先对长文本进行分解,拆解出其关键性信息片段,然后再逐个对片段信息进行进一步抽取和刻画,采用分治思想的方式是目前业界的一种主流做法。在对长文本进行目标片段划分上,当前有使用多分类方式,即对子句建立多分类模型,然后基于规则或者模型在对子句进行连续性再拼接,构建成片段。但该方法缺乏上下文信息,对子句类型比较分散的情况难以应付。还有使用深度学习问答模型方法,该方法能够做到端到端识别,但其对数据量和数据质量有比较高的要求,同时计算复杂度也很高,应用成本较高。
技术实现思路
本专利技术的主要目的在于提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。由上,通过以样本集合为数据库范本,建立将表示相同语义的不同句式进行标准序列化的模型,以及建立序列与语句特征映射关系的模型,从而进行标准化建模。在后续对待分段的文本进行识别文本分段时,首先把对待分段文本中的各种句式依据标准序列化的模型进行标准化,而后依据序列与语句特征映射关系的模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。其中,所述步骤A包括:对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;分别对各子句中的词向量进行平均值计算,得出该各子句的语义特征向量。由上,通过采用对组成句子的各单词词义向量的获取,进而计算出句子的语义特征向量。其中,所述步骤D包括:将待分段的文本切分为待分段子句集合,采用语义特征向量标注所述子句集合以形成待分段语义特征向量集合;采用聚类模型对所述待分段语义特征向量的标注集合进行验算,以确定出各子句的簇编号;采用序列标注模型对各子句所属的簇编号进行映射,以对所述各子句进行文字段的构建,确定出构建文本的各个片段。由上,对待分段的文本进行识别文本分段时,首先将其采用与语义特征向量的标注集合相同的格式进行标准化,其次将标准化的各子句进行语义特征的映射,从而完成对待分段的文本的识别。其中,所述样本集合和为历史病历;所述待分段的文本为新病历。附图说明图1为使用序列标注进行识别文本分段的方法的流程图。具体实施方式下面参见图1对本专利技术所述的使用序列标注进行识别文本分段的方法进行详细说明,包括由步骤S100~S400组成的建模训练阶段、步骤S500的识别文本分段阶段和步骤S600的应用阶段,详细说明如下:S100:对文本切分成若干子句,获取各子句的语义特征向量的集合。设语料样本集合S1,该集合S1中包括多个文字段,各文字段表述为Pi,i为大于或等于1的自然数。对所述文字段Pi按标点符号进行切分,得到子句Sij,二者的逻辑关系为Pi=Si1、Si2、……、Sij。所述子句Sij构成一形容不同文字段的标注(token)集合S2。例如在一段话中,一些语句是检查描述(对应为该段的开始),一些语句是病理描述(对应为该段的结束);或者一些语句是入院情况(开始),一些语句是治疗情况(中间过程),一些语句是出院情况(结束);又或者一些语句是描述患病症状(开始),一些语句是描述痊愈表现(结束)等等。由此会有不同的文字段。对各所述子句Sij进行分词,得到Wijk,k为大于或等于1的自然数。所述分词结果Wijk构成词粒度集合W1。对所述词粒度集合W1进行词向量提取,得出词向量Wijk_vec。所述词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。本实施例中,对于词向量提取可采用Word2vec模型实现,该模型是google在2013年推出,特点是将所有的词向量化,这样词与词之间就可以定量度量彼此之间的关系。举个例子,红细胞计数、血红蛋白、平均红细胞体积、白细胞计数、血小板这些名词各对应一个向量,向量中只有一个值为1,其余都为0。可见,这些名词之间是没有交集的。但经过Word2vec模型进行词向量提取后,使上述各名词产生关联,例如以在人体内的存量这一一维变量建立联系从而以向量形式表示;又或者同时以在人体内的存量、以及所占重量或更新速度等三维数据建立联系从而以向量形式表示等等。又例如,在一段病历中,一般包括患者的身份信息,病情叙述、检查内容和分析结果。采用词向量提取,便可以将各个名词与上述不同过程建立相关性。例如分词包括张三、45岁、男、血液检测、血糖高总共五个分词。则张三、45岁、男三个分词便跟身份信息的关联性最强,而跟病情叙述、检查内容和分析结果两个过程的相关性较弱。另外,对于语义特征向量的获取还可采用例如潜在语义分析(LSA,LatentSemanticAnalysis)等其他方法进行,在此不进行限定。使用采用平均值算法得到句子语义特征向量Sij_vec,Sij_vec=Average(Wijk_vec)。从而形成语义特征向量的集合S3。S200:对所述语义特征向量的集合进行聚类训练,得到聚类模型。通过对各子句语义特征向量的识别,将语义特征相同或者近似的子句划归为同一类。本实施例中,对语义特征向量的集合S3进行聚类训练采用K-means算法,其基本原理是基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。本步骤对语义特征向量的集合S3进行聚类训练的训练结果得到聚类模型M1,聚类簇为K。即从j个子句中随机选取K个作为质心;对剩余的每个子句测量其到每个质心的距离,并把它归到最近的质心的类;重新计算已经得到的各个类的质心;迭代执行前述两步,直至新的质心与原质心相等或小于指定阈值。S300:对所述标注集合S2按照聚类模型进行编号以形成序列模型。对所述标注集合S2根据聚类模型M1进行验算,从而可以推断出各子句Sij所属的簇编号,所述簇编号表示为cid,由此将所述标注集合S2转换为簇编号序列,表示为Sij_cid。由于常用汉字约为6000例,这其中包括了单字间的组合、单词间的组合、单句间的组合以及三者之间的结合,可以说组合形式千变万化。即,对于同一种病理描述的表达,可能有前种万种,例如同样是对感冒的描述,可能存在“疑似感冒”本文档来自技高网...
【技术保护点】
1.一种使用序列标注进行识别文本分段的方法,其特征在于,包括步骤:/nA、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;/nB、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;/nC、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;/nD、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。/n
【技术特征摘要】
1.一种使用序列标注进行识别文本分段的方法,其特征在于,包括步骤:
A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;
B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;
C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;
D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;...
【专利技术属性】
技术研发人员:罗立刚,刘辉,张正宽,张天泽,常涛,王玲,
申请(专利权)人:零氪科技天津有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。