一种信息提取方法及装置制造方法及图纸

技术编号:16152898 阅读:37 留言:0更新日期:2017-09-06 18:18
本申请公开了一种信息提取方法及装置,该方法包括:获取原始信息,对该原始信息进行分词处理,得到该原始信息中的各分词,并按各分词在该原始信息中的排序,确定由各分词构成的分词序列,根据该分词序列,确定每个分词各自对应的观察特征序列,根据每个分词各自对应的各观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签,根据确定的各分词的分类标签,从该原始信息中提取所需信息。通过上述方法,无论待提取的信息是否是按照固定的信息格式构成的,都可以有效的将用户所需的信息提取出来,提高了信息提取的准确率。

【技术实现步骤摘要】
一种信息提取方法及装置
本申请涉及计算机
,尤其涉及一种信息提取方法及装置。
技术介绍
随着网络技术的不断发展,用户所能够获取到的信息也越来越多,但是,用户所获取到的信息中通常只有部分信息是用户真正所需的信息,因此,需要将用户真正所需的信息提取出来,如,在整理法院的判处书时,通常是需要将判决书中所包含的诉讼当事人、诉讼时间、判决结果等信息整理出来,因此,需要将判决书中所包含的诉讼当事人、诉讼时间、判决结果等信息提取出来。目前,每个领域的信息通常都是按照一定的信息格式展示给用户的,因此,在现有技术中,当需要将用户真正所需的信息提取出来时,可预先设置用于信息提取的模板,其中,模板上携带有固定的信息格式,通过该模板可将待提取的信息中用户所需的信息提取出来。但是,模板在设计完成后通常都是固定不变的,如果待提取的信息存在不规范的情况,则会导致信息提取的准确率较低,如,模板中设计的格式为“原告:XXX”,当服务器在待提取的信息中识别出“原告:”后,直接将“原告:”后的信息提取出来,但是,当待提取的信息为“原告是XX”时,则服务器就无法识别出原告的姓名并提取,而且,有些领域的信息不存在特定的本文档来自技高网...
一种信息提取方法及装置

【技术保护点】
一种信息提取方法,其特征在于,所述方法包括:获取原始信息;对所述原始信息进行分词处理,得到所述原始信息中的各分词;按各分词在所述原始信息中的排序,确定由各分词构成的分词序列;根据所述分词序列,确定所述每个分词各自对应的观察特征序列;根据所述每个分词各自对应的观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签;根据确定的各分词的分类标签,从所述原始信息中提取所需信息。

【技术特征摘要】
1.一种信息提取方法,其特征在于,所述方法包括:获取原始信息;对所述原始信息进行分词处理,得到所述原始信息中的各分词;按各分词在所述原始信息中的排序,确定由各分词构成的分词序列;根据所述分词序列,确定所述每个分词各自对应的观察特征序列;根据所述每个分词各自对应的观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签;根据确定的各分词的分类标签,从所述原始信息中提取所需信息。2.如权利要求1所述的方法,其特征在于,在确定所述每个分词各自对应的观察特征序列之前,所述方法还包括:确定所述分词序列中每个分词的词性;根据所述分词序列,确定所述每个分词各自对应的观察特征序列,具体包括:根据所述分词序列中的分词内容、分词词序以及分词词性,确定所述每个分词各自对应的观察特征序列。3.如权利要求1所述的方法,其特征在于,预先建立条件随机场模型,具体包括:预先获取样本信息;对所述样本信息进行分词,得到所述样本信息中的各分词;按各分词在所述样本信息中的排序,确定由各分词构成的样本序列;确定所述样本序列中各分词的词性;根据所述样本序列中各分词的排序、各分词的词性以及已知的各分词的分类标签,训练得到条件随机场模型。4.如权利要求1所述的方法,其特征在于,确定出使各观察特征序列的联合概率最大的每个分词的分类标签,具体包括:根据公式确定出使P(y|x,λ)最大的每个分词的分类标签分类标签,其中,Z(x)表示为归一化函数,λj表示第j个特征函数对应的权重,fj表示所述条件随机场模型中的第j个特征函数,yi-1表示所述分词序列中第i-1个分词对应的分类标签,yi表示所述分词序列中第i个分词对应的分类标签,x表示每个分词各自对应的观察特征序列。5.如权利要求1所述的方法,其特征在于,根据确定的各分词的分类标签,从所述原始信息中提取所需信息,具体包括:确定所需信息对应的分类标签,作为指定标签;从所述原始信息中提取所述指定标签对应的信息。6.一...

【专利技术属性】
技术研发人员:景艺亮代斌隋豌辰赵科科王晓光杨旭蔡宁张凯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1