一种语句判别方法与系统技术方案

技术编号:16700704 阅读:40 留言:0更新日期:2017-12-02 13:02
本发明专利技术涉及一种语句判别方法与系统,所述方法包括:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。本发明专利技术的语句判别方法与系统在实际应用中可同时对大量简历中的获奖描述语句进行准确判别,从而更快地对简历进行筛选,在很大程度上提高了数据处理效率,满足了实际应用需求。

A sentence discriminant method and system

The present invention relates to a method and system for distinguishing a statement, the method comprises the following steps: normalization of a statement after the discriminant score calculation to get the current value; the current value and a preset values were compared, and if the current value is larger than the preset value, it is determined the discrimination statement for the award-winning descriptive statement. The sentence recognition method and system in the invention can accurately discriminate the award-winning description sentences in a large number of CVS at the same time, so as to screen the resume better, improving the data processing efficiency and meeting the practical application needs.

【技术实现步骤摘要】
一种语句判别方法与系统
本专利技术涉及语句判别
,特别涉及一种语句判别方法与系统。
技术介绍
众所周知的,在职场求职的过程中,简历被公认为求职成功的“敲门砖”。具体的,简历就是对个人学历、经历、特长、爱好及获奖情况等所作的简明扼要的书面介绍,是一种有针对性的自我介绍的规范化、逻辑化的书面表达。在简历的筛选过程中,常常需要对简历进行整体评分。而进行评分时求职者的获奖情况是一个十分重要的评分指标。获奖情况一般通过获奖描述性语句来进行详细描述。例如,常见的获奖描述性语句可以为“第八届全国信息技术应用水平大赛,获得“中兴杯”安卓智能终端创意团体赛全国二等奖,作品《水果忍者》手机UI主题。”在进行简历评分的过程中,识别简历中的一段文本是否为获奖描述性文本对简历的最终得分有着直接影响。一般的,现有的对简历进行评分一般采用人工的方式进行,通过人工查询简历中的获奖描述语句(例如语句中包含“大赛”以及“二等奖”词汇即可判断该语句为获奖描述语句)进而对简历进行评分。但是此方法仅适用于数据工作量较小的情况,当所需要处理的简历量非常大时,通过人工查阅评分的方法无疑费时费力,尤其在当前大数据的环境下,无法满足实际应用需求。
技术实现思路
基于此,本专利技术的目的是提出一种新型的语句判别方法与系统,可同时对大量简历中的获奖描述语句进行准确判别,在很大程度上提高了数据处理效率,满足了实际应用需求。本专利技术提出一种语句判别方法,其中,所述方法包括如下步骤:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。所述语句判别方法,其中,对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型,其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立,当所述N-gram获奖判别模型中N的值为3时,所述N-gram获奖判别模型为trigram获奖判别模型,所述trigram获奖判别模型的表达式具体为:其中,P(wi|wi-2wi-1)为已知第i-1以及第i-2个词的情况下,第i个词出现的概率,P(wi|wi-1)为已知第i-1个词的情况下,第i个词出现的概率,P(wi)为第i个词单独出现的概率,C(wi-2wi-1wi)>0为第i、第i-1以及第i-2个词同时出现的次数,C(wi-2wi-1wi)=0且C(wi-1wi)>0为第i以及第i-1个词同时出现的次数,αP(wi),C(wi-1wi)=0且C(wi)>0为第i个词单独出现的次数,α为回溯权值,对应的值为0.45。所述语句判别方法,其中,对一待判别语句进行归一化处理后进行分值计算以得到一当前分值的步骤包括:基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理;根据公式对所述待判别语句进行分值计算以得到所述当前分值,其中Score(Snew)为所述待判别语句的所述当前分值,L(S)为所述待判别语句中词的个数。所述语句判别方法,其中,所述将预设获奖描述性语句经分词处理的步骤包括:将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇;在经拆分后的所述预设获奖性描述性语句的句首以及句末分别插入标志性字符。所述语句判别方法,其中,所述预设分值为-5。本专利技术还提出一种语句判别系统,其中,所述系统包括:分值计算模块,用于对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;获奖判别模块,用于将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。所述语句判别系统,其中,对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型,其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立,当所述N-gram获奖判别模型中N的值为3时,所述N-gram获奖判别模型为trigram获奖判别模型,所述trigram获奖判别模型的表达式具体为:其中,P(wi|wi-2wi-1)为已知第i-1以及第i-2个词的情况下,第i个词出现的概率,P(wi|wi-1)为已知第i-1个词的情况下,第i个词出现的概率,P(wi)为第i个词单独出现的概率,C(wi-2wi-1wi)>0为第i、第i-1以及第i-2个词同时出现的次数,C(wi-2wi-1wi)=0且C(wi-1wi)>0为第i以及第i-1个词同时出现的次数,αP(wi),C(wi-1wi)=0且C(wi)>0为第i个词单独出现的次数,α为回溯权值,对应的值为0.45。所述语句判别系统,其中,所述分值计算模块包括:归一化单元,用于基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理;分值计算单元,用于根据公式对所述待判别语句进行分值计算以得到所述当前分值,其中Score(Snew)为所述待判别语句的所述当前分值,L(S)为所述待判别语句中词的个数。所述语句判别系统,其中,所述分值计算模块还包括一分词模块,所述分词模块包括:分词单元,用于将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇;字符插入单元,用于在经拆分后的所述预设获奖性描述性语句的句首以及句末分别插入标志性字符。所述语句判别系统,其中,所述预设分值为-5。本专利技术提出的一种语句判别方法与系统,在实际应用中先将待判别语句输入到N-gram获奖判别模型中,然后该N-gram获奖判别模型对待判别语句进行评分作业,将所得到的分值与预设分值进行比较便可判定该待判别语句是否为获奖描述语句。本专利技术的语句判别方法与系统可同时对大量简历中的获奖描述语句进行准确判别,从而更快地对简历进行筛选,在很大程度上提高了数据处理效率,满足了实际应用需求。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1为本专利技术第一实施例中语句判别方法的原理框图;图2为本专利技术第二实施例中语句判别方法的流程图;图3为本专利技术第三实施例中语句判别系统的的结构示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的首选实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。请参阅图1,对于第一实施例中的语句判别方法,用于判断一语句是否为获奖描述性语句,其中,所述方法包括如下步骤:S101,对一待判别语句进行归一化处理后进行分值计算以得到一当前分值。具体的,在本专利技术中,首先需要根据预设获奖描述性语句根据N-gram算法建立对应的N-gram获奖判别模型。例如,假设预设获奖描述性语句为“第十二届全国研究生数学建模竞赛三等奖”,经本文档来自技高网
...
一种语句判别方法与系统

【技术保护点】
一种语句判别方法,其特征在于,包括如下步骤:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。

【技术特征摘要】
1.一种语句判别方法,其特征在于,包括如下步骤:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。2.根据权利要求1所述的语句判别方法,其特征在于,对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型,其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立,当所述N-gram获奖判别模型中N的值为3时,所述N-gram获奖判别模型为trigram获奖判别模型,所述trigram获奖判别模型的表达式具体为:其中,P(wi|wi-2wi-1)为已知第i-1以及第i-2个词的情况下,第i个词出现的概率,P(wi|wi-1)为已知第i-1个词的情况下,第i个词出现的概率,P(wi)为第i个词单独出现的概率,C(wi-2wi-1wi)>0为第i、第i-1以及第i-2个词同时出现的次数,C(wi-2wi-1wi)=0且C(wi-1wi)>0为第i以及第i-1个词同时出现的次数,αP(wi),C(wi-1wi)=0且C(wi)>0为第i个词单独出现的次数,α为回溯权值,对应的值为0.45。3.根据权利要求2所述的语句判别方法,其特征在于,所述对一待判别语句进行归一化处理后进行分值计算以得到一当前分值的步骤包括:基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理;根据公式对所述待判别语句进行分值计算以得到所述当前分值,其中Score(Snew)为所述待判别语句的所述当前分值,L(S)为所述待判别语句中词的个数。4.根据权利要求2所述的语句判别方法,其特征在于,所述将预设获奖描述性语句经分词处理的步骤包括:将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇;在经拆分后的所述预设获奖性描述性语句的句首以及句末分别插入标志性字符。5.根据权利要求1所述的语句判别方法,其特征在于,所述预设分值为-5。6.一种语句判别系统,其...

【专利技术属性】
技术研发人员:王鹏
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1