The present invention relates to a method and system for distinguishing a statement, the method comprises the following steps: normalization of a statement after the discriminant score calculation to get the current value; the current value and a preset values were compared, and if the current value is larger than the preset value, it is determined the discrimination statement for the award-winning descriptive statement. The sentence recognition method and system in the invention can accurately discriminate the award-winning description sentences in a large number of CVS at the same time, so as to screen the resume better, improving the data processing efficiency and meeting the practical application needs.
【技术实现步骤摘要】
一种语句判别方法与系统
本专利技术涉及语句判别
,特别涉及一种语句判别方法与系统。
技术介绍
众所周知的,在职场求职的过程中,简历被公认为求职成功的“敲门砖”。具体的,简历就是对个人学历、经历、特长、爱好及获奖情况等所作的简明扼要的书面介绍,是一种有针对性的自我介绍的规范化、逻辑化的书面表达。在简历的筛选过程中,常常需要对简历进行整体评分。而进行评分时求职者的获奖情况是一个十分重要的评分指标。获奖情况一般通过获奖描述性语句来进行详细描述。例如,常见的获奖描述性语句可以为“第八届全国信息技术应用水平大赛,获得“中兴杯”安卓智能终端创意团体赛全国二等奖,作品《水果忍者》手机UI主题。”在进行简历评分的过程中,识别简历中的一段文本是否为获奖描述性文本对简历的最终得分有着直接影响。一般的,现有的对简历进行评分一般采用人工的方式进行,通过人工查询简历中的获奖描述语句(例如语句中包含“大赛”以及“二等奖”词汇即可判断该语句为获奖描述语句)进而对简历进行评分。但是此方法仅适用于数据工作量较小的情况,当所需要处理的简历量非常大时,通过人工查阅评分的方法无疑费时费力,尤其在当前大数据的环境下,无法满足实际应用需求。
技术实现思路
基于此,本专利技术的目的是提出一种新型的语句判别方法与系统,可同时对大量简历中的获奖描述语句进行准确判别,在很大程度上提高了数据处理效率,满足了实际应用需求。本专利技术提出一种语句判别方法,其中,所述方法包括如下步骤:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则 ...
【技术保护点】
一种语句判别方法,其特征在于,包括如下步骤:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。
【技术特征摘要】
1.一种语句判别方法,其特征在于,包括如下步骤:对一待判别语句进行归一化处理后进行分值计算以得到一当前分值;将所述当前分值与一预设分值进行比较,若所述当前分值大于所述预设分值,则确定所述待判别语句为所述获奖描述性语句。2.根据权利要求1所述的语句判别方法,其特征在于,对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型,其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立,当所述N-gram获奖判别模型中N的值为3时,所述N-gram获奖判别模型为trigram获奖判别模型,所述trigram获奖判别模型的表达式具体为:其中,P(wi|wi-2wi-1)为已知第i-1以及第i-2个词的情况下,第i个词出现的概率,P(wi|wi-1)为已知第i-1个词的情况下,第i个词出现的概率,P(wi)为第i个词单独出现的概率,C(wi-2wi-1wi)>0为第i、第i-1以及第i-2个词同时出现的次数,C(wi-2wi-1wi)=0且C(wi-1wi)>0为第i以及第i-1个词同时出现的次数,αP(wi),C(wi-1wi)=0且C(wi)>0为第i个词单独出现的次数,α为回溯权值,对应的值为0.45。3.根据权利要求2所述的语句判别方法,其特征在于,所述对一待判别语句进行归一化处理后进行分值计算以得到一当前分值的步骤包括:基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理;根据公式对所述待判别语句进行分值计算以得到所述当前分值,其中Score(Snew)为所述待判别语句的所述当前分值,L(S)为所述待判别语句中词的个数。4.根据权利要求2所述的语句判别方法,其特征在于,所述将预设获奖描述性语句经分词处理的步骤包括:将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇;在经拆分后的所述预设获奖性描述性语句的句首以及句末分别插入标志性字符。5.根据权利要求1所述的语句判别方法,其特征在于,所述预设分值为-5。6.一种语句判别系统,其...
【专利技术属性】
技术研发人员:王鹏,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。