一种从工单中提取新词的方法和装置制造方法及图纸

技术编号:15045440 阅读:54 留言:0更新日期:2017-04-05 17:54
本发明专利技术公开了一种从工单中提取新词的方法和装置。所述方法包括:获取根据项目的历史工单生成的词频库;对待处理的工单进行分词得到分词词语;对分词词语顺序地两两相邻地进行二元合并得到候选词语,并从词频库中获得每个候选词语的词频;根据候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,从合并结果中提取合并词语作为本次工单的新词。本发明专利技术结合通用分词原理和词频统计的分词原理对待处理工单进行新词提取,通过识别通用分词方式未识别到的词语,扩大新词提取的选择范围,并提高新词提取的准确性。

【技术实现步骤摘要】

本专利技术涉及中文自然语言处理
,特别涉及一种从工单中提取新词的方法和装置
技术介绍
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键,而分词处理又是词语提取的关键。目前,中文分词工具主要可分为基于词典的分词、基于标注文章的分词(ConditionalRandomField,CRF)和基于词频统计的分词三种技术方案。其中,基于词典的分词方式:主要是通过人工整理词语列表作为词典,只有词典中的词才能被识别。该方案的优点是原理和技术实现都很简单;缺点是完全依靠人工识别整理词语,词语数量有限,如果想达到满意的效果,需要耗费大量人工成本进行词语收集,此外不同专业领域所涉及的专业名词,很难收录进来,并且对一些特殊情况无法处理。基于标注文章的分词方式:是目前比较流行的分词方式,通过人工对文章进行分词标注形成语料库,通过对语料库中的语料进行机器学习生产分词模型,依据分词模型对工单进行分词。该方案的语料库作为一个通用标注,具有通用性,可以针对新的语料进行学习,不断地丰富词库,具有分词效果稳定、错词少的优点;但由于该方案只是基于词典分词的改进,依然无法摆脱前期需要进行人工识别的问题,并且基于标注文件的分词方法还是一种人工监督的技术方案,需要占用大量的人力成本。基于词频统计的分词方式:是基于文章中词语出现次数和位置关系的一种分词方式,通过比较相邻词两个词语的词频,获得分词词语。该技术方案是一种完全无监督的分词方法,可以识别出人工未收录的词语,但由于自然语言变化的多样性,通常会出现一些违反基础原理的情况,因此基于词频统计的分词方法容易造成分词错误。由上可以看出,由于目前的分词方式都具有一定缺陷,导致难以准确合理地提取文章新词。因此,亟需一种新的词语提取方式。
技术实现思路
鉴于上述问题,本专利技术提出了一种从工单中提取新词的方法和装置,以便克服上述问题或者至少部分地解决上述问题。本专利技术的技术方案是这样实现的:一方面,本专利技术提供了一种从工单中提取新词的方法,所述方法包括:获取根据项目的历史工单生成的词频库;对待处理的工单进行分词得到分词词语;对所述分词词语顺序地两两相邻地进行二元合并得到候选词语,并从所述词频库中获得每个候选词语的词频;根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,并从所述合并结果中提取合并词语作为本次工单的新词。优选地,所述根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,包括:根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语按照预定合并规则进行判断并处理,其中所述预定合并规则包括第一合并规则、第二合并规则和第三合并规则;当所述每三个相邻分词词语对应的两个候选词语符合第一合并规则时,对所述三个相邻分词按照第一合并规则处理,不对所述三个相邻分词词语按照第二合并规则和/或第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则时,则判断是否符合第二合并规则,当符合第二合并规则时,对所述三个相邻分词按照第二合并规则处理,不对所述三个相邻分词词语按照第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则同时也不符合第二合并规则时,则判断是否符合第三合并规则,当符合第三合并规则时,对所述三个相邻分词按照第三合并规则处理。进一步优选地,所述第一合并规则为:若两个候选词语的词频均大于设定的词频阈值,且所述两个候选词语的词频差值的绝对值小于所述两个候选词语中任一个候选词语的词频与预定因子的乘积,则设置前一词语位和中间词语位为空,并用所述两个候选词语的合并词语更新后一词语位的词语,其中预定因子大于0且小于1;所述第二合并规则为:若前一候选词语的词频大于后一候选词语的词频,则用前一词语位存储的分词词语与中间词语位存储的分词词语的合并词语更新前一词语位的词语,并设置中间词语位为空,不更新后一词语位的词语;所述第三合并规则为:若前一候选词语的词频小于后一候选词语的词频,则用中间词语位存储的分词词语和后一词语位存储的分词词语的合并词语更新后一词语位的词语,并设置中间词语位为空,不更新前一词语位的词语;其中,前一词语位、中间词语位和后一词语位分别用于存储所述两个候选词语二元合并前的三个相邻分词词语。进一步优选地,所述方法还包括:设置用于存储分词词语的词语位,每个词语位相应存储一个分词词语;首先对第一词语位、第二词语位和第三词语位存储的三个相邻分词词语对应的两个候选词语按照所述预定合并规则判断并处理;接着对按照所述预定合并规则判断并处理后的第二词语位、第三词语位以及未经判断并处理的第四词语位存储的词语按照所述预定合并规则判断并处理,直至完成所述分词结果中最后三个相邻词语位的词语的判断及处理。优选地,所述获取根据项目的历史工单生成的词频库包括:提取项目中的历史工单;将所述历史工单中的符号、英文、数字以及停用字替换为空格,作为分词处理的自然分隔符;分别使用二元切分、三元切分和四元切分对所述历史工单的语句进行切分,并统计每种切分粒度下词语的词频,获得包含两字词语、三字词语和四字词语的词频库。优选地,所述对待处理的工单进行分词包括:采用分词工具对待处理的工单进行分词;从所述合并结果中提取合并词语作为本次工单的新词之后,所述方法还包括:将提取到的新词添加到所述分词工具的词库中。另一方面,本专利技术还提供了一种从工单中提取新词的装置,所述装置包括:获取单元,用于获取根据项目的历史工单生成的词频库;分词单元,用于对待处理的工单进行分词得到分词词语;候选词语获取单元,用于对所述分词词语顺序地两两相邻地进行二元合并得到候选词语,并从所述词频库中获得每个候选词语的词频;新词提取单元,用于根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,并从所述合并结果中提取合并词语作为本次工单的新词。优选地,所述新词提取单元,进一步用于根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语按照预定合并规则判断并处理,所述预定合并规则包括第一合并规则、第二合并规则和第三合并规则;当所述每三个相邻分词词语对应的两个候选词语符合第一合并规则时,对所述三个相邻分词按照第一合并规则处理,不对所述三个相邻分词词语按照第二合并规则和/或第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则时,则判断是否符合第二合并规则,当符合第二合并规则时,对所述三个相邻分词按照第二合并规则处理,不对所述三个相邻分词词语按照第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则同时也不符合第二合并规则时,则判断是否符合第三合并规则,当符合第三合并规则时,对所述三个相邻分词按照第三合并规则处理;其中,所述第一合并规则为:若两个候选词语的词频均大于设定的词频阈值,且所述两个候选词语的词频差值的绝对值小于所述两个候选词语中任一个候选词语的词频与预定因子的乘积,则设置前一词语位和中间词本文档来自技高网
...

【技术保护点】
一种从工单中提取新词的方法,其特征在于,所述方法包括:获取根据项目的历史工单生成的词频库;对待处理的工单进行分词得到分词词语;对所述分词词语顺序地两两相邻地进行二元合并得到候选词语,并从所述词频库中获得每个候选词语的词频;根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,并从所述合并结果中提取合并词语作为本次工单的新词。

【技术特征摘要】
1.一种从工单中提取新词的方法,其特征在于,所述方法包括:获取根据项目的历史工单生成的词频库;对待处理的工单进行分词得到分词词语;对所述分词词语顺序地两两相邻地进行二元合并得到候选词语,并从所述词频库中获得每个候选词语的词频;根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,获得合并结果,并从所述合并结果中提取合并词语作为本次工单的新词。2.根据权利要求1所述的方法,其特征在于,所述根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语进行合并判断并处理,包括:根据所述候选词语的词频依次对分词结果中的每三个相邻分词词语按照预定合并规则进行判断并处理,其中所述预定合并规则包括第一合并规则、第二合并规则和第三合并规则;当所述每三个相邻分词词语对应的两个候选词语符合第一合并规则时,对所述三个相邻分词按照第一合并规则处理,不对所述三个相邻分词词语按照第二合并规则和/或第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则时,则判断是否符合第二合并规则,当符合第二合并规则时,对所述三个相邻分词按照第二合并规则处理,不对所述三个相邻分词词语按照第三合并规则处理;当所述每三个相邻分词词语对应的两个候选词语不符合第一合并规则同时也不符合第二合并规则时,则判断是否符合第三合并规则,当符合第三合并规则时,对所述三个相邻分词按照第三合并规则处理。3.根据权利要求2所述的方法,其特征在于,所述第一合并规则为:若两个候选词语的词频均大于设定的词频阈值,且所述两个候选词语的词频差值的绝对值小于所述两个候选词语中任一个候选词语的词频与预定因子的乘积,则设置前一词语位和中间词语位为空,并用所述两个候选词语的合并词语更新后一词语位的词语,其中预定因子大于
\t0且小于1;所述第二合并规则为:若前一候选词语的词频大于后一候选词语的词频,则用前一词语位存储的分词词语与中间词语位存储的分词词语的合并词语更新前一词语位的词语,并设置中间词语位为空,不更新后一词语位的词语;所述第三合并规则为:若前一候选词语的词频小于后一候选词语的词频,则用中间词语位存储的分词词语和后一词语位存储的分词词语的合并词语更新后一词语位的词语,并设置中间词语位为空,不更新前一词语位的词语;其中,前一词语位、中间词语位和后一词语位分别用于存储所述两个候选词语二元合并前的三个相邻分词词语。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:设置用于存储分词词语的词语位,每个词语位相应存储一个分词词语;首先对第一词语位、第二词语位和第三词语位存储的三个相邻分词词语对应的两个候选词语按照所述预定合并规则判断并处理;接着对按照所述预定合并规则判断并处理后的第二词语位、第三词语位以及未经判断并处理的第四词语位存储的词语按照所述预定合并规则判断并处理,直至完成所述分词结果中最后三个相邻词语位的词语的判断及处理。5.根据权利要求1所述的方法,其特征在于,所述获取根据项目的历史工单生成的词频库包括:提取项目中的历史工单;将所述历史工单中的符号、英文、数字以及停用字替换为空格,作为分词处理的自然分隔符;分别使用二元切分、三元切分和四元切分对所述历史工单的语句进行切分,并统计每种切分粒度下词语的词频,获得...

【专利技术属性】
技术研发人员:李国洋王庆磊梁德兴
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1