【技术实现步骤摘要】
【国外来华专利技术】一种提取专业领域内的自造术语的方法及系统
[0001]本申请涉及自然语言处理领域,更具体地涉及术语提取方法及系统。
技术介绍
[0002]随着互联网技术的发展以及其他新技术的不断涌现,一些专业领域内的术语不断扩大和更新。按照传统的人工收集专业领域的术语的方法已无法满足现今对术语提取的要求,自动识别并提取专业领域内的术语成为必然。但在专业领域中的一些术语为作者自己创造出来的术语(可称为“自造术语”),这些自造术语有别于现有的专业术语并难以自动收集。因此,通过提供一种提取专业领域内自造术语的方法和系统,可以有效识别并提取专业领域中的自造术语,在信息提取、信息检索、机器翻译、文本分类等中均具有重要意义。
技术实现思路
[0003]本申请一方面提供一种提取专业领域内的自造术语的方法。所述方法可以包括从文本中提取候选术语;确定所述候选术语在所述文本中出现情况的第一数据;确定所述候选术语的词元;确定所述词元在通用语料中出现情况的第二数据;确定所述词元在专业领域语料中出现情况的第三数据;以及基于参考数据,确定所述候选术语为 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种提取专业领域内的自造术语的方法,包括:从文本中提取候选术语;确定所述候选术语在所述文本中出现情况的第一数据;确定所述候选术语的词元;确定所述词元在通用语料中出现情况的第二数据;确定所述词元在专业领域语料中出现情况的第三数据;以及基于参考数据,确定所述候选术语为自造术语的可能性,其中所述参考数据包括所述第一数据、所述第二数据、所述第三数据。2.如权利要求1所述的方法,其特征在于,所述提取待处理文本中的候选术语包括:通过对所述文本进行分词处理,得到分词组合;从所述分词组合中去除属于专业领域语料中的分词组合;以及从去除后的所述分词组合中确定所述候选术语。3.如权利要求1所述的方法,其特征在于,所述参考数据还包括词性结构。4.如权利要求3所述的方法,其特征在于,所述第一数据包括第一频率,其中第一频率包括所述候选术语在所述文本中的不同部分中的频率和所述候选术语在所述文本中的频率中的至少一个。5.如权利要求4所述的方法,其特征在于,所述第一数据还包括第一次数,其中所述第一次数包括所述候选术语在所述文本中的不同部分中的出现次数和所述候选术语在所述文本中的至少一个。6.如权利要求5所述的方法,其特征在于,基于参考数据,确定所述候选术语为自造术语的可能性包括:根据规则确定所述候选术语为自造术语的可能性。7.如权利要求6所述的方法,其特征在于,所述第二数据包括所述词元在通用语料中出现的第二频率;所述第三数据包括所述词元在专业领域语料中出现的第三频率;以及所述规则包括:所述第一频率大于第一阈值;所述第二频率小于第二阈值;以及所述第三频率与所述第二频率的比值大于第三阈值。8.如权利要求7所述的方法,其特征在于,所述规则还包括:所述候选术语的词性结构与预设词性结构的匹配度大于第四阈值。9.如权利要求1所述的方法,其特征在于,基于参考数据,确定所述候选术语为自造术语的可能性包括:根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。10.如权利要求9所述的方法,其特征在于,所述训练后的机器学习模型通过一个训练过程确定,所述训练过程包括:获取多个训练样本;提取多个训练样本中的每个训练样本的多个特征;以及基于所述多个特征训练初始机器学习模型,生成训练后的机器学习模型。11.一种提取专业领域内的自造术语的系统,包括提取模块、确定模块和训练模块,其特征在于,
所述提取模块用于从文本中提取候选术语;以及所述确定模块用于:确定所述候选术语在所述文本中出现情况的第一数据;确定所...
【专利技术属性】
技术研发人员:李延,
申请(专利权)人:苏州七星天专利运营管理有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。