【技术实现步骤摘要】
一种基于词性标记的领域新词提取方法、系统及设备
[0001]本专利技术涉及自然语言处理
,特别涉及一种基于词性标记的领域新词提取方法、系统及设备。
技术介绍
[0002]中文分词是自然语言处理领域的一个重要研究内容,是文本挖掘的第一步,也是非常重要的步骤之一,它是关键词抽取、文本聚类、主题建模、热点分析等的基础,分词结果的好坏直接影响进一步文本处理的准确性。因此,如何快速、准确、有效的识别新词,对提高中文分词效果具有重要作用,对提高工作效率具有重要意义。
[0003]中文新词的识别在数据挖掘方面是一个令人关注的领域,不同领域或学科中都有其特定的专业术语,现有分词软件很难做到个性化处理,并准确地对特殊词汇进行分割。目前,针对新词发现研究主要集中于规则匹配、统计、互信息结合n
‑
gram模型等方法。具体而言,既有新词发现方法存在如下问题:1)基于规则的方法虽然准确率较高,但对人力物力消耗大,可扩展性、灵活性比较差;2)基于统计的方法较为灵活,不收领域限制,以扩展且可移植性较好,但存在准确率较低的缺 ...
【技术保护点】
【技术特征摘要】
1.一种基于词性标记的领域新词提取方法,其特征在于,包括:对待处理文本进行分词处理,得到多个分词;利用词性标注模型对每个所述分词进行标记,得到词性标记;基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;对排序后的候选短语进行过滤提取领域新词。2.根据权利要求1所述的基于词性标记的领域新词提取方法,其特征在于,在对排序后的候选短语进行过滤提取领域新词之后,还包括:将提取的领域新词添加到用户词典中。3.根据权利要求1所述的基于词性标记的领域新词提取方法,其特征在于,对待处理文本进行分词处理,得到多个分词,具体包括:根据用户词典中的领域专业词表对待处理文本进行分词处理,得到多个分词。4.根据权利要求1所述的基于词性标记的领域新词提取方法,其特征在于,对排序后的候选短语进行过滤提取领域新词,具体包括:通过相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词。5.一种基于词性标记的领域新词提取系统,其特征在于,包括:分词处理单元,用于对待处理文本进行分词处理,得到多个分词;词性标记单元,用于利用词性标注模型对每个所述分词进行标记,得到词性标记;候选短语选择单元,...
【专利技术属性】
技术研发人员:侯颖,崔运鹏,罗冠然,黄杰,王婷,王末,刘娟,
申请(专利权)人:中国农业科学院农业信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。