一种自动计算汉语词语分类的方法技术

技术编号:26791143 阅读:22 留言:0更新日期:2020-12-22 17:06
本发明专利技术公开了一种自动计算汉语词语分类的方法,包括以下步骤:S1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;S2、通过所述输入模块输入汉语文章。本发明专利技术,其通过研究词汇、文法结构、顺序、字特征在语言中的继承特性,通过建立分类样本、收集语言习惯的方式对每个词的分类进行计算,最终实现自动分类,自动添加多标签,有效打破现有技术中对词语的分类受到一定的局限性的局面,同时本发明专利技术是对很底层的语言体系的创新,让大量的基础工作从人的手中解放了出来,具备快速发现机制和精准性的优点,在NLP应用中非常方便。

【技术实现步骤摘要】
一种自动计算汉语词语分类的方法
本专利技术涉及自然语义识别
,更具体地说,它涉及一种自动计算汉语词语分类的方法。
技术介绍
自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。理论上,自然语义识别即NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。由于理解自然语言,需要关于外在世界的广泛知识以及运用这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。有关理解定义问题的研究已经引发关注。现有的的NLP更多的建立在科学切词、词向量、词性关联、IDF等领域,是基于词性正确后的应用实践,对词语进行计算机自动分类是一个全新的领域,通过海量的样本学习和建立模型,不断优化本文档来自技高网...

【技术保护点】
1.一种自动计算汉语词语分类的方法,其特征在于:包括以下步骤:/nS1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;/nS2、通过所述输入模块输入汉语文章;/nS3、所述识别新词模块对输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块;/nS4、所述自动智能计算模块对接收的所述有可能存在的新词的句子进行智能计算分析处理,如若发现新词,所述自动智能计算模块将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,如若验证确认发现新词,...

【技术特征摘要】
1.一种自动计算汉语词语分类的方法,其特征在于:包括以下步骤:
S1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;
S2、通过所述输入模块输入汉语文章;
S3、所述识别新词模块对输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块;
S4、所述自动智能计算模块对接收的所述有可能存在的新词的句子进行智能计算分析处理,如若发现新词,所述自动智能计算模块将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,如若验证确认发现新词,所述自动智能计算模块将确认发现的新词带入所述新词分类标注模块;
S5、所述新词分类标注模块对带入的确认新词进行分类和标注。


2.根据权利要求1所述的一种自动计算汉语词语分类的方法,其特征在于:所述自动计算汉语词语分类系统还包括通讯模块,所述通讯模块用于所述自动计算汉语词语分类系统连接互联网或云服务器。


3.根据权利要求1所述的一种自动计算汉语词语分类的方法,其特征在于:所述自动计算汉语词语分类系统还包括大数据库,所述大数据库包括汉语词性数据库、汉语新词储存数据库以及错误汉语词汇数据库,所述汉语词性数据库、所述汉语新词储存数据库以及所述错误汉语词汇数据库均与所述自动智能计算模块相连接,所述汉语词性数据库的内部存储有现有已知的所有汉语词性数据,所述汉语新词储存数据库用于存储步骤S5中进行分类和标注的新词数据;所述错误汉语词汇数据库用于存储步骤S4中验证...

【专利技术属性】
技术研发人员:张莹彭瑶
申请(专利权)人:网娱互动科技北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1