本发明专利技术公开了一种自动计算汉语词语分类的方法,包括以下步骤:S1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;S2、通过所述输入模块输入汉语文章。本发明专利技术,其通过研究词汇、文法结构、顺序、字特征在语言中的继承特性,通过建立分类样本、收集语言习惯的方式对每个词的分类进行计算,最终实现自动分类,自动添加多标签,有效打破现有技术中对词语的分类受到一定的局限性的局面,同时本发明专利技术是对很底层的语言体系的创新,让大量的基础工作从人的手中解放了出来,具备快速发现机制和精准性的优点,在NLP应用中非常方便。
【技术实现步骤摘要】
一种自动计算汉语词语分类的方法
本专利技术涉及自然语义识别
,更具体地说,它涉及一种自动计算汉语词语分类的方法。
技术介绍
自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。理论上,自然语义识别即NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。由于理解自然语言,需要关于外在世界的广泛知识以及运用这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。有关理解定义问题的研究已经引发关注。现有的的NLP更多的建立在科学切词、词向量、词性关联、IDF等领域,是基于词性正确后的应用实践,对词语进行计算机自动分类是一个全新的领域,通过海量的样本学习和建立模型,不断优化维度权重,可以实现词性的自动识别和标签化,节省了大量的人力,提升了AI在语言领域里的响应速度和智能程度。但是目前的词性、词语分类都是通过人工分拣、词典、历史文献产生的,上述做法存在以下技术问题:1、对词语的分类过于粗糙,比如名词、动词、形容词…,其中名词大类中就会有几百万个,在NLP应用中非常不方便;2、新词层出不穷,人工分拣缺乏快速发现机制和精准性;<br>3、一个词会出现多重分类,传统方式下只能归属于一类,添加一个标签,使得对词语的分类受到一定的局限性。为此,提出一种自动计算汉语词语分类的方法。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种自动计算汉语词语分类的方法,其通过研究词汇、文法结构、顺序、字特征在语言中的继承特性,通过建立分类样本、收集语言习惯的方式对每个词的分类进行计算,最终实现自动分类,自动添加多标签,有效打破现有技术中对词语的分类受到一定的局限性的局面,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供了如下技术方案:一种自动计算汉语词语分类的方法,包括以下步骤:S1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;S2、通过所述输入模块输入汉语文章;S3、所述识别新词模块对输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块;S4、所述自动智能计算模块对接收的所述有可能存在的新词的句子进行智能计算分析处理,如若发现新词,所述自动智能计算模块将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,如若验证确认发现新词,所述自动智能计算模块将确认发现的新词带入所述新词分类标注模块;S5、所述新词分类标注模块对带入的确认新词进行分类和标注。进一步的,所述自动计算汉语词语分类系统还包括通讯模块,所述通讯模块用于所述自动计算汉语词语分类系统连接互联网或云服务器。进一步的,所述自动计算汉语词语分类系统还包括大数据库,所述大数据库包括汉语词性数据库、汉语新词储存数据库以及错误汉语词汇数据库,所述汉语词性数据库、所述汉语新词储存数据库以及所述错误汉语词汇数据库均与所述自动智能计算模块相连接,所述汉语词性数据库的内部存储有现有已知的所有汉语词性数据,所述汉语新词储存数据库用于存储步骤S5中进行分类和标注的新词数据;所述错误汉语词汇数据库用于存储步骤S4中验证确认不是新词的错误词汇的数据。进一步的,所述输入模块用于输入需要进行新词分类和标注的汉语文章。进一步的,所述识别新词模块用于识别输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块。进一步的,所述自动智能计算模块用于接收的所述有可能存在的新词的句子进行智能计算分析处理,并将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,在确认发现新词时,其将确认发现的新词带入所述新词分类标注模块。进一步的,所述新词验证模块中包括制定的模板句子,所述模板句子用于带入新词进行验证使用。进一步的,所述新词分类标注模块用于对确认的新词进行分类和标注,并将分类和标注的新词存储至所述汉语新词储存数据库中。进一步的,所述分类的方法为通过建立分类样本、收集语言习惯的方式对每个词的分类进行自动计算分类以及自动添加多标签。进一步的,所述标注的内容为词汇、文法结构、顺序、字特征在汉语言中的继承特性。综上所述,本专利技术主要具有以下有益效果:本专利技术,其通过研究词汇、文法结构、顺序、字特征在语言中的继承特性,通过建立分类样本、收集语言习惯的方式对每个词的分类进行计算,最终实现自动分类,自动添加多标签,有效打破现有技术中对词语的分类受到一定的局限性的局面,同时本专利技术是对很底层的语言体系的创新,让大量的基础工作从人的手中解放了出来,具备快速发现机制和精准性的优点,在NLP应用中非常方便。附图说明图1为一种实施方式的自动计算汉语词语分类的方法的流程图;图2为一种实施方式的自动计算汉语词语分类的方法中的自动计算汉语词语分类系统的架构示意图;图3为一种实施方式的自动计算汉语词语分类的方法中的自动计算汉语词语分类系统中的大数据库的结构示意图。具体实施方式以下结合附图1-3对本专利技术作进一步详细说明。实施例1一种自动计算汉语词语分类的方法,如图1-2所示,包括以下步骤:S1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;S2、通过所述输入模块输入汉语文章;S3、所述识别新词模块对输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块;S4、所述自动智能计算模块对接收的所述有可能存在的新词的句子进行智能计算分析处理,如若发现新词,所述自动智能计算模块将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,如若验证确认发现新词,所述自动智能计算模块将确认发现的新词带入所述新词分类标注模块;S5、所述新词分类标注模块对带入的确认新词进行分类和标注。较佳地,如图2所示,所述自动计算汉语词语分类系统还包括通讯模块,所述通讯模块用于所述自动计算汉语词语分类系统连接互联网或云服务器。较佳地,如图2和3所示,所述自动计算汉语词语分类系统还包括大数据库,所述大数据库包括汉语词性数据库、汉语新词储存数据库以及错误汉语词汇数据库,所述汉语词性数据库、所述汉语新词储存数据库以及所述错误汉语词汇本文档来自技高网...
【技术保护点】
1.一种自动计算汉语词语分类的方法,其特征在于:包括以下步骤:/nS1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;/nS2、通过所述输入模块输入汉语文章;/nS3、所述识别新词模块对输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块;/nS4、所述自动智能计算模块对接收的所述有可能存在的新词的句子进行智能计算分析处理,如若发现新词,所述自动智能计算模块将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,如若验证确认发现新词,所述自动智能计算模块将确认发现的新词带入所述新词分类标注模块;/nS5、所述新词分类标注模块对带入的确认新词进行分类和标注。/n
【技术特征摘要】
1.一种自动计算汉语词语分类的方法,其特征在于:包括以下步骤:
S1、建立自动计算汉语词语分类系统,所述自动计算汉语词语分类系统包括输入模块、识别新词模块、自动智能计算模块、新词验证模块以及新词分类标注模块;
S2、通过所述输入模块输入汉语文章;
S3、所述识别新词模块对输入的所述汉语文章进行识别及发现有可能存在的新词的句子,并将发现的所述有可能存在的新词的句子发送给所述自动智能计算模块;
S4、所述自动智能计算模块对接收的所述有可能存在的新词的句子进行智能计算分析处理,如若发现新词,所述自动智能计算模块将发现的新词带入所述新词验证模块中的其它句子中进行验证词性,如若验证确认发现新词,所述自动智能计算模块将确认发现的新词带入所述新词分类标注模块;
S5、所述新词分类标注模块对带入的确认新词进行分类和标注。
2.根据权利要求1所述的一种自动计算汉语词语分类的方法,其特征在于:所述自动计算汉语词语分类系统还包括通讯模块,所述通讯模块用于所述自动计算汉语词语分类系统连接互联网或云服务器。
3.根据权利要求1所述的一种自动计算汉语词语分类的方法,其特征在于:所述自动计算汉语词语分类系统还包括大数据库,所述大数据库包括汉语词性数据库、汉语新词储存数据库以及错误汉语词汇数据库,所述汉语词性数据库、所述汉语新词储存数据库以及所述错误汉语词汇数据库均与所述自动智能计算模块相连接,所述汉语词性数据库的内部存储有现有已知的所有汉语词性数据,所述汉语新词储存数据库用于存储步骤S5中进行分类和标注的新词数据;所述错误汉语词汇数据库用于存储步骤S4中验证...
【专利技术属性】
技术研发人员:张莹,彭瑶,
申请(专利权)人:网娱互动科技北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。