System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自然语言处理方法及其系统与应用技术方案_技高网
当前位置: 首页 > 专利查询>陈森淼专利>正文

自然语言处理方法及其系统与应用技术方案

技术编号:40676209 阅读:2 留言:0更新日期:2024-03-18 19:14
一种自然语言处理方法,包含:将一自然语言透过历时及/或共时比较,掌握此自然语言具备的认知框架,其中此自然语言的认知框架层级概为语义>语法>语音>语文;编修此自然语言的符号能指,自然语言的符号能指应包含语音能指及语文能指,划分语音能指和语文能指使自然语言的符号所指=语音能指>语文能指;将此自然语言的语音结构形式化,借由包含:自定义符号选择;特定排列组合设计;以及符号及/或符号组合于音素的操作,使每一音段对映独一符号及/或符号组,让此符号能指的语音合于音序且其拼音结构为音段构符,不移不复的语言形式;符号集合组件亦可形成独立、自洽且完备的公理状态。

【技术实现步骤摘要】

本专利技术是关于一种自然语言处理方法及其系统与应用;特别关于实践自然语言符号形式公理系统化的技术方法及其人为系统与成果应用。


技术介绍

1、自然语言处理(natural language processing;nlp)是语言学和人工智能领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让计算机把输入的语言变成有意思的符号和关系,然后根据目的再处理,生成各式成果应用。

2、自然语言处理方法习知技术在1980年代末期,自然语言处理引进机器学习(machine learning)的算法,不再像1950年代用程序语言命令计算机所有规则,而是建立算法模型,让计算机学会从训练的数据中,寻找数据所含的特定模式和趋势。亦有以向量找规则其他非公理化符号形式所建立的语料库,然而向量的计算耗用大量的系统资源且其效果不彰,本专利技术最终同性质对译亦非一般非公理系统集合算法所能完成。

3、以“中文”为例,然不限于此,“中文当代共时语音”的“语音结构”系“注音音序”,其指称的是“语音结构”,无关符号文字使用上的差异;进而运用“符号”表示语音,形成“拼音系统”。再以“中文”为例,现今的“注音符号”采用的“语文所指”不合时宜,缺乏国际通用性且非计算机科学传统符号组件(26拉丁字母和0123456789);而“汉语拼音”则因“符号形变”及/或“拟音”脱离本身的“语音结构”。

4、自然语言处理目前产业未有语言符号拼音结构形式公理化做法,然依此做法符号组件亦可自建字料库或做词向量分析。


技术实现思路

1、本专利技术提供一种自然语言处理方法及其系统与应用,实践语言符号拼音结构形式公理系统化,包含:将一种以上自然语言透过历时及/或共时比较,掌握人类具有的自然语言认知框架。其中,人类的“语言认知”对于“语音层面”(sounds)与“语文层面”(words)之间具有相对认知阶层顺序,因为人类以“当代共时语音”解读“语文”,所以“语音层面”较接近语言认知核心(core),是人类对于自然语言的“认知框架”。其中可发现人类对于自然语言认知框架的认知阶级顺序为语义(core)>语法>语音>语文。

2、已知索绪尔符号学提出语言符号同时具备能指与所指,索绪尔从语言学的观点指出“符号”应该由两个部分组成,一是“能指”(signifier),二是“所指”(signified),所谓“能指”,是“有声意象”(sound-image),而“所指”,则是“有声意象连系的概念”(concept),所有符号都应该具备“能指”与“所指”,缺一不可。本专利技术整合语言认知框架知识内容并修正索绪尔符号学不足之处,其中自然语言的符号能指应包含语音能指及语文能指,本专利技术划分语音能指和语文能指使自然语言符号意义所指=语音能指>语文能指。语音能指具有线条性,属于听觉性质,只在时间上展开,而且具有借自时间的特征包含:(a)它体现一个长度,(b)此长度只能在一个向度上测定:它是一条直线。其中语音能指的直线性质即为语音音序,观察自然语言语音音序本身的拼音结构,归纳自然语言语音音序的自然法则特征可假设语音音序公理为音段构符,不移不复。其中,“音段构符”:例如中文普通话的音素有37个,分别为21个声母,3个介母,13个韵母,声调有4声,依序排列为声母段、介母段、韵母段、声调段四个音段,并且所有汉字一律由声母段到声调段依序组合进行发音;“不移不复”:例如中文普通话的四个音段依照每一个汉字的个别需求出没,但音段顺序固定不移,并且在每一个汉字读音之中,同音段的音素与声调不重复出现。

3、因为人类对于自然语言的“认知框架”存在于“语音层面”,所以自然语言的“意义所指”和“语音能指”之间具有“随机性”,非人为可以完全控制。但是“语音能指”和“语文所指”之间却是“任意性”,本专利技术借此任意性转换语文能指符号组件实践语言符号拼音结构形式公理系统化,借由包含:形式化;自定义语言符号集合符号组件选择权;自定义语言符号集合符号组件排列组合设计权;以及符号组件及/或符号组件组陈列规则合于语音音序的自然法则特征;保持一音素对映一符号组件及/或符号组件组产生具有辨识性及/或判别性的人为系统操作,让此自然语言符号集合的语文能指符号组件及/或符号组件组的排列组合状态强制唯一且闭锁独立并合于语音音序的自然法则特征其拼音结构为音段构符,不移不复的语言表达形式,公理化;验证本专利技术自定义语言符号集合与其内所有符号组件及/或符号组件组的关系具备自洽性,独立性与完备性,因此音段构符,不移不复收敛上即为语言符号集合公理,又因语言总体集合均为语言符号集合的符号组件及/或符号组件组重复排列组合架构而成,因此音段构符,不移不复发散上即为此自然语言公理,借此证明音段构符,不移不复的自然语言假设公理为真,并可将多种自然语言符号集合的符号组件及/或符号组件组转换一致使多种自然语言符号集合相等其符号组件及/或符号组件组元素同质共集达成多语言转换翻译。

4、将本专利技术自然语言处理方法做为人类端与计算机端的链接枢纽,人类端透过语言符号近似读音且无符号形变规则拟音满足人类阅读理解需求,计算机端则透过语言符号拼音结构形式公理系统化使语言符号集合呈现音段构符,不移不复的形式公理系统便于计算机端人工智能机器理解人类自然语言。而系统(英文:system)泛指由一群有关联的个体组成,根据某种规则运作,能完成个别组件不能单独完成的工作的群体。本专利技术系统为根据语音音序自然法则特征生成的人为系统。本专利技术应用包含自然语言处理方法应用及其系统应用与本专利技术成果应用,其中更包含本专利技术实施例于人工智能泛科技领域的应用。

5、在此实施例中,修正此自然语言的符号能指包含划分语音能指以及语文能指与新增语文能指自定义集合符号组件。

6、在此实施例中,语音能指具有线条性,属听觉性质,只在时间上展开,而且具有借自时间的特征包含:(a)它体现一个长度,(b)此长度只能在一个向度上测定:它是一条直线,借此,整合其直线性质及音序,提出音序拼音结构,使此自然语言语言音序特征为音段构符,不移不复。

7、在此实施例中,更包含:使此语言形式所包含符号集合的所有符号组件及/或组件组具有自洽(兼容)性;将此语言形式做为符号集合的公理,强制维持每个符号组件及/或组件组独立性,要求最末音段必有符号组件及/或组件组让整体构符闭锁,形成独立唯一及闭锁;以及使此语言形式符合音段构符,不移不复,其特征之一拼音结构展示音韵关系。

8、在此实施例中,更包含:以一音段一符号或一符号组满足此语言形式。

9、在此实施例中,更包含:将此语言形式做为符号集合的公理,强制维持每个符号组件独立性,要求最末音段必有组件让整体构符闭锁,达成自洽与完备性。

10、本专利技术亦提供一种利用上述自然语言处理方法的自然语言系统,包含:语言符号拼音结构形式公理系统化集合及/或依语言音序自然法则专利技术的人为系统。

11、在此实施例中,符本文档来自技高网...

【技术保护点】

1.一种自然语言处理方法,实践该自然语言符号拼音结构形式公理系统化,其特征在于,包含:

2.根据权利要求1的自然语言处理方法,其特征在于,其中修正该自然语言的符号所指包含新增语文能指自定义集合符号组件。

3.根据权利要求1的自然语言处理方法,其特征在于,其中语音能指具有线条性,属听觉性质,只在时间上展开,而且具有借自时间的特征包含:(a)它体现一个长度,(b)此长度只能在一个向度上测定:它是一条直线,

4.根据权利要求1的自然语言处理方法,其特征在于,其中符号拼音结构形式化的形包含:符号组件选择权,其中符号选择包含计算机科学所用的符号组件;符号拼音结构形式化的式包含:符号组件及/或符号组件组;合于音素;以及可辨识符号组的排列组合设计权。

5.根据权利要求1的自然语言处理方法,其特征在于,更包含:

6.根据权利要求1的自然语言处理方法,其特征在于,其中该自然语言符号拼音结构形式公理系统化包含人为系统技术方法及成果应用。

7.根据权利要求1的自然语言处理方法,其特征在于,其中该自然语言符号拼音结构形式公理系统化包含语言符号形式化;公理化;以及形式公理化系统化方式,其中符号组件及/或组件组更包含均等转换符号组件或音频形式。

8.根据权利要求1自然语言处理方法,其特征在于,其中符号组件及/或组件组更包含:借由符号一致转译不同语言的音频符号、文字及/或程序代码,以及同质转译包含:透过深度学习强化处理自然语言的句段关系(rapports syntagmatiques)及/或联想关系(rapports associatifs)音频符号、文字及/或程序代码。

9.根据权利要求1的自然语言处理方法,其特征在于,更包含将多种自然语言符号集合的符号组件及/或符号组件组转换一致使多种自然语言符号集合相等其符号组件及/或符号组件组元素同质共集达成多语言转换翻译。

10.一种利用根据权利要求1自然语言处理方法的自然语言系统,其特征在于,包含:语言符号拼音结构形式公理系统化集合及/或依语言音序自然法则专利技术的人为系统。

11.一种利用根据权利要求1自然语言处理方法的应用包含其处理方法应用及其系统应用与其成果应用,其特征在于,其中更包含本专利技术实施例于人工智能泛科技领域的应用。

12.一种利用根据权利要求1自然语言处理方法的成果应用于包含:计算机可读取记录媒体,其特征在于,包含:转录程序代码及/或音频与符号文字转换;计算机程序产品,包含:语音识别;声控;翻译;音频转文字;及/或文字转音频;及/或人工智能领域的自然语言处理,包含:音频集成电路设计及/或自然语言理解的人工智能语音技术,包含:音频芯片、软硬韧体设计、量子组序、各式电子、机械材料设计、因子工程序列、因子工法信息处理。

...

【技术特征摘要】

1.一种自然语言处理方法,实践该自然语言符号拼音结构形式公理系统化,其特征在于,包含:

2.根据权利要求1的自然语言处理方法,其特征在于,其中修正该自然语言的符号所指包含新增语文能指自定义集合符号组件。

3.根据权利要求1的自然语言处理方法,其特征在于,其中语音能指具有线条性,属听觉性质,只在时间上展开,而且具有借自时间的特征包含:(a)它体现一个长度,(b)此长度只能在一个向度上测定:它是一条直线,

4.根据权利要求1的自然语言处理方法,其特征在于,其中符号拼音结构形式化的形包含:符号组件选择权,其中符号选择包含计算机科学所用的符号组件;符号拼音结构形式化的式包含:符号组件及/或符号组件组;合于音素;以及可辨识符号组的排列组合设计权。

5.根据权利要求1的自然语言处理方法,其特征在于,更包含:

6.根据权利要求1的自然语言处理方法,其特征在于,其中该自然语言符号拼音结构形式公理系统化包含人为系统技术方法及成果应用。

7.根据权利要求1的自然语言处理方法,其特征在于,其中该自然语言符号拼音结构形式公理系统化包含语言符号形式化;公理化;以及形式公理化系统化方式,其中符号组件及/或组件组更包含均等转换符号组件或音频形式。

8.根据权利要求1自然语言处理方法,其特征在于,其中符号组件及/或组件组更包含:借由符号...

【专利技术属性】
技术研发人员:陈森淼
申请(专利权)人:陈森淼
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1