当前位置: 首页 > 专利查询>孙军堂专利>正文

一种交叉组合文本的识别与切分方法技术

技术编号:38319238 阅读:16 留言:0更新日期:2023-07-29 09:01
一种交叉组合文本的识别与切分方法。本方法涉及计算机应用技术领域,具体应用于自然语言文本处理,使具有程序执行和运算能力的机器能够具有自主识别文本交叉组合使用现象的能力。所述方法基于符合其需求的绑定词库,把所获取的文本分成三段,用字符辅助去构造交叉组合文本、并去绑定词库中匹配,实现对交叉组合文本的识别;并为其构造文本存储单元、以及组合后的序列调整,使文本在重新组织目标语言的语义时,具有更好的操作性,以保障文本语义和使用形式的完整。使用形式的完整。使用形式的完整。

【技术实现步骤摘要】
一种交叉组合文本的识别与切分方法


[0001]本专利技术涉及计算机应用
,具体涉及一种自然语言文本交叉组合使用的分词方法。

技术介绍

[0002]对于自然语言处理和机器翻译技术而言,准确的文本分词是其首要基础。在工作和生活中,人们并不一定按常用词典中的组合形式去使用,普遍存在把一个词组拆分开来交叉使用,例如

创业

、“创什么业”。英文文本的交叉组合用法也很普遍,例如turned

of a b(对

睁一眼闭一眼)等等。
[0003]对文本交叉组合使用形式的有效识别,能有效保障语义的正确和形式的完整。

技术实现思路

[0004]本申请是一种交叉组合文本的识别与切分方法,使具有程序执行和运算能力的机器能够具有自主识别文本交叉组合使用现象的能力。所述方法基于符合其需求的绑定词库,把所获取的文本分成三段,用字符辅助去构造交叉组合文本、并去绑定词库中匹配,实现对交叉组合文本的识别;并为其构造文本存储单元、以及组合后的序列调整,使文本在重新组织目标语言的语义时,具有更好的操作性,以保障文本语义和使用形式的完整;方法包含:两段交叉组合方法、隐性三段交叉组合方法、显性三段交叉组合方法;具体包括:
[0005]基础格式。本申请要求在绑定的词库中,包含方法所要求的文本格式,其预制格式为:“WL#WR”。
[0006]其中:“#”表示交叉词组合文本中的组合辅助字符,也可以用其它有效识别其区别的其它单个字符或多个字符代替。其作用是作为一个技术识别标签,跟文本组合预制于绑定的词库中,作为技术判断的依据。
[0007]可选地,辅助符“#”也可以任意位置和数量使用以标识文本使用形式的区别,但要在绑定词库中作出关联设置。本申请是基于简便和常规理解的形式布置其位置。
[0008]文本粗切分:获取待处理的文本,基于反向分词法(正向实施方法原理相同),迭代获取一段“没有符号、标点等可能影响词汇正常切分”的文本。如果文本整体在绑定词库中匹配不到时,把文本按下述相关申请方法要求切分成左段WL、右段WR,且余下的中段WM的长度大于零,执行相关方法的分析与处理。
[0009]两段交叉组合方法:W=Hash(WL
i
‑‑
,i<=5
+“#”+WR
i
‑‑
,i<=8
);递减迭代获取分段文本WL与WR,两者用“#”组合起来,去匹配交叉组合文本。
[0010]其中,W表示方法的结果。指数i表示的条件为:中文依据于字符的个数,英文则依据于空格的个数而非字符的个数,且i的预设值可以根据情况调整,以提高识别能力和效率。
[0011]两段交叉组合方法的组合特征是:在切分文本后,用辅助字符

#

把WL、WR组合成“WL#WR”去匹配交叉组合文本,确认两段交叉组合的整体存在,并输出或缓存或存储其结
果。
[0012]两段交叉组合方法的构造特征是:构造一个文本存储单元

#da


[0013]两段交叉组合方法的序列特征是:如图6所示,基于从左到右的文本阅读顺序,所述两段交叉组合所组合的WL#WR组合体单元位于所述文本粗切分中的WM单元的左边,所构造的文本存储单元相连位于WM单元之后。其示例分别如例句1、例句2所示。
[0014]例句1:turned hime of a b.
[0015][0016][0017]W1、W2、W3等表示辅助说明的词语对象编号。
[0018]其中,turned

of a b只作用于“him”一个宾语单元。turned

of a b作为英文字面形式由两个语义段构成,它的中文语义“对

睁一眼闭一眼”也是两个语义段构成,所以,除W1用来存放第一段语义“对”之外,W3即构造的文本存储单元

#da

用于存放第二段语义“睁一眼闭一眼”。所述文本存储单元语义段的获取由后续流程处理实现,所述申请方法仅完成交叉组合文本的识别并预先提供基础处理以方便其实现。
[0019]例句2:对他睁一只眼闭一只眼。
[0020]W1(组合体)W2W3(文本存储单元)对#睁一只眼闭一只眼他#dturnedhimof a b
[0021]其中,对#睁一只眼闭一只眼只作用于



一个宾语单元。

对#睁一只眼闭一只眼

的中文字面形式由两个语义段构成,它的英文语义

turned#of a b

也是两个语义段构成,所以,除W1用来存放第一段语义

turned

之外,W3即构造的文本存储单元#da存放第二段语义

of a b


[0022]隐性三段交叉组合方法:W=Hash(WL
i
‑‑
,i<=5
+“##”+WR
i
‑‑
,i<=8
);递减迭代获取分段文本WL与WR,两者用辅助字符“##”组合起来,去匹配交叉组合文本。
[0023]所述隐性三段交叉组合是指一种语言在字面使用形式上是用两段文本表达,相同语义文本在另一种语言的字面使用形式上是用三段交叉组合文本表达。例如“put

before
…”
和“把

置于

之上”两者之间的现象。
[0024]其中,W表示方法的结果。指数i表示的条件为:中文依据于字符的个数,英文则依据于空格的个数而非字符的个数,且i的预设值可以根据情况调整,以提高识别能力和效率。
[0025]隐性三段交叉组合方法的组合特征是:在切分文本后,用辅助字符

##

把WL、WR组合成“WL##WR”去匹配交叉组合文本,确认隐性三段交叉组合的整体存在,并输出或缓存或存储其结果。
[0026]隐性三段交叉组合方法的构造特征是:构造第一个文本存储单元

#da

、第二个文本存储单元

#dab


[0027]隐性三段交叉组合方法的序列特征如图7所示,基于从左到右的文本阅读顺序为:所述隐性三段交叉组合所组合的“WL#WR”合体单元位于所述文本粗切分中的WM单元的左
边;所构造的文本存储单元相连位于WM单元其后。
[0028]其示例如例句3:put my work before my family.
[0029][0030]其中,put

before<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交叉组合文本的识别和切分方法,其显性三段交叉组合文本的识别和切分方法的特征包括:把待分词文本切分成左、右两段:WL、WR,且余下的中段WM长度大于零;获取切分后的分段文本WL与WR,执行其第一次方法:W=Hash(WL
i
‑‑
,i&lt;=5
+“#z#”+WR
i
‑‑
,i&lt;=8
),按其第一次交叉组合方法,用“#z#”组合成“WL#z#WR”的交叉组合形式,递减迭代WL与WR的长度,去绑定的词库中匹配其交叉组合文本,当匹配到结果时,执行其第二次方法:库中匹配其交叉组合文本,当匹配到结果时,执行其第二次方法:按其第二次交叉组合方法,递加或递减迭代WM段中的文本WMX,用“#”将其与第一次方法所得的WR组合成“#WMX#WR”的组合形式,去绑定的词库中匹配其交叉组合文本,当匹配到结果时,执行其第三次方法:W=Hash(WL+“#”+WMX+“#”+WR),按其第三次交叉组合方法,用“#”将第一次方法所得的WL、WR、及第二次方法所得的WMX文本,组合成“WL#WMX#WR”的组合形式,去绑定的词库中匹配其交叉组合文本,当匹配到结果时,基于WL、WMX、WR的文本边界,获取WL与WMX之间的文本为WML,获取WMX与WR之间的文本为WMR,输出第二次方法所匹配到的文本“#WMX#WR”、重新分词WMR并输出其结果、输出第三次方法所匹配到的文本“WL#WMX#WR”、重新分词WML并输出其结果、输出第一次方法所匹配到的文本“WL#z#WR”。2.一种交叉组合文本的交叉组合识别和切分方法,其两段交叉组合文本的交叉组合识别和切分方法的特征包括:把待分词文本切分成左、右两段:WL、WR,且余下的中...

【专利技术属性】
技术研发人员:孙军堂
申请(专利权)人:孙军堂
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1