【技术实现步骤摘要】
基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统
本专利技术属于自然语言处理
,尤其涉及一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统。
技术介绍
现有的文本自动断句与标点方法,主要分为两方面:一方面集中于研究英语文本的断句与标点,而中文文本(如古汉语文本)虽有部分研究,但采用的方法多为传统的统计机器学习模型(如条件随机场),这类方法需要人工特征设计,且准确率并不高,并且实现的功能只涉及自动断句功能,而较少或不涉及自动添加标点符号功能(陈萧,柯登峰,徐波.基于全局词汇信息的中文口语句子标点生成[C]//第十二届全国人机语音通讯学术会议(NCMMSC'2013).)(张合,王晓东,杨建宇,etal.一种基于层叠CRF的古文断句与句读标记方法[J].计算机应用研究,2009,26(9):3326-3329.)。另一方面的研究集中于语音转写文本后处理领域,如公开号为CN102231278A的专利技术专利中需要结合语句间停顿位置时长(设置门限值),加上分类器的分类作用,共同 ...
【技术保护点】
1.一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,其特征在于,包括:/n步骤1:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;/n步骤2:利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;/n步骤3:采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。/n
【技术特征摘要】 【专利技术属性】
1.一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,其特征在于,包括:
步骤1:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;
步骤2:利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
步骤3:采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
2.根据权利要求1所述的基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,其特征在于,所述步骤1包括:
步骤1.1:保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
步骤1.2:将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;
步骤1.3:将语料中的四则运算符、希腊字母保留;
步骤1.4:为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号。
3.根据权利要求2所述的基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,其特征在于,所述步骤3包括:
采用对数似然损失函数,损失函数为:
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
在句子x(i)中,计算输出标签y(i)中逗号、句号、问号及感叹号对应标签的个数:
其中n表示标签的个数,j表示标签号,表示第i个句子第j个标签的个数;
加入长句惩罚因子β,对损失函数进行改进,改进后的损失函数为:
以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
技术研发人员:屈丹,杨绪魁,张文林,司念文,陈琦,牛铜,闫红刚,张连海,李真,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,郑州信大先进技术研究院,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。