一种基于机器学习的文章断句方法技术

技术编号：24854681 阅读：21 留言：0更新日期：2020-07-10 19:08

本发明专利技术提出的一种基于机器学习的文章断句方法，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。本发明专利技术中，切分模型的输入为特征标记，特征标记的提取简化了切分模型对待断句文本的前期处理，使得切分模型的输入更加简洁并具有针对性，从而提高了断句效率。本发明专利技术向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的文章断句方法
本专利技术涉及数据处理
，尤其涉及一种基于机器学习的文章断句方法。
技术介绍
随着统计分析在化学研究中越来越多的应用，化学科研数据的采集整理愈加重要，化学科研数据及相关信息主要存储于文本文件中，从文本文件中将科研数据相关信息提取出来就需要应用自然语言处理的相关技术。分句(句子边界检测)将完整的长文本信息切分成单个句子，是很多自然语言处理任务数据处理的优先步骤。分句阶段的误差将直接传递到后续的数据处理步骤中并被逐渐放大,所以为了自然语言处理的一些下游任务在化学信息学的成功实施,例如信息抽取,抽取相关化学物质的属性，实验性质以及应用信息.优秀的分句工具必不可少。
技术实现思路
基于
技术介绍
存在的技术问题，本专利技术提出了一种基于机器学习的文章断句方法。本专利技术提出的一种基于机器学习的文章断句方法，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。优选的，特征标记的获取方法具体包括：读取文本，以标示句子结尾的符号作为句子结尾符号，使用正则找到文本中出现句子结尾符号的位置作为句子边界位置；通过分词工具对各句子结尾符号相邻两侧语句进行切分，获得各句子结尾符号相邻两侧的词语作为边界邻近词语；组合句子边界位置和对应的边界邻近词语形成特征标记。优选的，寻找句子边界位置时，首先对...

【技术保护点】
1.一种基于机器学习的文章断句方法，其特征在于，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。/n

【技术特征摘要】
1.一种基于机器学习的文章断句方法，其特征在于，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。

2.如权利要求1所述的基于机器学习的文章断句方法，其特征在于，特征标记的获取方法具体包括：
读取文本，以标示句子结尾的符号作为句子结尾符号，使用正则找到文本中出现句子结尾符号的位置作为句子边界位置；
通过分词工具对各句子结尾符号相邻两侧语句进行切分，获得各句子结尾符号相邻两侧的词语作为边界邻近词语；
组合句子边界位置和对应的边界邻近词语形成特征标记。

3.如权利要求2所述的基于机器...

【专利技术属性】
技术研发人员：李鑫，沈伟，鲍琦，
申请(专利权)人：苏州机数芯微科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人