连接词的识别配置方法、装置、计算机设备及介质制造方法及图纸

技术编号:37547517 阅读:14 留言:0更新日期:2023-05-12 16:22
本公开涉及词语识别领域,特别是涉及到一种连接词的识别配置方法、装置、计算机设备及存储介质,所述方法包括:获取文章信息;对所述文章信息进行分割,得到所述文章信息包含的段落信息;获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息;将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,生成样本段落信息;将所述样本段落信息输入至预训练的连接词识别模型,获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值;根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。本公开能够提高篇章连接词的识别准确率。率。率。

【技术实现步骤摘要】
连接词的识别配置方法、装置、计算机设备及介质


[0001]本公开涉及到词语识别领域,特别是涉及到一种连接词的识别配置方法、装置、计算机设备及存储介质。

技术介绍

[0002]连接词可以用来连接句子中的不同部分,段落中的不同句子,篇章中的不同段落,从而表达递进,转折,时序,强调,因果等逻辑关系,现有的连接词预测方法,仅仅通过建模相邻两句来预测,导致连接词预测效果不佳,准确度较低。

技术实现思路

[0003]本公开的主要目的为提供一种连接词的识别配置方法、装置、计算机设备及存储介质,旨在解决目前文章连接词的识别准确度低的问题。
[0004]为了实现上述专利技术目的,本公开提出一种连接词的识别配置方法,包括:
[0005]获取文章信息;
[0006]对所述文章信息进行分割,得到所述文章信息包含的段落信息;
[0007]获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息;
[0008]将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,生成样本段落信息;
[0009]将所述样本段落信息输入至预训练的连接词识别模型,获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值;
[0010]根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。
[0011]本公开还提供一种连接词的识别配置装置,包括:
[0012]数据获取模块,用于获取文章信息;
[0013]段落分割模块,用于对所述文章信息进行分割,得到所述文章信息包含的段落信息;
[0014]位置信息模块,用于获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息;
[0015]样本生成模块,用于将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,生成样本段落信息;
[0016]样本识别模块,用于将所述样本段落信息输入至预训练的连接词识别模型,获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值;
[0017]目标确定模块,根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。
[0018]本公开还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述连接词的识别配置方法的步骤。
[0019]本公开还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述连接词的识别配置方法的步骤。
[0020]本公开例提供了一种文章篇章的连接词的识别、检测配置方法,当需要对文章篇章中的连接词进行检测时,首先获取文章信息,然后通过识别所述文章信息的格式确定所述文章信息包含的段落信息,具体的,识别所述文章信息的每一行文本数据,当识别的一行文本数据满足预设格式要求时,确定该行文本数据为一段段落的开端,从而确定所述文章信息包含的段落,获得所述文章信息包含的段落信息;然后获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息,通过识别段落中标点符号,当标点符号为句间符号时,确定前后两个句子为独立的两个句子,将句间符号前后的两个句子定义为第一句子与第二句子,将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,使得段落信息中各个第一句子与第二句子之间均配置有相同格式的识别词,从而生成样本段落信息,再将所述样本段落信息输入至预训练的连接词识别模型,所述连接词识别模型将所述连接词与预配置的连接词相匹配,然后计算各个预配置的连接词的匹配度,所述匹配度以概率值表征,从而获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值,根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词,从而对所述文章信息中各个句子之间的连接词进行预测、识别,对所述文章信息中的连接词进行检测,提高文章信息中连接词的使用的识别准确率。
附图说明
[0021]图1为本公开连接词的识别配置方法的一实施例流程示意图;
[0022]图2为本公开连接词的识别配置装置的一实施例结构示意图;
[0023]图3为本公开计算机设备的一实施例结构示意框图。
[0024]本公开目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0025]为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
[0026]参照图1,本公开实施例提供一种连接词的识别配置方法,所述连接词的识别配置方法包括步骤S10

S60,对于所述连接词的识别配置方法的各个步骤的详细阐述如下。
[0027]S10、获取文章信息。
[0028]本实施例应用于文章篇章的连接词的识别、检测场景中,当需要对文章篇章中的连接词进行检测时,首先获取文章信息。
[0029]S20、对所述文章信息进行分割,得到所述文章信息包含的段落信息。
[0030]本实施例中,在获取文章信息之后,对所述文章信息进行分割,得到所述文章信息包含的段落信息,在一种实施方式中,通过识别所述文章信息的格式确定所述文章信息包含的段落信息,具体的,识别所述文章信息的每一行文本数据,当识别的一行文本数据满足预设格式要求时,确定该行文本数据为一段段落的开端,例如,当一行文本数据的前预设位为空格时,确定该行文本数据为一段段落的开端,通过识别每一段段落的开端,确定所述文
章信息包含的段落,从而获取所述文章信息包含的段落信息。
[0031]S30、获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息。
[0032]本实施例中,在得到文章信息的每一段段落后,对每一段段落中的语句间的连接词进行识别、检测,首先,获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息,具体的,通过识别段落中标点符号,当标点符号为句间符号时,确定前后两个句子为独立的两个句子,将句间符号前后的两个句子定义为第一句子与第二句子,所述句间符号包括“。”、“?”等,然后根据所述第一句子与第二句子确定第一句子与第二句子的原始连接词的位置信息。
[0033]S40、将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,生成样本段落信息。
[0034]本实施例中,在获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息之后,将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,即将所述连接词替换为识别词,使得段落信息中各个第一句子与第二句子之间均配置有相同格式的识别词,从而生成样本段落信息。
[0035]S50、将所述样本段落信息输入至预训练的连接词识别模型,获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值。
[0036]本实施例中,在将所述段落信息中所述位置信息对应的原始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种连接词的识别配置方法,其中,包括:获取文章信息;对所述文章信息进行分割,得到所述文章信息包含的段落信息;获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息;将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词,生成样本段落信息;将所述样本段落信息输入至预训练的连接词识别模型,获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值;根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。2.根据权利要求1所述的连接词的识别配置方法,其中,所述预训练的连接词识别模型通过如下步骤训练,包括:获取连接词识别模型的训练语料;将所述训练语料中的句间连接词转化为预设格式的待定连接词,生成训练样本集;将所述训练样本集输入至连接词识别模型进行分类识别,得到待定连接词的概率;获取待训练参数,并使用交叉熵损失函数对待训练参数与所述待定连接词的概率进行计算,得到损失值;对所述待训练参数进行迭代训练直至所述损失值最小化,得到目标训练参数,基于所述目标训练参数得到预训练的连接词识别模型。3.根据权利要求2所述的连接词的识别配置方法,其中,所述将所述训练语料中的句间连接词转化为预设格式的待定连接词,生成训练样本集,包括:若所述句间连接词存在于连接词库中,将所述句间连接词转化为第一格式的待定连接词,生成第一训练样本集;若所述句间连接词不存在于连接词库中,将所述句间连接词转化为第二格式的待定连接词,生成第二训练样本集。4.根据权利要求1所述的连接词的识别配置方法,其中,所述根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词之后,还包括:比较所述原始连接词与所述目标连接词是否一致,得到比较结果;统计所述比较结果,输出所述文章信息的所述原始连接词的准确...

【专利技术属性】
技术研发人员:刘旺旺
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1