System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多语言文本数据分析系统及方法技术方案_技高网

一种多语言文本数据分析系统及方法技术方案

技术编号:40579691 阅读:10 留言:0更新日期:2024-03-06 17:22
本发明专利技术公开了一种多语言文本数据分析系统及方法,涉及智慧城市资讯文本处理技术领域,该系统通过对源语言和目标语言翻译结果的差异性评估,实现了对翻译质量的精准控制。当翻译不合格时,能够精准定位翻译错误的区域,为后续的修正提供有力支持,避免了传统方法整体替换的粗糙处理方式。通过分析框架建模和自动化分类模块,系统能够自动识别智慧城市文本的关键主题和实体,实现了对多语言文本的自动化分类与主题提取,为城市管理者和决策者提供了更直观、高效的信息参考。通过应用词量化与匹配模块,系统将文本数据关联到智慧城市领域,实现了对领域特定信息的自动化识别与分类,使得分析结果更具专业性和针对性。

【技术实现步骤摘要】

本专利技术涉及智慧城市资讯文本处理,具体为一种多语言文本数据分析系统及方法


技术介绍

1、智慧城市的发展在信息和数据方面涵盖广泛,其中包括社交媒体文本、事件报告、新闻报道和宣传文本等多语言文本数据。这些数据承载着智慧城市运营、管理和决策的关键信息,对于实现城市智能化、提高居民生活质量以及推动可持续发展至关重要。在这个背景下,充分挖掘和利用这些多语言文本数据的价值成为一个迫切的需求。然而,在传统文本处理中,尤其是在面对多语言的情况下,翻译质量的不合格问题可能导致信息失真、误导决策等严重后果。传统文本处理在发现翻译不合格时,常采用整体替换的方式,缺乏对错误位置的准确定位;且面对大规模的多语言文本数据,传统文本处理方法效率低下,无法快速分类。

2、然而,传统文本处理在面对多语言情境时存在一系列问题。首先,翻译质量不合格可能导致信息失真,误导决策,甚至影响城市的整体发展方向。传统文本处理在发现翻译不合格时通常采用整体替换的方式,这种处理方式缺乏对错误位置的准确定位,难以实现有针对性的修复,从而影响了数据处理的准确性和可靠性。

3、在处理大规模的多语言文本数据时,传统文本处理方法的低效性也凸显出来。智慧城市数据量庞大,传统方法往往无法满足快速分类和处理的需求,影响了信息的实时性和决策的及时性。因此,提高文本处理的效率成为解决当前问题的一项重要任务。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种多语言文本数据分析系统及方法,以解决
技术介绍
中提到的问题。

3、(二)技术方案

4、为实现以上目的,本专利技术通过以下技术方案予以实现:一种多语言文本数据分析方法,包括以下步骤,

5、步骤一、采集有关多语言智慧城市社交媒体的文本数据、多语言事件报告、新闻报道和宣传文本,建立文本数据集;

6、步骤二、训练多语言映射模型,收集来自不同语言的大规模文本语料库,并提取训练词嵌入多语言映射模型中进行深度训练,采用共享的词嵌入空间,通过让不同语言共享同一嵌入矩阵进行实现后,优化多语言映射模型;

7、步骤三、对所述文本数据集,进行第一文本处理后,提取所述文本数据集的源语言和目标语言,并对源语言和目标语言进行多语言映射模型的基础上进行语义空间建模后进行翻译后,获得第一目标语言翻译结果,并采集源语言和第一目标语言翻译结果之间的差异性信息,通过差异性信息计算获得差异系数cy;

8、步骤四、将获得的差异系数cy与标准相似度阈值r对比,当差异系数cy≤标准相似度阈值r时,则表示第一目标语言翻译合格,将翻译合格的文本数据集按照结构大小排序列表,建立第一修正数据集;当差异系数cy>标准相似度阈值r时,则表示第一目标语言翻译不合格,并匹配定位翻译错误的区域,形成误差文本区域;

9、步骤五、建立分析框架模型,将第一修正数据集映射至分析框架模型中,提取分析数据集的框架结构,并对若干个框架结构第二缩进处理后,依据智慧城市关键词进行相对应的分类。

10、优选的,所述步骤三包括:

11、s31、对所述文本数据集,进行第一文本处理,所述第一文本处理包括,对每篇文本数据中的源语言进行分词,去除停用词、标点符号和噪声处理;

12、s32、对分词后的词汇进行词干化或词还原,以减少词汇变形;

13、s33、通过多语言映射模型,将源语言文本翻译成这个共享语义空间中的目标语言,通过句子向量的翻译模式,获得第一目标语言翻译结果;

14、s34、并采集源语言和第一目标语言翻译结果之间的差异性信息,通过差异性信息计算获得差异系数cy。

15、优选的,所述差异系数cy通过以下三种计算方法计算获得:

16、(1)设置表示源语言句子的向量,表示目标语言翻译后的句子向量,通过欧式距离计算获得差异系数cy:

17、

18、式中,n表示向量的维度,即向量中上下文中词嵌入的长度,i表示向量中维度的索引;

19、(2)计算源语言句子的向量与目标语言翻译后的句子向量的标准差,通过离散程度计算获得差异系数cy:

20、

21、(3)计算源语言句子的向量与目标语言翻译后的句子向量的平均值,通过以下公式计算获得差异系数cy:

22、

23、差异系数cy≤标准相似度阈值r时,则表示第一目标语言翻译合格;差异系数cy大于标准相似度阈值r,则表示第一目标语言翻译不合格,差异越大,翻译质量越低。

24、优选的,当差异系数cy>标准相似度阈值r时,则表示第一目标语言翻译不合格,有异常差异;并将第一目标语言翻译不合格的文本,并依据差异系数cy与标准相似度阈值r的差值,匹配定位翻译错误的区域,形成误差文本区域。

25、优选的,获取文本误差区域,并进行第二文本补充处理,包括:重新翻译、人工审核、术语修订、语境调整和对多语言映射模型进行微调;当第二文本处理后,获取到第二改进文本;并重新按照步骤二至步骤四,直至差异系数cy≤标准相似度阈值r,将第二改进文本与误差文本区域中翻译不合格的文本进行迭代替换,并纳入第一修正数据集中。

26、优选的,重新翻译用于针对被标记为误差的文本区域,使用不同的翻译模型进行重新翻译,使用若干个机器翻译引擎,以便比较不同引擎的翻译结果,选择最佳的翻译;

27、人工审核用于翻译专家针对误差区域进行人工审核,在人工审核的过程中,标注误差区域的具体问题类型及审核修复结果;

28、术语修订用于依据大数据更新数据库,对误差区域内的智慧城市领域术语进行修订;

29、语境调整用于分析误差区域的语境,对语境进行相对应的语境重构,并符合目标语言定位地区的文化和表达习惯。

30、优选的,所述步骤五包括:

31、s51、采用自然语言处理技术,根据智慧城市任务需求的常用关键词,定义分析框架,包括关注的主题、关键词和实体;

32、s52、将第一修正数据集应设置数据中提取分析框架模型中定义的结构,将第一修正数据集中的每篇文本数据进行第二缩进处理;

33、所述第二缩进处理用于将每篇文本数据分成1-3个段落,并提取1-3个段落中的关键词信息,包括最多次数的名词、动词和形容词,获得第一匹配动词、第一匹配动词和第一匹配形容词,并将第一匹配动词、第一匹配动词和第一匹配形容词组合起来,形成第一复合体小句xj1;

34、s53、并提取每篇文本数据的1-3个段落中的有关智慧城市场景的应用词,包括“智能交通、物联网、能源管理、公共服务、智慧医疗、智慧安防、环境检测、智慧教育、智慧零售和智慧社区”将提取到的应用词和应用词的出现次数进行量化,通过“yyc/x次”作为标签融合在第一复合体小句xj1的首尾处,形成第二复合体小句xj2,这样,每个文本数据都对应一个带有应用词信息的文本小句。

35、优选的,所述本文档来自技高网...

【技术保护点】

1.一种多语言文本数据分析方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的一种多语言文本数据分析方法,其特征在于:所述步骤三包括:

3.根据权利要求2所述的一种多语言文本数据分析方法,其特征在于:所述差异系数Cy通过以下三种计算方法计算获得:

4.根据权利要求1所述的一种多语言文本数据分析方法,其特征在于:当差异系数Cy>标准相似度阈值R时,则表示第一目标语言翻译不合格,有异常差异;并将第一目标语言翻译不合格的文本,并依据差异系数Cy与标准相似度阈值R的差值,匹配定位翻译错误的区域,形成误差文本区域。

5.根据权利要求4所述的一种多语言文本数据分析方法,其特征在于:获取文本误差区域,并进行第二文本补充处理,包括:重新翻译、人工审核、术语修订、语境调整和对多语言映射模型进行微调;当第二文本处理后,获取到第二改进文本;并重新按照步骤二至步骤四,直至差异系数Cy≤标准相似度阈值R,将第二改进文本与误差文本区域中翻译不合格的文本进行迭代替换,并纳入第一修正数据集中。

6.根据权利要求5所述的一种多语言文本数据分析方法,其特征在于:重新翻译用于针对被标记为误差的文本区域,使用不同的翻译模型进行重新翻译,使用若干个机器翻译引擎,以便比较不同引擎的翻译结果,选择最佳的翻译;

7.根据权利要求1所述的一种多语言文本数据分析方法,其特征在于:所述步骤五包括:

8.根据权利要求7所述的一种多语言文本数据分析方法,其特征在于:所述步骤五还包括:

9.一种多语言文本数据分析系统,包括上述权利要求1-8所述的一种多语言文本数据分析方法,其特征在于:包括数据采集模块、训练模型模块、文本预处理模块、翻译模块、差异性评估模块、分析框架建模模块、应用词量化与匹配模块、重新翻译与人工审核模块和自动化分类模块;

...

【技术特征摘要】

1.一种多语言文本数据分析方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的一种多语言文本数据分析方法,其特征在于:所述步骤三包括:

3.根据权利要求2所述的一种多语言文本数据分析方法,其特征在于:所述差异系数cy通过以下三种计算方法计算获得:

4.根据权利要求1所述的一种多语言文本数据分析方法,其特征在于:当差异系数cy>标准相似度阈值r时,则表示第一目标语言翻译不合格,有异常差异;并将第一目标语言翻译不合格的文本,并依据差异系数cy与标准相似度阈值r的差值,匹配定位翻译错误的区域,形成误差文本区域。

5.根据权利要求4所述的一种多语言文本数据分析方法,其特征在于:获取文本误差区域,并进行第二文本补充处理,包括:重新翻译、人工审核、术语修订、语境调整和对多语言映射模型进行微调;当第二文本处理后,获取到第二改进文本;并重新按照步骤二至步...

【专利技术属性】
技术研发人员:孙兆洋隋媛
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1