一种车型名称识别方法技术

技术编号：36809299 阅读：10 留言：0更新日期：2023-03-09 00:35

本发明专利技术公开了一种车型名称识别方法，方法包括获取文本信息的原始语料，对原始语料进行文本纠错修复，获得第一数据；通过别名识别模型对第一数据进行别名信息提取，获得第二数据；其中，别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型，第二数据包括第一别名和第一上下文信息；通过车型标准名称匹配模型对第二数据进行车型名称反推，获得第一车型名称，实现文本信息的车型名称识别。本实施例实现了从文本信息中自动纠错并识别车型名称，避免出现别名与标准名称之间多对多时无法识别的情况，提高识别准确率。提高识别准确率。提高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种车型名称识别方法

[0001]本专利技术涉及车型名称识别领域，尤其涉及一种车型名称识别方法。

技术介绍

[0002]随着互联网融入人们生活，论坛、热聊和各种社交媒体中消费者的评论已经成为汽车厂商了解消费者用车需求和获得使用反馈的重要渠道。由于消费者评论都是文字形式，通过人工阅读来总结消费者的用车需求和反馈，需要耗费大量的人力和时间，因此利用自然语言处理的各种算法提取文字中的主要信息是提高效率节约成本的一个重要方法。在从评论文本中提取信息时“车型名称”是最基础，同时也是最重要的部分，它确定了各种分析结果的对象，处理不好，分析的结果会发生偏差甚至错误。例如：如果将提及“A4”的文本全部认为评论的是奥迪A4(进口旅行车)就会发生严重错误，因为人们在评论国产轿车奥迪A4L时也常常称其为“A4”。而将消费者对A4L的评论混入对进口A4的评论中将使得分析结果出现严重偏差。
[0003]由于多数消费者评论都相当口语化，对于车型名称也常常使用简短的别称或者喜爱的昵称，这一现象使得车型名称和车型的别名之间会出现多对多的关系。例如：两个车型对应同一个昵称如马自达3和宝马3系的别名都包含“小三”、国产轿车奥迪A4L常常被称为“A4”与奥迪A4(进口旅行车)混淆；一个车型名称对多个别名，如奔驰C级别名包括“老C”、“C系”、“小奔奔”、“200”；车型别名与具有其它意义的词语混淆如大众宝来的别名包括“小宝”、“自舒宝”、“传奇”(宝来在19年推出过传奇款)。
[0004]在各种评论或者文章的文本信息中，这种车型名称和车型...

【技术保护点】

【技术特征摘要】
1.一种车型名称识别方法，其特征在于，包括：获取文本信息的原始语料，对所述原始语料进行文本纠错修复，获得第一数据；通过别名识别模型对所述第一数据进行别名信息提取，获得第二数据；其中，所述别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型，所述第二数据包括第一别名和第一上下文信息；通过车型标准名称匹配模型对所述第二数据进行车型名称反推，获得第一车型名称，实现所述文本信息的车型名称识别。2.如权利要求1所述的车型名称识别方法，其特征在于，所述对所述原始语料进行文本纠错修复，获得第一数据，具体为：根据车型名称库，进行谐音扩充，建立车名谐音词库；将所述原始语料转化为字符级发音列表，并根据所述字符级发音列表和所述车名谐音词库，进行发音匹配，获得错误车名，将所述错误车名替换成正确车名。3.如权利要求2所述的车型名称识别方法，其特征在于，所述根据车型名称库，进行谐音扩充，建立车名谐音词库，具体为：根据所述车型名称库，获得全部的第二车型名称；将当前所述第二车型名称，拆分成第一字符列表；根据所述第一字符列表，生成各字符的第一发音列表；根据谐音库，找出所述各字符的所述第一发音列表的每个发音所对应的全部谐音，获得所述各字符的所述全部谐音，并根据所述各字符的所述全部谐音，获得当前所述第二车型名称的衍生谐音；根据各所述第二车型名称的所述衍生谐音和各所述第二车型名称，建立所述车名谐音词库。4.如权利要求3所述的车型名称识别方法，其特征在于，所述将所述原始语料转化为字符级发音列表，并根据所述字符级发音列表和所述车名谐音词库，进行发音匹配，获得错误车名，将所述错误车名替换成正确车名，具体为：将所述原始语料拆分成单字，并将所述单字转化成发音，获得字符级发音列表；根据所述车名谐音词库中所有谐音词的长度，获得长度阈值范围；根据所述长度阈值范围，确定当前长度；根据所述当前长度和松散容忍度，获得当前窗口长度；根据所述当前窗口长度、所述原始语料和所述字符级发音列表，进行窗口顺文本滑动，获得当前窗口框选的待识别文本；在所述车名谐音词库中搜索各所述衍生谐音的长度，找出所述衍生谐音的长度与所述当前长度相同的所述衍生谐音，获得第二衍生谐音；将所述待识别文本的所述字符级发音列表与所述第二衍生谐音做匹配，若匹配成功，则将所述待识别文本标记为所述错误车名；将所述错误车名替换成正确车名。5.如权利要求1所述的车型名称识别方法，其特征在于，所述通过别名识别模型对所述第一数据进行别名信息提取，获得第二数据，具体为：根据汽车评论语料和基础BERT模型，建立所述汽车BERT模型；根据所述汽车评论语料和所述汽车BERT模型，建立所述全连接层神经网络模型；
根据所述汽车评论语料、所述汽车BERT模型和所述全连接层神经网络模型，建立所述条件随机场模型；将所述第一数据，按照句子进行分割，获得第三数据，将所述第三数据输入所述汽车BERT模型，获得第二向量，将所述第二向量输入所述全连接层神经网络模型，获得第一标记概率，将所述第一标记概率输入所述条件随机场模型，输出第一标注，根据所述第一标注，提取别名信息，获得所述第一别名...

【专利技术属性】
技术研发人员：周策，蓬蕾，黄忠礼，程博，
申请(专利权)人：广东数鼎科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人