← Кейсы

Hyundai Staria — мультимодальный RAG по сервисным PDF-мануалам

В рецензируемой публикации MDPI Applied Sciences (2025) описан экспериментальный контур: извлечение текста и иллюстраций из объёмных сервисных руководств Hyundai Staria, мультимодальный RAG с дообучением LoRA и сравнение с базовым RAG — как опорный пример для ассистента по техдокументации (автосервис как близкий аналог боли цеха по мануалам).

  • Сценарий ИИ-ассистент по технической документации: текст и схемы из PDF, поиск процедур, ответы с опорой на фрагменты мануала (в т.ч. с подсказкой изображений)
  • Отрасль Автосервис и послепродажное обслуживание; по типу документов — сопоставимо с промышленными паспортами, инструкциями по обслуживанию и разделами про системы помощи водителю (ADAS) и электронные блоки управления (ECU)
  • Регион Материалы бренда с корпоративным центром в Республике Корея; модель глобальная
  • Охват Академический прототип и экспертная оценка; не описание серийного заводского продукта Hyundai
  • Доказательность Высокая для методики и заявленных метрик эксперимента (рецензируемая статья); низкая как доказательство промышленного внедрения у заказчика
  • Оценка обзора Специфичность 2, независимость 3, качество метрик 3, свежесть 3 (сумма 11 из 12). Дата источников: 2026-05-01.
Стилизованная иллюстрация: страницы сервисной документации со схемами, планшет с эскизами, рабочий контекст без логотипов брендов — визуал к теме мультимодального RAG по техдокументации.

Производственный контекст

Объёмные сервис-мануалы (тысячи страниц: ADAS, блоки управления, силовая установка и др.) с плотным сочетанием текста и диаграмм. Техникам и инженерам сложно быстро находить нужные процедуры в «сыром» PDF.

Задача

Повысить точность и полноту ответов на технические вопросы по мануалам, опираясь не только на текстовый RAG, но и на изображения (мультимодальность) и связку «рисунок — пояснение».

Подход на базе ИИ и машинного обучения

Мультимодальный RAG и LoRA на модели bLLossom-8B, эмбеддинги BAAI-bge-m3; наборы для вопросов-ответов, поиска по документу (RAG) и многоходовых диалогов; разметка сходства на уровне предложений. Сравнение с базовым вариантом RAG по тем же материалам.

Данные

Извлечение текста и изображений из PDF сервисных руководств Hyundai Staria; построение датасетов для одно- и многоходовых диалогов. В статье отмечена согласованность разметки «изображение — текст» после арбитража экспертов (см. метрики ниже).

Результат и метрики

Цифры — по формулировкам и таблицам рецензируемой статьи (краткий пересказ на русский). Перекрёстная проверка: это исследование, а не корпоративный отчёт о промышленном развёртывании; метрики относятся к экспериментальной постановке и датасету авторов, а не к гарантированному эффекту «из коробки» на любой площадке.

Качество ответов и экспертная приёмка

MDPI Applied Sciences, 2025 — мультимодальный RAG по мануалам Hyundai Staria.

  • Улучшение относительно базового RAG В аннотации к статье указаны приросты порядка +3,0 п.п. по BERTScore, +3,0 п.п. по косинусной близости эмбеддингов и +18,0 п.п. по ROUGE-L; отдельно подчёрнуты улучшения в ответах, где модель опирается на изображения из мануала.
  • Экспертная оценка 20 доменных экспертов: средняя удовлетворённость ответами 4,4 из 5.
  • Согласованность разметки изображение — текст По данным раздела о датасете (после арбитража экспертов): 96,3 % согласованных пар «иллюстрация — текст».
  • Оговорка обзора BERTScore, ROUGE и косинусная близость отражают согласованность с эталонными ответами в эксперименте; перенос чисел на другой домен, язык или качество OCR требует отдельной валидации.

Источники

  1. MDPI Applied Sciences — публикация по мультимодальному RAG по сервисным мануалам Hyundai Staria, DOI 10.3390/app15158387 рецензируемый журнал исследование

Релевантность для производства

Практичный шаблон для ассистента по документации в цехе: мультимодальный RAG, дообучение (LoRA) и обязательная экспертная приёмка. Для разрозненных или скан-копий мануалов (в т.ч. не на русском) — отдельный контур OCR, мультиязычные эмбеддинги и политика цитирования страницы и рисунка первоисточника.