Hyundai Staria — мультимодальный RAG по сервисным PDF-мануалам
В рецензируемой публикации MDPI Applied Sciences (2025) описан экспериментальный контур: извлечение текста и иллюстраций из объёмных сервисных руководств Hyundai Staria, мультимодальный RAG с дообучением LoRA и сравнение с базовым RAG — как опорный пример для ассистента по техдокументации (автосервис как близкий аналог боли цеха по мануалам).
- Сценарий ИИ-ассистент по технической документации: текст и схемы из PDF, поиск процедур, ответы с опорой на фрагменты мануала (в т.ч. с подсказкой изображений)
- Отрасль Автосервис и послепродажное обслуживание; по типу документов — сопоставимо с промышленными паспортами, инструкциями по обслуживанию и разделами про системы помощи водителю (ADAS) и электронные блоки управления (ECU)
- Регион Материалы бренда с корпоративным центром в Республике Корея; модель глобальная
- Охват Академический прототип и экспертная оценка; не описание серийного заводского продукта Hyundai
- Доказательность Высокая для методики и заявленных метрик эксперимента (рецензируемая статья); низкая как доказательство промышленного внедрения у заказчика
- Оценка обзора Специфичность 2, независимость 3, качество метрик 3, свежесть 3 (сумма 11 из 12). Дата источников: 2026-05-01.
Производственный контекст
Объёмные сервис-мануалы (тысячи страниц: ADAS, блоки управления, силовая установка и др.) с плотным сочетанием текста и диаграмм. Техникам и инженерам сложно быстро находить нужные процедуры в «сыром» PDF.
Задача
Повысить точность и полноту ответов на технические вопросы по мануалам, опираясь не только на текстовый RAG, но и на изображения (мультимодальность) и связку «рисунок — пояснение».
Подход на базе ИИ и машинного обучения
Мультимодальный RAG и LoRA на модели bLLossom-8B, эмбеддинги BAAI-bge-m3; наборы для вопросов-ответов, поиска по документу (RAG) и многоходовых диалогов; разметка сходства на уровне предложений. Сравнение с базовым вариантом RAG по тем же материалам.
Данные
Извлечение текста и изображений из PDF сервисных руководств Hyundai Staria; построение датасетов для одно- и многоходовых диалогов. В статье отмечена согласованность разметки «изображение — текст» после арбитража экспертов (см. метрики ниже).
Результат и метрики
Цифры — по формулировкам и таблицам рецензируемой статьи (краткий пересказ на русский). Перекрёстная проверка: это исследование, а не корпоративный отчёт о промышленном развёртывании; метрики относятся к экспериментальной постановке и датасету авторов, а не к гарантированному эффекту «из коробки» на любой площадке.
Качество ответов и экспертная приёмка
- Улучшение относительно базового RAG В аннотации к статье указаны приросты порядка +3,0 п.п. по BERTScore, +3,0 п.п. по косинусной близости эмбеддингов и +18,0 п.п. по ROUGE-L; отдельно подчёрнуты улучшения в ответах, где модель опирается на изображения из мануала.
- Экспертная оценка 20 доменных экспертов: средняя удовлетворённость ответами 4,4 из 5.
- Согласованность разметки изображение — текст По данным раздела о датасете (после арбитража экспертов): 96,3 % согласованных пар «иллюстрация — текст».
- Оговорка обзора BERTScore, ROUGE и косинусная близость отражают согласованность с эталонными ответами в эксперименте; перенос чисел на другой домен, язык или качество OCR требует отдельной валидации.
Источники
- MDPI Applied Sciences — публикация по мультимодальному RAG по сервисным мануалам Hyundai Staria, DOI 10.3390/app15158387 рецензируемый журнал исследование
Релевантность для производства
Практичный шаблон для ассистента по документации в цехе: мультимодальный RAG, дообучение (LoRA) и обязательная экспертная приёмка. Для разрозненных или скан-копий мануалов (в т.ч. не на русском) — отдельный контур OCR, мультиязычные эмбеддинги и политика цитирования страницы и рисунка первоисточника.