Bridgestone + Enthought Edge
Один из самых ярких примеров цифровой трансформации в «тяжёлой» химии. Переход от Edison-подхода к data-driven R&D через Active Learning, Gaussian Processes и Bayesian Optimization. Сокращение времени разработки составов на 30–50%.
- ОтрасльРезиновые смеси, шины (Bridgestone — Tier-1 в шинной индустрии)
- ПодходActive Learning + Human-in-the-loop вместо «100 проб в лаборатории»
- МоделиGaussian Processes, Bayesian Optimization, Random Forest / XGBoost
- Сокращение цикла30–50% времени на разработку новых составов
- Команда15–25 чел. подрядчика + ~10 внутренних (Data Scientists + Chemical Engineers)
- Бюджет (типичный для Tier-1)$1,5–5 млн (лицензии, кастомная разработка, очистка данных)
Архитектуры моделей
- Gaussian Processes — суррогатные модели для малых химических датасетов: предсказывают результат + степень неуверенности.
- Bayesian Optimization — баланс exploration (новые компоненты) и exploitation (известные удачные составы).
- Random Forest / XGBoost — оценка важности признаков: какой полимер или присадка сильнее влияет на износостойкость.
Active Learning и Human-in-the-loop
В химии данных мало — эксперименты дорогие. Стратегия: модель обучается на ~1000 образцах и виртуально проверяет миллионы комбинаций. Затем указывает химику: «Я не уверена в этом диапазоне концентраций — проведите реальный эксперимент здесь». Результат возвращается в модель и улучшает её.
Сбор «грязных» данных
Извлечение результатов лабораторных испытаний за последние 20–30 лет из PDF, Excel и бумажных журналов. В химии разметка = результат теста: «Состав X при температуре Y показал вязкость Z».
Главный сдвиг
Данные перестали быть «отчётами о тестах» и стали активом для обучения. Вместо 100 составов в лаборатории — 5, отобранных алгоритмом.
Перенос на машинные масла и антифризы
Соответствие параметров
- FeaturesКонцентрация полимерных загустителей, ингибиторов коррозии, щелочное число, тип базового масла (II/III/IV).
- TargetsИндекс вязкости, температура вспышки, NOACK, стабильность к сдвигу, антикоррозия.
- Главная сложностьВзаимодействие присадок (синергия и антагонизм) — нелинейные связи хорошо ловятся ML.
Рекомендации
- Не начинать с Deep LearningОбычные нейросети для химии переобучаются. Предпочтительны байесовские методы и Random Forest.
- Химический онтологический словарьСтандартизация по CAS и функциональным группам; «Присадка А» = «Компонент Б» у другого поставщика.
- Гибридные моделиЗаконы физики/химии (уравнения вязкости) + ML — модель не предлагает «галлюциногенный» рецепт.
Дорожная карта 12–14 месяцев
1. Цифровой фундамент
- Инвентаризация протоколов (ASTM/ГОСТ) за 5–10 лет; единый онтологический словарь компонентов.
- Оценка качества и очистка данных; выбор стека (Enthought/Citrine или своя сборка на Scikit-optimize/GPyTorch).
2. Суррогатная модель
- Feature engineering (дескрипторы для масел); обучение модели-предсказателя (состав → свойства).
- Back-testing на старых рецептах. Критерий перехода — точность >85%.
3. Active Learning
- Bayesian Optimization; ввод ограничений (цена, нормы по цинку и т.д.).
- Цикл: ИИ предлагает составы → лаборатория тестирует → результаты возвращаются → модель уточняется.
4. Интеграция
- UI-калькулятор: ползунки присадок → мгновенный прогноз свойств.
- Автоматизация TDS и отчётов. Масштабирование на антифризы и спецжидкости.
Риски и команда
Главные риски
- Мало данных (N<500)Transfer Learning: предобучение на общедоступных физико-химических свойствах, дообучение на своих тестах.
- Смена поставщика присадокОбучать модель на свойствах химии (CAS, функциональные группы), а не на торговых названиях.
- Сопротивление персоналаПозиционировать систему как «умный калькулятор», не как замену химику.
Команда
- Product Owner1 — химик-технолог с пониманием бизнеса.
- Data Engineer1 — Excel/LIMS → единая БД.
- Data Scientist1–2 — Bayesian Optimization и табличные данные.
- Лабораторная группаСуществующий штат для проверочных тестов.
Источники
Релевантность для проекта
Самый прагматичный подход для химии с малыми датасетами: Active Learning + Gaussian Processes + физико-химические ограничения. Не требует Deep Learning и больших GPU-кластеров. Полностью соответствует ограничениям ГСМ-индустрии (дорогие тесты, малая база рецептур, частая смена поставщиков). Готовая дорожная карта на год.