Data Science: як аналіз даних допомагає коректно прогнозувати роботу компаній
За час масового поширення технологій людина згенерувала величезну кількість даних, які неможливо швидко обробити та візуалізувати вручну. На допомогу цьому приходить Data Science. Про роботу цього напряму та про реальні кейси розповіли Олександр Перхун, керівник Центру управління даними Метінвест Діджитал, та Антон Кудрявцев, керівник відділу Data Science в Метінвест Діджитал.
Яка суперсила Data Science допомагає швидко і легко вирішувати складні задачі?
Data Science використовує аналіз великих обсягів даних, статистику, машинне навчання та інші методи для отримання корисних знань й прогнозування. Data Science використовується для:
1. Прогнозування: в Data Science можна розробляти моделі для прогнозування майбутніх подій, таких як продажі, попит на товари тощо.
2. Класифікація: можна використовувати алгоритми машинного навчання для розподілу об'єктів на категорії або класи.
3. Кластеризація: Data Science допомагає групувати схожі об'єкти в кластери для виявлення закономірностей.
4. Візуалізація: візуалізація даних допомагає представити інформацію у зрозумілій формі, щоб приймати найефективніші рішення.
5. Оптимізація: Data Science може бути використана для пошуку оптимальних рішень у різних сферах, включаючи логістику, фінанси та виробництво тощо.
Над чим працюють фахівці Data Science в Метінвест Діджитал?
«Фахівці Data Science нашого підрозділу розробляють прогнозні, оптимізаційні та AI моделі, а також моделі, написані мовою програмування Python. Розробки ведуться на базі Azure Machine Learning, який дозволяє розгорнути моделі та забезпечити інтеграцію з іншими елементами Microsoft Azure», - розповів Олександр Перхун.
«Як це працює? Людина завантажує до комп'ютера навчальну вибірку з історичним масивом вхідних даних і масивом вихідних результатів. Комп’ютер, використовуючи математичні алгоритми, виявляє закономірності, і надалі може прогнозувати точний результат, коли фактичного результату ще не існує», - зазначив Антон Кудрявцев.
Основна ідея машинного навчання полягає в тому, щоб комп'ютерні системи були здатні покращувати свою продуктивність в результаті навчання на даних замість безпосереднього програмування.
Аналіз даних та використання Data Science рішень допомагає прогнозувати важливі індикатори, а це дає можливість приймати важливі та більш точні бізнес-рішення, які безпосередньо вплинуть на подальшу роботу компаній. Ось основні кроки й аспекти, які важливі для досягнення точних прогнозів:
1. Початковий етап – це збір та обробка вхідних даних. Цей етап містить в собі очищення даних, видалення аномалій та неправильних значень, генерування нових показників, а також конвертацію даних у структурований формат.
2. Вибір правильних моделей аналізу даних – ключовий аспект. Він може містити в собі використання методів машинного навчання, статистичного аналізу, інтелектуальних алгоритмів тощо. Вибір моделей повинен враховувати специфіку даних та тип прогнозованої інформації.
3. Тренування моделей: моделі потребують тренування на наявних даних, щоб вони могли розпізнавати закономірності й зв'язки в даних.
4. Валідація і тестування: моделі повинні бути перевірені на тестових даних для оцінки їхньої точності та ефективності.
5. Після створення модель має бути впроваджена в робоче середовище, а також мати систему моніторингу для постійного оновлення та покращення прогнозів.
6. І, як результат, прогнози, отримані з моделей, можуть використовуватися для прийняття обґрунтованих рішень щодо подальшої роботи, стратегії бізнесу, оптимізації процесів тощо.
Важливо також враховувати, що аналіз даних – це ітеративний процес, і моделі можуть потребувати постійного оновлення та вдосконалення для збереження своєї актуальності та точності в змінному середовищі.
Які розробки у своєму портфелі має команда Data Science в Метінвест Діджитал?
1. Проєкт «Прогнозування вмісту кремнію в чавуні»
Задача: виплавка чавуну в доменній печі вимагає постійного підтримання температурного балансу, інакше є ризик зайвих витрат палива. Вміст кремнію є ключовим показником для відстеження теплового балансу доменної печі. Прогнозування вмісту кремнію неможливо здійснити вручну через складність процесу та різноманітність параметрів, що впливають, і залежності між ними. Створена прогнозована модель допоможе у вирішенні даної задачі.
Отримані переваги: отримання рекомендаційної системи, відстеження параметрів в режимі реального часу, висока точність моделі вмісту кремнію до 75%, потенційна річна економія від зменшення витрат на паливо $40 млн.
2. MVP проєкт «Система моніторингу завантаженості працівників однієї з дирекцій компанії»
Задача: наразі фінансовий відділ вручну здійснює обробку документів. Кожен документ повинен пройти кілька етапів, кожен з яких виконується окремим підрозділом. Неможливо контролювати документообіг без належного цифрового інструменту – моніторингу/інформаційної панелі, яка враховує поточне робоче навантаження на кожному етапі та здатне передбачити майбутнє робоче навантаження на основі даних з історичного періоду.
Отримані переваги: моніторинг і розподіл навантаження, можливість бачити майбутнє навантаження (до 5 днів), відстеження аномалій, потенційне зростання продуктивності відділу до 15%, трекінг виконання KPI.
3. MVP проєкт «Оптимізація витрат феросплавів»
Задача: додавання феросплавів до отриманої сталі дозволяє отримати покращений продукт з кількома специфічними механічними властивостями, такими, як в'язкість, м'якість, стійкість до корозії та окислення, міцність на розрив тощо. Оскільки даний матеріал є дуже дорогим, постає задача вибору оптимальної кількості необхідного феросплаву для досягнення заданих параметрів сталі. Як показали результати MVP, з цією задачею може впоратись машинне навчання.
Отримані переваги: отримана річна економія до $200 тис., можливість приймати рішення на основі AI, масштабування на інші підрозділи.
4. Проєкт «Прогнозування спожитку природного газу»
Задача: природний газ є одним з основних та найбільш дефіцитних паливних елементів. Невідповідність плану та факту споживання газу призводить до додаткових фінансових витрат. Розроблена система на основі Data Science враховує плани виробництва, планові ремонти та простої для прогнозування споживання природного газу.
Отримані переваги: автоматизація розрахунку планового спожитку, покращення точності планування спожитку, моніторинг спожитку та відстеження аномалій, річна економія від покращення точності на 1% складає до $75 тис. на один цех.