Бизнес, внедряющий передовые технологии (self-service BI, ИИ), без качественных данных сталкивается с серьезными проблемами в развитии. Каковы главные вызовы на этом пути и как их преодолеть, рассказывает Михаил Александров, технический руководитель Центра развития аналитических продуктов Axenix.
Содержание:
Бег с препятствиями
В условиях стремительного развития data-технологий организации сталкиваются с целым спектром проблем: от управления огромным объемом данных до обеспечения быстрого и безопасного обмена ими.
Сегодня можно выделить три базовых препятствия на пути data-прогресса:
— общее недоверие к точности и полноте данных;
— отсутствие четкой и релевантной в рамках отрасли модели данных;
— недостаток методов для быстрого внедрения data-инсайтов в бизнес-процессы.
Большинство корпоративных архитектур работы с данными развивались хаотично. Различные подразделения компаний независимо формировали разнообразные источники получения информации локально и в облаках. Такой подход породил многочисленные версии данных, каждая из которых обладает разной степенью точности и достоверности.
Фрагментация ограничила способность компаний создавать продуманную и каталогизированную модель данных, необходимую для развертывания передовых технологий. В итоге затормозилось масштабирование решений искусственного интеллекта, не позволив множеству компаний реализовать весь их потенциал.
Изолированные массивы препятствуют способности компаний обрабатывать и извлекать ценность из широкого спектра типов данных, и, следовательно, замедляют генерацию полезных инсайтов.
По мере ускорения потока информации, возникает необходимость в быстром доступе к операционным данным – особенно для приложений, использующих искусственный интеллект и машинное обучение.
Преодоление этих вызовов требует стратегической переоценки управления данными.
Наша специфика
В России здесь наблюдается дополнительный вызов – импортозамещение решений и инструментов для оценки качества данных и управления ими в свете ухода западных вендоров. Внимание сегодня приходится акцентировать на использовании отечественных технологий и платформ.
Хорошая новость в том, что инструменты собственной разработки и open source-решения применяются в этом сегменте довольно широко. Он исторически не был подвержен западной монополизации в той же степени, как на других ИТ-направлениях.
Плохая новость – in-house разработки в этой нише могут позволить себе только очень большие компании. СМБ-сегмент ограничен в ресурсах для подобных проектов, что ставит их перед задачей поиска альтернативных вариантов. Но доступных коробочных и облачных решений сегодня практически нет.
Данные как точка роста новых технологий, таким образом, становятся прерогативой компаний уровня крупного Enterprise. От более мелких игроков ждать data-прорыва в таких условиях нельзя: рынок готовых решений не сформировался. Им придется ждать, пока наиболее перспективные in-house разработки из проектов станут продуктами и начнут тиражироваться.
Что и как
Компании, для которых качество данных играет критическую роль в ключевых бизнес-процессах, активно переосмысливают и перестраивают работу в этом направлении или успешно с этим справились.
Они либо адаптировали open source-решения, либо ведут собственную разработку в этом направлении, стремясь обеспечить стабильность и независимость своих дата-проектов.
С переходом всего направления больших данных из фазы хайп-феномена в общепринятый инструмент для развития BI и ИИ – акцент делается на анализе пригодности данных для обучения аналитических и ИИ-моделей с последующим мониторингом проектной эксплуатации.
Здесь ключевыми становятся две составляющие:
- 1. Анализ данных на пригодность для обучения моделей.
Насколько данные соответствуют необходимым критериям. При этом количество данных играет существенную роль – чем их больше, тем более обученной и эффективной потенциально может стать модель. - 2. Мониторинг работы моделей в проектной эксплуатации.
Следует осуществлять непрерывный анализ того, насколько данные, с которыми работает модель, соответствуют параметрам обучения, чтобы избежать проблемы «дрейфа данных» (оторванности от реального положения дел). В рамках анализа актуальности модели принимается решение: не требуется ли её переобучение.
Компании, стремящиеся обеспечить надежность данных и разработанных моделей, получают стратегическое преимущество. Что позволяет с высокой точностью и предсказуемостью реагировать на изменения и реализовывать новаторские проекты.
Отраслевые моменты
В силу отраслевых особенностей различные сектора экономики показывают значительные различия в стартовых позициях в плане качества данных.
Финтех и банковская сфера, зависящие в своей работе от строгих регуляторов (Центробанк), исторически направляли значительные ресурсы на обеспечение высокого качества данных, поскольку ошибки здесь могут иметь серьезные последствия.
Тем временем, ритейл и производство часто отличаются менее структурированными и нестабильными данными.
Разнообразие в качестве данных в различных отраслях подчеркивает необходимость отраслевого подхода к управлению данными и установлению критериев качества.
Так, точечные проверки качества данных на этапе их генерации может существенно уменьшить нагрузку, связанную с исправлением ошибок на более поздних этапах их жизненного цикла.
Приоритет должен отдаваться разработке процедур контроля, максимально приближенных к источнику данных. Они должны проверять характеристики качества данных. Такие как соответствие реальности, адекватность, релевантность и точность. Это особенно важно в условиях растущих объемов и скорости потоков.
Система решает
Еще один немаловажный критерий – экономическая стоимость ошибок, связанных с данными и их качеством.
Необходимо строго соотносить объем проверок данных с качеством принимаемых на их основе решений и последствиями для финансовых показателей компании. Поэтому управление качеством данных следует тесно интегрировать с системой управления операционными рисками.
Навигация по просторам качества данных в современных бизнес-условиях требует глубоко интегрированного, системного подхода, в котором отраслевые спецификации, технологии машинного обучения и стратегическое планирование сливаются, создавая основу для устойчивого и эффективного использования данных в различных секторах экономики.
Без выделения необходимой структуры и создания процессов внутри компании для обеспечения контроля качества данных – никакой ощутимой пользы от ИИ и других передовых ИТ-решений сегодня не получится.
Новые комментарии: