Бизнес, внедряющий передовые технологии (self-service BI, ИИ), без качественных данных сталкивается с серьезными проблемами в развитии. Каковы главные вызовы на этом пути и как их преодолеть, рассказывает Михаил Александров, технический руководитель Центра развития аналитических продуктов Axenix.

Бег с препятствиями

В условиях стремительного развития data-технологий организации сталкиваются с целым спектром проблем: от управления огромным объемом данных до обеспечения быстрого и безопасного обмена ими.

Сегодня можно выделить три базовых препятствия на пути data-прогресса:

— общее недоверие к точности и полноте данных;
— отсутствие четкой и релевантной в рамках отрасли модели данных;
— недостаток методов для быстрого внедрения data-инсайтов в бизнес-процессы.

Большинство корпоративных архитектур работы с данными развивались хаотично. Различные подразделения компаний независимо формировали разнообразные источники получения информации локально и в облаках. Такой подход породил многочисленные версии данных, каждая из которых обладает разной степенью точности и достоверности.

Фрагментация ограничила способность компаний создавать продуманную и каталогизированную модель данных, необходимую для развертывания передовых технологий. В итоге затормозилось масштабирование решений искусственного интеллекта, не позволив множеству компаний реализовать весь их потенциал.

Изолированные массивы препятствуют способности компаний обрабатывать и извлекать ценность из широкого спектра типов данных, и, следовательно, замедляют генерацию полезных инсайтов.

По мере ускорения потока информации, возникает необходимость в быстром доступе к операционным данным – особенно для приложений, использующих искусственный интеллект и машинное обучение.

Преодоление этих вызовов требует стратегической переоценки управления данными.

Наша специфика

В России здесь наблюдается дополнительный вызов – импортозамещение решений и инструментов для оценки качества данных и управления ими в свете ухода западных вендоров. Внимание сегодня приходится акцентировать на использовании отечественных технологий и платформ.

Хорошая новость в том, что инструменты собственной разработки и open source-решения применяются в этом сегменте довольно широко. Он исторически не был подвержен западной монополизации в той же степени, как на других ИТ-направлениях.

Плохая новость – in-house разработки в этой нише могут позволить себе только очень большие компании. СМБ-сегмент ограничен в ресурсах для подобных проектов, что ставит их перед задачей поиска альтернативных вариантов. Но доступных коробочных и облачных решений сегодня практически нет.

Данные как точка роста новых технологий, таким образом, становятся прерогативой компаний уровня крупного Enterprise. От более мелких игроков ждать data-прорыва в таких условиях нельзя: рынок готовых решений не сформировался. Им придется ждать, пока наиболее перспективные in-house разработки из проектов станут продуктами и начнут тиражироваться.

Что и как

Компании, для которых качество данных играет критическую роль в ключевых бизнес-процессах, активно переосмысливают и перестраивают работу в этом направлении или успешно с этим справились.

Они либо адаптировали open source-решения, либо ведут собственную разработку в этом направлении, стремясь обеспечить стабильность и независимость своих дата-проектов.

С переходом всего направления больших данных из фазы хайп-феномена в общепринятый инструмент для развития BI и ИИ – акцент делается на анализе пригодности данных для обучения аналитических и ИИ-моделей с последующим мониторингом проектной эксплуатации.

Здесь ключевыми становятся две составляющие:

  • 1. Анализ данных на пригодность для обучения моделей.
    Насколько данные соответствуют необходимым критериям. При этом количество данных играет существенную роль – чем их больше, тем более обученной и эффективной потенциально может стать модель.
  • 2. Мониторинг работы моделей в проектной эксплуатации.
    Следует осуществлять непрерывный анализ того, насколько данные, с которыми работает модель, соответствуют параметрам обучения, чтобы избежать проблемы «дрейфа данных» (оторванности от реального положения дел). В рамках анализа актуальности модели принимается решение: не требуется ли её переобучение.

Компании, стремящиеся обеспечить надежность данных и разработанных моделей, получают стратегическое преимущество. Что позволяет с высокой точностью и предсказуемостью реагировать на изменения и реализовывать новаторские проекты.

Отраслевые моменты

В силу отраслевых особенностей различные сектора экономики показывают значительные различия в стартовых позициях в плане качества данных.

Финтех и банковская сфера, зависящие в своей работе от строгих регуляторов (Центробанк), исторически направляли значительные ресурсы на обеспечение высокого качества данных, поскольку ошибки здесь могут иметь серьезные последствия.

Тем временем, ритейл и производство часто отличаются менее структурированными и нестабильными данными.

Разнообразие в качестве данных в различных отраслях подчеркивает необходимость отраслевого подхода к управлению данными и установлению критериев качества.

Так, точечные проверки качества данных на этапе их генерации может существенно уменьшить нагрузку, связанную с исправлением ошибок на более поздних этапах их жизненного цикла.

Приоритет должен отдаваться разработке процедур контроля, максимально приближенных к источнику данных. Они должны проверять характеристики качества данных. Такие как соответствие реальности, адекватность, релевантность и точность. Это особенно важно в условиях растущих объемов и скорости потоков.

Система решает

Еще один немаловажный критерий – экономическая стоимость ошибок, связанных с данными и их качеством.

Необходимо строго соотносить объем проверок данных с качеством принимаемых на их основе решений и последствиями для финансовых показателей компании. Поэтому управление качеством данных следует тесно интегрировать с системой управления операционными рисками.

Навигация по просторам качества данных в современных бизнес-условиях требует глубоко интегрированного, системного подхода, в котором отраслевые спецификации, технологии машинного обучения и стратегическое планирование сливаются, создавая основу для устойчивого и эффективного использования данных в различных секторах экономики.

Без выделения необходимой структуры и создания процессов внутри компании для обеспечения контроля качества данных – никакой ощутимой пользы от ИИ и других передовых ИТ-решений сегодня не получится.