Качество данных: от стратегии к практике

Ни большой объем данных, ни технологии искусственного интеллекта не принесут пользы компаниям, если они опираются на грязные данные. Для превращения сырых сведений в бизнес-активы требуется система управления качеством корпоративных данных.

Дмитрий Волков, Алексей Незнанов

Данные — топливо для систем искусственного интеллекта, сырье для аналитических алгоритмов и основа для систем автоматизации бизнес-процессов. Однако наивно ожидать, что данные изначально будут чистыми и пригодными для обработки, а если исходные данные некорректны, то и результаты будут соответствующими.

Что можно сделать для устранения дефектов в данных?

Как определить, что следует исправить, а что нет?

Как узнать, когда надо устранить проблему, а когда лучше ничего не трогать?

Иначе говоря: как управлять качеством данных?

Технологии искусственного интеллекта завораживают как представителей бизнеса, так и чиновников — многие компании и государственные учреждения стремятся использовать соответствующие инструменты при принятии решений, основываясь на имеющихся у них исторических и оперативных данных. Данные — ключевой фактор цифровой экономики, однако на деле успешных проектов оказывается много меньше, чем ожидается. Виной тому — низкое качество данных, беспорядок в которых не позволяет получить достоверные результаты от эксплуатации сложных и дорогих систем интеллектуальной автоматизации.

Аналитики бьют тревогу: только 25% сотрудников компаний по всему миру готовы эффективно использовать данные в своей работе, а остальные сомневаются в своих способностях понимать данные (разбираться в первоисточниках, задавать вопросы, оценивать достоверность, ориентироваться в семантике данных и пр.). Как следствие, лишь чуть более трети сотрудников в той или иной степени доверяют собственным решениям, полученным только на основе данных, а более половины при принятии решений дополнительно консультируются с экспертами и надеются на собственную интуицию.

Переизбыток различных данных и изобилие разнообразных средств работы с ними могут ввести в заблуждение: может показаться, что для монетизации данных и повышения производительности сотрудников достаточно лишь инвестировать в передовые инструменты (машинное обучение, средства бизнес-аналитики и пр.), позволяющие, например, разработать индивидуальные привлекательные предложения за счет глубокого понимания рынка и потребителей. Но большие данные (3V: Variety, Velocity, Volume), которыми обладают компании, ничего не стоят без полноты и достоверности (Veracity).

Количество, скорость сбора и разнообразие сами по себе не гарантируют получения массива качественных данных, пригодных для работы. Мало того, как свидетельствуют многочисленные опросы, избыток данных вызывает у сотрудников стресс, а разнообразие информации, разрозненность ее источников и отсутствие стандартизации — это ключевые факторы, мешающие компаниям получать новые знания из данных.

Безусловно, инструменты необходимы: ожидать, что сегодня сотрудники будут без них работать с данными, — то же самое, что предлагать им идти на охоту без оружия и снаряжения. Сотрудники уже «скрылись в чаще данных», но слепо блуждают в ней и даже если случайно набредут на нужный пул полезных сведений, могут оказаться перед ним безоружны. Тем не менее инструменты доступа к данным — это необходимое, но недостаточное условие. Требуется создать условия для уверенного самостоятельного использования данных сотрудниками — нужна корпоративная стратегия как управления данными в целом, так и их качеством, а главное — необходима культура работы с данными.

Рис. 1. Конвейер монетизации данных

Конвейер на производстве позволил в свое время на порядок уменьшить время сборки автомобилей. Аналогичный конвейер (рис. 1) нужен и при работе с данными: он должен предусматривать автоматическую проверку качества всех «узлов» для их доставки на линию «сборки». Вполне логично предположить, что на этом конвейере работают множество специалистов: эксперты по качеству данных знают, где взять данные и как оценить их качество; инженеры по данным понимают, как получить данные, часто разбросанные по разным источникам, хранящиеся в разных форматах, поступающие с разной скоростью и в разных объемах; аналитики способны извлечь из данных полезную информацию; специалисты по исследованию данных (data scientist) могут обнаружить скрытые закономерности, подозрительные аномалии или логические связи в данных. Здесь нужны и другие специалисты по организации и поддержке «дата-проводов» (DataOps): коммуникаторы, юристы, сотрудники службы информационной безопасности.

Стратегия

Обычно о стратегии управления качеством данных начинают задумываться, как только в компании терпит неудачу первый проект внедрения сквозной аналитики. В этот момент понимают, что аналитика не работает из-за грязных данных и в авральном порядке начинают работать над их качеством. Через некоторое время все более-менее успокаивается, в передовых организациях создают соответствующие службы, отвечающие за качество данных, и начинают управлять мастер-данными, а в других — лишь добиваются решения частной задачи и через некоторое время снова проваливаются с качеством.

Рис. 2. Место управления качеством данных в общем спектре работ с корпоративной информацией

Как видно из рис. 2, деятельность по управлению качеством в общем объеме работ по управлению корпоративными данными выглядит достаточно скромно, однако если, например, в озере данных не окажется данных лишь от одного подразделения компании, то такое озеро вполне может стать «болотом», хотя вклад информации именно из этого подразделения может не превышать и 0,5% от общего объёма всех источников.

При разработке стратегии управления качеством данных следует прежде всего оринтироваться на цели бизнеса и текущие задачи организации, ответив на вопрос: зачем сейчас нужны данные?

Следует отметить, что стратегию нельзя «списать» у тех, кто этот путь уже прошел: она индивидуальна для каждой компании, а при ее разработке можно лишь руководствоваться общими рекомендациями.

Стратегия управления качеством данных строится с учетом следующих принципов: прозрачная и понятная модель показателей качества; институт владельцев и кураторов данных; явные приоритеты задач обработки данных; сбалансированность требований к качеству данных; информированность всех участников бизнес-процессов о качестве данных; максимальная автоматизация и воспроизводимость. Очевидно, что для выполнения всех этих принципов потребуется междисциплинарная многофункциональная команда, включающая руководителей информационных продуктов, экспертов по управлению данными и руководителей по направлениям продаж, маркетинга и операциям.

Стратегия управления качеством данных должна учитывать политику управления данными (Data Governance); предусматривать выполнение мероприятий по профилированию данных (Data Profiling), их сопоставлению и гармонизации (Data Matching); включать подготовку отчетов о качестве данных (Data Quality Reporting) и систему управления мастер-данными (Master Data Management, MDM); предусматривать средства интеграции данных, например о клиентах (Customer Data Integration, CDI); описывать интерфейсы к подсистемам управления информацией о продукте (Product Information Management, PIM) и управления цифровыми активами (Digital Asset Management, DAM). Любая серьезная организация или корпорация просто обязана иметь своего специалиста по настройке процессов управления данными и анализа их качества, причем с полномочиями на уровне топ-менеджера, отвечающего за принятие политик по управлению данными в целом.

Рис.3

Циклический конвейер управления качеством данных (рис. 3) может включать следующие процессы:

анализ бизнес-задачи;
сбор метаданных и их гармонизация с мастер-данными и разделяемыми справочниками;
создание модели данных и описание их потоков (архитектура данных);
профилирование данных — сбор характеристик данных, их исследование;
разработка показателей, тестов и метрик;
контроль, мониторинг и анализ качества;
разработка процедур контроля и расчета метрик;
устранение инцидентов, очистка данных;
раскрытие сведений о качестве данных;
анализ инцидентов, обратная связь с поставщиками данных.

Профилирование данных заключается в сборе характеристик данных и их исследовании: необходимо оценить распределение величин, выбросы, параметры выборки, пропущенные значения, нарушение целостности, несоответствие бизнес-задаче и пр. Метрики непосредственно зависят от конкретной задачи. Потребитель данных формулирует требования к их качеству, например: доля бракованных записей, отклонение от целевого значения, отклонение от исторического среднего, базовое значение, агрегированное значение и пр. Контроль и мониторинг качества выполняет эксперт по качеству данных, в идеале в одном лице совмещающий три вида экспертизы (специалист по статистике, эксперт в конкретной предметной области, специалист по методологии анализа и обработки данных).

Сотрудников компании нужно мотивировать повышать качество данных, однако иногда по разным причинам им выгодно намеренно ухудшать качество данных. В какой-то степени обнаружить это помогает аудит качества, проводимый путем кросс-проверок и связывания данных с мастер-данными, причем аналитик, эксперт по качеству, владелец данных и их потребитель договариваются о процедурах контроля, что позволяет выработать согласованную позицию.

Очистка данных возможна далеко не всегда и определяется конкретным этапом управления качеством данных. Для первичных данных эффективны системы ввода с проверкой и контролем ошибок, а также двухэтапный аудит: сначала выборочный аудит отдельных записей, а потом аудит аудита. Так сейчас работают, например, агрегаторы клинических данных.

Хороший пример — Единая радиологическая информационная система (ЕРИС) с соответствующим контролем, предусматривающим аудит с проверкой протоколов и обучением персонала в первичном звене. Однако при очистке данных, возникающих дальше по цепочке, могут возникнуть проблемы: например, требуется обращение ко всем элементам данных, а значит, встает вопрос прав доступа к ним. Особенно сложна ситуация с персональными данными: не создано условий для официального использования защищенных хранилищ персональных данных для совместного использования несколькими организациями (даже на платформе ЕГАИС) и вероятность получить доступ к такому хранилищу для гармонизации персональных данных весьма мала.

В стратегии должен быть предусмотрен постоянный контроль за данными с целью отслеживания характеристик качества через определенные промежутки времени, однако часто это сложно и дорого, поэтому обычно чем-то пренебрегают — например, вводят понятие достаточности данных либо отдельно оценивают непротиворечивость наборов и корректность данных. При этом нередко используются выборочные проверки: в частности, если какая-то часть данных была введена вручную, то очевидно, что здесь могут быть ошибки. Если система ввода не позволяет допустить ошибки или автоматически их исправляет, то качество будет на порядок выше. Этим объясняется, например, большой разброс в качестве данных у различных медицинских информационных систем: в них по-разному организован ввод данных.

Базовые стандарты

Для исключения разночтений, при сборе простых характеристик нужной оценки качества данных применяются стандарты (начиная с ГОСТ 56215), регламентирующие понимание и применение терминов.

Стандарты группы ISO/TS 8000 и перевод (ГОСТ Р 56214-2014/ISO/TS 8000-1:2011 «Качество данных. Часть 1. Обзор» (docs.cntd.ru/document/1200114769)) — более 20 спецификаций, к которым сейчас активно добавляются новые:

a. части 1–99: «Качество общих данных»;

b. части 100–199: «Качество основных данных»;

c. части 200–299: «Качество данных в транзакциях»;

d. части 300–399: «Качество данных о продукции».

Принципы стандартов 8000:

качество применимо к данным, имеющим определенное назначение, учитывающимся при принятии какого-либо решения;

качество данных затрагивает нужные и подходящие данные, уместные в подходящем месте в подходящее время;

качество данных отвечает требованиям потребителя;

качество данных предотвращает повторение дефектов данных и сокращает избыточные расходы.

Международные стандарты группы ISO 25000 (iso25000.com) — это три главных стандарта: 25010, 25012 и 25040. Они определяют качество программного продукта с акцентом на общей модели качества данных, представленных в структурированном виде для информационной системы, а также критерии качества «продукта данных» как специального вида программного продукта.

Термины

Основные термины определяются, в частности, в ГОСТ Р ИСО 8000-2-2019 «Качество данных. Часть 2. Словарь».

Совокупность (набор данных, data set) — логически значимая группа данных.

Метаданные (metadata) — данные, определяющие и описывающие другие данные.

Качество данных (data quality) — степень, с которой набор характеристик, присущих данным, отвечает конкретным требованиям с точки зрения их применения. Неправильно выстроенные уровни качества данных непосредственно влияют на успех проекта: можно либо задать слишком высокий уровень и не достигнуть его, либо установить слишком низкий уровень и тогда будет потерян смысл системы аналитики.

Управление качеством данных (data quality management, DQM) — согласованная деятельность по контролю и управлению структурой, имеющей непосредственное отношение к качеству данных, обеспечение соответствия данных целям их использования с поддержанием полноты, точности, корректности и своевременности.

Верификация (verification) — подтверждение посредством представления объективных свидетельств того, что установленные требования выполнены.

Полнота и завершенность данных (data completeness) — качество всех имеющихся у пользователя данных, которыми он владеет на определенный момент. Полнота характеризует подтвержденную достаточность данных для достижения конкретной цели.

Авторитетный источник данных (authoritative data source) — владелец процесса, производящего данные.

Утвержденное эталонное значение (accepted reference value) — значение, применяемое в качестве согласованной ссылки при сравнении данных (реестр).

Истинное значение (true value) — значение параметров характеристики какого-либо объекта в определенных условиях.

Качество данных — комплексная характеристика, которую присваивают источникам или наборам данных для их сравнения и использования в конкретных целях. Нельзя говорить о качестве данных в отрыве от цели их использования — эта характеристика строится с учетом множества параметров, начиная от таких простых, как объем данных, и заканчивая такими сложными, как стилистика текста на естественном языке. При оценке качества важны следующие параметры: непротиворечивость — отсутствие ошибок, корректность и пригодность для достижения цели (процент ошибочно введенных данных, процент доказанных ошибок и пр.); актуальность — связанность данных с конкретным моментом времени (дата последнего обновления, средняя дата набора и пр.).

Для большинства типичных применений имеются готовые метрики — всевозможные сборки в одну оценку отдельных характеристик данных, а также популярные приложения для работы с конкретными наборами и источниками данных. Однако, когда итоговый рабочий набор собирается, например, из четырех, и при этом один взят из открытых источников, другой — стандартный справочник, третий — корпоративные данные, а четвертый — исторические данные о продажах, могут возникнуть проблемы. У всех источников разные характеристики качества, и при их взаимной гармонизации надо знать, как изменяются эти характеристики, что происходит при иерархическом выстраивании данных и когда имеются связи «многие ко многим», а также выявлять ошибки на верхних уровнях иерархии. Нельзя говорить, что при сборе наборов разного качества получится нечто среднее.

Инструменты

Для поддержки цикла обеспечения качества данных необходимы инструменты, помогающие сформировать единый взгляд на данные. Рынок средств управления качеством данных растет почти на 20% в год и к 2022 году составит 1,4 млрд долл. Причинами такого интереса являются увеличение объемов данных, рост количества источников, усиление регуляторного давления и рисков для репутации бренда.

Ключевые игроки рынка решений по управлению качеством данных: Ataccama, Alteryx, Experian, IBM, Informatica, Information Builders, Microsoft, Oracle, Pitney Bowes, SAP, SAS Institute, Syncsort, Talend, Trianz, Tamr, Tibco и Unidata. Инструментов, используемых для управления качеством данных, достаточно много, и условно их можно разделить на пять групп:

универсальные решения: платформы от Informatica, IBM, MS Data Quaity Services, SAP, Unidata;
специализированные системы: Informatica Data Quality, SAS DQ, SAP Data Services, IBM InfoSphere QualityStage, Unidata, Experian Data Quality, TIBCO Clarity; кроме этого, соответствующие решения предлагают компании Talend, Ataccama;
управление реестрами и справочниками: Informatica Master Data Management, IBM InfoSphere MDM, Ataccama MDC, Talend, Unidata;
интеграция и очистка данных: Informatica Power Center, SAS Data Management, Syncsort Trillium, TIBCO Clarity, Talend Data Quality, Alteryx, Pentaho, Unidata;
управление метаданными и Data Governance: Informatica Enterprise Data Catalog и Axon, Alation, Collibra Data Governance Center, Unidata.

Кроме того, широкое распространение получили открытые экосистемы работы с данными, например, на основе языка R (cran.r-project.org/package=dlookr, cran.r-project.org/package=dataQualityR).

Рынок инструментов управления качеством данных весьма динамичный, и его мониторинг осуществляется на многих ресурсах, например: G2 Grid for Data Quality (www.g2.com/categories/data-quality). Имеются обзоры от аналитиков, например: www.gartner.com/reviews/market/data-quality-tools.

Классификация данных

С точки зрения управления первичные данные обычно делят на четыре класса:

Мастер-данные (master-data) определяют ключевые, представляющие особую ценность для организации или бизнеса и относительно редко изменяемые сущности.
Разделяемые справочники (reference data) систематизируют и классифицируют другие данные, а также связывают между собой данные различных организаций. Сегодня на эту роль претендуют открытые данные (open data) любых уровней — от федеральных до местных.
Оперативные (транзакционные) данные (transactional data) отражают информацию о ходе исполнения бизнес-процессов.
Исторические данные (historical data) образованы из прошлых версий мастер-данных, разделяемых справочников и транзакционных данных, возникших после завершения соответствующих бизнес-процессов. Такие данные явно привязаны ко времени свершения с указанием периода актуальности для записей справочников и реестров, конкретной исторической глубины. По сути, исторические данные — это один из важнейших ресурсов компании или организации, такие данные купить нельзя.

Все качественные данные в конечном итоге должны становиться частью знаний (knowledge) с формально описанной семантикой (рис. 1), что и позволяет наиболее эффективно строить интеллектуальные системы, а не просто автоматизировать бизнес-процессы. Именно качество данных определяет качество интеллектуальных методов анализа данных.

Практика

Проблема управления качеством актуальна для современных вертикально интегрированных компаний, все решения в которых все чаще принимаются сегодня на основе данных и при активном применении цифровых двойников. Как отмечает автор доклада, до 70% цифровых инициатив в таких компаниях зависит от качества и доступности данных. Для таких компаний жизненно важно вести единый актуальный управляемый каталог бизнес-правил по качеству данных, поддерживать инструменты связывания правил по качеству и наборов данных, а также выполнять аудит качества по всей цепочке происхождения данных от источника до потребителя, используя для этого витрины и приложения бизнес-аналитики.

В ряде корпораций хорошо себя зарекомендовал пользовательский портал для просмотра глоссария, визуализации траектории происхождения данных и мониторинга изменения правил оценки их качества. На основе таких сведений эксперт по качеству данных создает актуальное описание бизнес-правил (с помощью конструктора или языка программирования), опираясь на структуру таблиц корпоративного озера данных. Каждому бизнес-правилу присваиваются его измерение (метрика) и уровень критичности, а также указываются связанные роли. Создается реестр бизнес-правил с возможностью фильтрации и поиска, добавления атрибутов. Все бизнес-правила связываются с наборами данных в озере или хранилище.

По мере выполнения бизнес-процессов происходит профилирование полей наборов данных, позволяющее выявлять их типы и формат, обнаруживать некорректные и пустые значения, оценивать разброс значений и их частотное распределение, а также степень схожести с полями других таблиц по таким параметрам, как наименования, похожесть значений, похожесть типов, похожесть масок.

Наличие системы сертификации источников данных, возможность с помощью инструментов Data Governance обращаться к любому объекту из любого бизнес-приложения, подписка на изменения объектов и наборов данных, автоматическое обнаружение дублей и сквозные правила по качеству на уровне бизнес-показателей — все это в конечном итоге способствует повышению уровня доверия к данным из корпоративного озера. Следует отметить, что, вопреки бытующему мнению, для пользователей озера данных, как, собственно и для потребителей питьевой воды из озера обычного, прежде всего важно доверие к данным (чистоте и качеству воды), а не возможность получения красивых аналитических отчетов (пользование красивой кружкой).

В отличие от вертикально интегрированных компаний (в них, как правило, присутствует централизованная координация работ по управлению данными), обеспечению качества государственных данных в таких масштабных проектах, как Национальная система управления данными (НСУД), препятствуют противоречивые интересы различных ведомств, нормативные ограничения в принятии решений и продолжительность изменений нормативно-правовых актов. Интеграционные проекты для различных ведомственных информационных систем, сопровождаемые долгими согласованиями изменений между различными ведомствами, также усложняют процессы управления качеством данных.

Задача НСУД — обеспечить доверие граждан и бизнеса к государственным данным, для чего необходимы:

полнота данных (наличие сведений обо всех объектах учета, но без избыточности);
достоверность (актуальность и реальность данных на момент запроса, отсутствие ошибок);
согласованность (соответствие эталонным данным);
уникальность (исключение дублирования и избыточных атрибутов, использование эталонных атрибутов).

Естественно, ответ на запрос при работе с данными должен формироваться за разумные сроки и с учетом действующих нормативных оснований.

Цикл управления качеством государственных данных достаточно стандартный и напоминает общий (рис. 3), включая: построение (актуализацию) модели данных; определение и настройку правил контроля качества записей и массивов; контроль качества при обновлении данных в витринах для всех поставщиков; управление инцидентами качества; регулярный пересмотр модели и правил. Как и в проектах управления качеством данных для корпораций, при работе с государственными данными требуется определить ответственных — экспертов по качеству данных и инженеров по данным.

Другой пример, иллюстрирующий важность работ по управлению качеством данных, — проект для Счетной палаты РФ, особую важность в котором играет профилирование данных, позволяющее выявить аномалии, оценить качество данных, исследовать метаданные, опираясь на описательную статистику по источнику данных (минимум, максимум, среднее, мода, процентиль, стандартное отклонение, частота, агрегаты (количество, сумма)).

Профилирование позволяет сформировать пул «чистых» данных, в которых исключено дублирование (сдвоенные записи в базе) и пропущенные значения, выполнена очистка и нормализация (например, устранена множественность написания названий: «МИНПРОМТОРГ», «Минпромторг», «Министерство промышленности и торговли»).

Работая с таким пулом, цифровой инспектор может обнаружить, например, расхождение суммы по соглашению получателя субсидии с фактическими суммами по платежным поручениям. При этом работа ведется не со всем доступным массивом данных (открытые данные, сведения из внешних ФГИС, планы мероприятий, ведомственные базы и пр.), а лишь с заведомо подозрительными операциями.

Итак, управление качеством данных зависит от их применения, определяется критичностью и важностью наборов данных. Стратегию управления качеством нельзя заимствовать: для каждой компании и организации она своя. Однако имеются стандарты, инструменты и общие рекомендации по составу конвейера управления качеством и функциям его основных узлов.

***

Грязные данные способны похоронить любой проект, основанный на аналитике или технологиях искусственного интеллекта, независимо от того, применяются ли лучшие в индустрии алгоритмы, регулярно ли уточняются бизнес-правила или обучаются искусственные нейронные сети. Как правило, дешевле обеспечивать нужное качество данных, чем иметь дело с последствиями работы с дефектными данными.

Однако, несмотря на это, теме управления качеством данных до сих пор уделяется мало внимания, а монетизации данных часто мешают действующая бизнес-стратегия и отсутствие необходимых организационных структур работы с данными. Вместе с тем, как только бизнес поймет, что такое качественные данные, и с учетом этого знания построит свою бизнес-стратегию, сформируются и правильные структуры для их монетизации. Однако при этом следует учесть, что любая стратегия будет изначально обречена на провал, если в ней не предусмотрены мероприятия по формированию в организации культуры работы с данными.

Дмитрий Волков — старший научный сотрудник ИПМ им. М. В. Келдыша РАН,

Алексей Незнанов — старший научный сотрудник НИУ ВШЭ (Москва). Статья подготовлена на основе материалов выступления на конференции «Качество данных — 2020».

https://www.lobanov-logist.ru/library/352/64180/

https://ekspertov.ru/

https://www.osp.ru/os/2020/01/13055348/?utm_referrer=https%3A%2F%2Fzen.yandex.com

дата: 29.04.2020 16:05:54 просмотров: 3765

рейтинг:

(Голосов: 2, Рейтинг: 4.5)