Преимущества визуализации данных
НЕДЕЛЯ 2
Продолжаем Марафон!
Рады продолжить вместе с вами погружение в мир визуализации данных. На этой неделе мы приготовили для вас множество интересных тем — начиная от того, как человек воспринимает визуальную информацию, заканчивая процессом разработки готового продукта.

Как и раньше — держим прямую связь в телеграм-чате Марафона, куда вы можете присоединиться, чтобы обсуждать материалы вместе с коллегами.

Хорошей недели!
Присоединяйтесь к телеграм-чату
Напоминаем, что активное обсуждение материалов марафона проводим во внутреннем чате. Подключайтесь!
Как видеть данные
Зрение — единственный канал восприятия человека, который обрабатывает максимально возможное количество информации подсознательно.

При этом, наши глаза — не фотоаппарат. Органы зрения действуют совместно с мозгом, который определенным образом «истолковывает» видимый мир. Например, мы замечаем вот такие визуальные подсказки для мозга: в первую очередь, обращаем внимание на тот элемент, который отличается от своего окружения.

Такие подсказки помогают нам воспринимать любые визуальные материалы, в том числе — диаграммы и графики.
Pre-attentive attributes
Во второй половине ХХ века — в начале XXI было проведено несколько исследований по восприятию визуальной информации — того, как мы считываем данные в визуальной форме. Исследователи выделили несколько «визуальных кодировок», которые позволяют закодировать цифровые данные при помощи диаграмм.
Визуальные кодировки (visual encodings)
Разные визуальные кодировки решают разные задачи. Некоторые кодировки лучше передают значения переменных, а другие — эффективнее помогают передавать непохожесть категорий.

В первом случае, визуальные кодировки работают на то, чтобы дать нам понимание изменения показателя, например, чем больше площадь, тем больше значение показателя, или чем ниже столбец, тем меньше значение.

Во втором случае, кодировки помогают нам дифференцировать категории, чтобы мы знали — все красные столбики относятся к клиенту А, а все синие — к клиенту Б.

Анатомия диаграммы
Теперь посмотрим, как выделенные визуальные кодировки помогают нам считывать визуализацию.

Любая диаграмма состоит из четырех частей: системы координат, шкалы, визуальной кодировки и контекста. Каждая часть выполняет свою отдельную функцию, а вместе они обеспечивают простое и быстрое понимание диаграммы.
система координат
Внешний вид диаграммы полностью зависит от выбранной системы координат. Существуют 3 вида системы координат: декартова, полярная и географическая. Декартова система координат всем знакома со школы: самые распространенная с координатами X и Y. В полярной системе координаты располагаются в соответствии с радиусом и величиной угла. Гео-система использует широту и долготу как координаты, позволяя строить карты.
шкалы
Благодаря подписям данных на шкалах, мы понимаем на что мы смотрим, какая размерность у графика, что представляет каждая категория. Шкалы также определяют как будет выглядеть конечный график.
визуальная кодировка
Данные должны быть правильно закодированы для того, чтобы они были понятны. Визуальная кодировка, которую вы будете использовать, зависит от природы ваших данных и вашей цели.

Визуальная кодировка может выражаться через:
  • Столбцы
  • Линии
  • Точки
  • Символы (квадраты, звездочки, треугольники…)
  • Площадь
  • Радиус угла
  • Направление
контекст
Все то, что "окружает" визуализацию и предоставляет понимание данных на ней: заголовки, комментарии, аннотации и примечания. Контекст помогает читателю составить понимание о тех данных, которые визуализированы на диаграмме.
Мы будем подробно изучать разные виды визуализации данных на третьей неделе Марафона.
Как перейти от таблиц Excel к визуализации
Чтобы начать работать с данными визуально, давайте сначала посмотрим, как путь проходят данные в типовой организации: от сбора и обработки до принятия решений.

До того, как превратиться в полезное бизнес-решение или ценное знание, данные проходят 7 крупных этапов. Путь цикличен — начинается с цели и вопросов, которые у вас есть, а заканчивается оценкой и принятием решений.
На каждом этапе работы с данными важны инструменты. Инструменты — это все то, что помогает в транспортировке данных на каждый последующий шаг.

В каждой компании свой набор инструментов. От Excel и Google Sheets до корпоративных хранилищ данных. На физических серверах в дата-офисе компании до аренды места в облачных хранилищах. В базах данных, платных и бесплатных. Инструменты для очистки и преобразования данных. BI-инструменты. Макросы в Excel. Программирование и скрипты. Приложения для презентации и совместного обсуждения.

Поэтому, Excel может оставаться на тех этапах процесса, где его сильные стороны действительно помогают решать задачу эффективно. Например, при просмотре готовой таблицы с данными или при проведении первичного, беглого анализа.
Преимущества визуализации перед таблицами
Таблица в Excel выступает одновременно и как форма хранения данных, и как способ их презентации. Но это зачастую неэффективно.

Как способ визуализации, таблица передает данные с высокой точностью. В таблицах мы можем проводить наиболее детальные сравнения по разным срезам категорий. При этом, структура таблиц не ограничивает нас в формате данных, одинаково точно показывая целые числа, числа с десятичной частью и проценты.

Таблицы — хороший способ представления данных там, где нужна точность и конкретика.

Но у таблиц есть свои недостатки. При большом количестве данных, таблицы уже достаточно плохо справляются с передачей информации. Аналитикам сложно делать какие-то общие суммирующие выводы на основе детальных данных даже в несколько сотен строк. Кроме того, таблицы довольно плохо удерживают и внимание конечной аудитории.


Сможете ли вы найти фильм с самым высоким рейтингом? Сколько времени вы на это потратили?

Но все меняется в тот момент, когда мы добавляем визуальную кодировку данных. Сталкиваясь с визуальной подачей информации, весь процесс считывания проходит по-другому. Даже если это все еще таблица, теперь мы не читаем строки и не сравниваем числа в уме между собой, а ориентируемся на визуальную составляющую, которая обрабатывается нами за секунды.


Отследите, как проходит ваш процесс изучения таблицы тогда, когда к ней добавляется простейшая визуальная кодировка

Главная задача визуализации — упростить восприятие и передать информацию эффективнее.
Бонус: быстрое погружение в Qlik
Так как же перейти от таблиц к визуализации на практике?

Анализ и визуализация данных сегодня легко осуществляется в специализированных программах — BI-инструментах (Business Intelligence). Современные BI средства позволяют быстро создавать визуализации на основании имеющихся данных. При этом процесс создания аналитики часто не требует специальных навыков или сложных знаний из ИТ-отрасли.

Быстрота создания аналитики и низкий порог входа — самые важные метрики для BI-инструментов. Ведь решения на основании данных надо принимать не завтра, не после разработки и реализации сложного технического задания, а уже сейчас. В свою очередь низкий порог входа должен гарантировать то, что созданием и развитием аналитических приложений будут заниматься в первую очередь бизнес-пользователи, которые хорошо понимают свои потребности.

Игорь Буробин
Консультант в области анализа данных, архитектор BI систем
В видео я покажу пример создания полноценного интерактивного аналитического приложения на платформе Qlik Sense без использования специальных навыков за 100 секунд.
Ссылка на архив с исходными данными которые были использованы для разработки приложения здесь.
Какие бывают источники данных
Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Все данные можно разделить на две категории: структурированные данные и неструктурированные.

Большинство данных в мире неструктурированно. Такие данные, как правило, представлены в виде текста, который может содержать любую информацию: цифры, даты, прочие факты. Примером неструктурированных данных являются любые тексты, книги, видео, аудио, изображения — вообще практически все, что вы видите вокруг себя.

Структурированные данные — все, которые имеют формализованную структуру. Они уже обработаны и пригодны для работы. То есть, их можно разложить на столбцы и строки и загрузить в инструмент для анализа данных.
Структурированные данные упорядочены и типизированы: хранятся в форме таблиц, имеют столбцы (поля) и строки (записи). Еще говорят, что каждый столбец представляет собой атрибут данных, а каждая строка — единицу наблюдения.

Структурированные данные хранятся в специальных системах, к которым могут подключаться как специалисты, так и конечные пользователи — это могут быть отдельные файлы, базы данных или облачные системы хранения данных.
Как правило, источниками данных для анализа могут выступать:
1
базы данных и специализированные хранилища данных (например, PostgreSQL, Microsoft SQL, Oracle, MySQL, Teradata, Vertica)
2
информационные системы, обладающие интерфейсом для экспорта данных (например, 1С, SAP)
3
отдельные файлы (например, XLS, XLSX, CSV)
Что такое озера данных
Озеро данных – специальная форма хранения данных. Данные поступают в озеро из разнородных источников данных и для озера не требуется строгое приведение и загрузка данных в единую базу данных. Таким образом этап предварительной подготовки и сведения данных откладывается до момента появления вопроса, требующего работы с данными.

Озера данных удобно использовать при большом количестве разнородных внешних источников и большом объеме данных в них (Big Data).

Классификация данных рассматривается в разделе 5 Политики управления данными Группы (Обществ Группы).
Какие существуют ограничения, в том числе — по требованиям ИБ
Отдельно стоит отметить важный вопрос о требованиях информационной безопасности. Подробно и применительно к нашей работе нормы и требования ИБ описаны в соответствующих внутренних нормативных документах.

Однако, в рамках этого марафона и в повседневной работе нам следует всегда помнить простые вещи:
1
Если у сотрудника есть права работать с какими-то определенными данными, то эти данные должны быть ему предоставлены без каких-либо ограничений или препятствий.
2
Если у сотрудника нет права работать с какими-то определенными данными, то он не должен иметь возможности получить эти данные.
3
Данными распоряжается их владелец, обычно это заказчик информационной системы, содержащей данные. Владелец определяет порядок обращения с данными, в том числе по доступу к ним, и несет за это ответственность.

С этой точки зрения «Excel хаос», о котором мы уже говорили и еще будем говорить, несет серьезную опасность с точки зрения ИБ, т.к. за обращением огромного количества отдельных файлов и их версий очень трудно уследить.

Поэтому, крупные компании стремятся к управлению источниками данных в рамках организации. Такую задачу решает так называемый «магазин данных». В Магазине данных — как в обычном магазине. Доступные вам источники уже собраны и подготовлены для анализа, размечены по различным параметрам — актуальности, качеству, объему, правам доступа. Когда возникает потребность, бизнес-пользователи легко подключают нужный источник для анализа в один клик.
Подробнее про полезные принципы информационной безопасности
Что такое прототип и как его реализовать
Тема цикла разработки — от прототипов до тиражируемых решений, получила особое внимание среди участников Марафона, поэтому рассмотрим ее подробнее, опираясь на Концепцию цифровой трансформации Группы.
Алексей Мамонов
Руководитель дирекции управления данными Блока цифровой трансформации ПАО «Интер РАО»
В Концепции введено определение Инициативы — это мероприятие на предпроектной фазе реализации, включающей этапы формирования идеи, проверки концепции, создания минимально жизнеспособного продукта.

Для инициатив и проектов с уровнем готовности TRL 7-8 на рынке наиболее распространена практика применения продуктового подхода, позволяющего минимизировать риски неэффективного использования временных и инвестиционных ресурсов.

При продуктовом подходе, разработка ведется от прототипа через минимально жизнеспособный продукт (Minimum Viable Product, MVP) к полноценному продукту.

Данные этапы — прототип и MVP — обычно реализуются без использования интеграций с продуктивными информационными системами. После подтверждения состоятельности гипотезы и результативности на основе MVP происходит переход к реализации следующих этапов: пилотирования, разработки полнофункционального продукта, тиражирования решения.
Процесс работы над аналитическим приложением
Цикл реализации изменений
Цикл реализации изменений в рамках процесса цифровой трансформации включает следующие стадии, сгруппированные по двум основным фазам (при этом могут исключаться: стадии 1.2-1.3 – при наличии готовых / зрелых решений; стадия 2.1 – по решению продуктовой команды):

1. Фаза «Инициатива»
→ 1.1. Формирование инициативы. Формирование самой идеи, ценностного предложения. Определение решаемой потребности, получаемой ценности, новой бизнес-модели, описания требований к технологии. Формирование набора гипотез на проверку.
→ 1.2. Проверка концепции (Proof of concept, PoC). Формирование прототипа, основной целью которого является тестирование гипотез.
→ 1.3. Минимально жизнеспособный продукт (Minimum Viable Product, MVP). Разработка минимально жизнеспособного прототипа для фиксации требований к продукту, в том числе итерационным подходом с наращиванием функциональности по отношению к реализованной на предыдущей стадии.
2. Фаза «Проект»
→ 2.1. Пилотирование решения/продукта. Апробация созданного решения на системе ограниченного объема, повторяющей основные характеристики целевых систем.
→ 2.2. Полнофункциональный продукт. Продукт/решение, имеющие полный набор функциональности, разработанные в том числе с учетом результатов пилотирования и готовые к тиражированию.
→ 2.3. Тиражирование решения/продукта. Внедрение решения/продукта на весь организационный периметр целевой системы.
Особенности управления инициативами
На стадиях 1.1-1.3 указанного цикла реализации целесообразно использовать гибкие методики разработки Agile и максимально продуктовые метрики.
На стадиях 2.1-2.2 могут использоваться, как гибкие методики, так и каскадные модели разработки/управления.
Стадия тиражирования, как правило, выполняется с использованием классической каскадной модели управления проектом.
Проекты на стадиях 2.1-2.3 (пилотирование, полнофункциональный продукт, тиражирование) цикла реализации мероприятий в области цифровой трансформации осуществляются с учетом требований утвержденных внутренних нормативных документов.

На этапах проверки концепции и минимально жизнеспособного продукта целесообразно привлечение ресурсов Цифровой лаборатории.

Вместе с подходами к управлению по стадиям цикла реализации меняются участники и роли.

Инициатива может формироваться:
→ от потребности (проблемы): лидером процесса в данном случае является соответствующее бизнес-направление;
→ от предложения, как через внешние инструменты акселерации, открытых инноваций, предложений консалтинга, так и через внутренние инструменты (внутренние предложения, результаты исследования подразделения по цифровой трансформации и Цифровой лаборатории).
Цифровая лаборатория — внутренний центр отработки актуальных для Группы технологических и бизнес-гипотез с компетенциями по основным решениям в области сквозных цифровых технологий.
Цифровая лаборатория ориентирована на решение следующих задач:

→ Создание команд для отработки цифровых технологий и решений/продуктов.
→ Выбор оптимальных цифровых технологий и решений/продуктов в рамках поставленных задач, оценка применимости выбранных решений к инфраструктуре и экосистеме Группы.
→ Формирование, согласование и тестирование прототипов.
→ Создание и апробация минимально жизнеспособного продукта (MVP).
→ Подготовка заключений по цифровым технологиям и решениям.
→ Экспертиза решений и документов по внешним направлениям сотрудничества.
Проведение проверки работоспособности, надежности, тиражируемости и возможности дальнейшей поддержки цифровых решений/продуктов на базе Цифровой лаборатории позволит:

→ оперативно и дешево проверять жизнеспособность технологии или решения/продукта для бизнеса;
→ повысить надежность и эффективность проектов внедрения;
→ предотвратить неэффективное инвестирование ресурсов Группы на нежизнеспособные и неактуальные решения;
→ привнести гибкость в корпоративную культуру управления проектами.
Полезные ссылки
Что почитать для расширения визуального кругозора