Виды диаграмм и гистограмм, типы графиков для анализа данных с простыми примерами применения

Кто владеет информацией, тот владеет миром. Но в реальности есть еще ряд условий, которые обеспечивают то самое господство: своевременность данных, их направленность и полезность, применимость к ситуации, а также возможность использования для дальнейших действий. В общем-то, данные сами по себе мертвы. Всегда важна их смысловая нагрузка. И вот как раз за наделение информации смыслом отвечает визуализация.
Видов диаграмм, гистограмм, схем, карт и графиков нереально много. Этот материал посвящен тому, какие виды диаграмм бывают, как их выбирать и для чего использовать в бизнесе или в управлении проектами.
Чем полезны диаграммы
Средства визуализации данных применяются в разных сферах и задачах: в информатике, математике и ИТ, при работе со статистическими показателями, для построения понятных отчетов, наглядного сравнения и отображения информации / результатов работы. Но если говорить о пользе, то:
- Диаграммы, схемы, гистограммы, графики помогают оценивать ситуацию со стороны, чтобы лучше понимать связи, направления влияния, значения ключевых показателей, их соотношение между собой внутри одного или в разных периодах времени, в разных процессах, средах и т.п.
- С помощью графиков удобно считывать и понимать информацию. Чем правильнее поданы данные в графическом виде, тем их быстрее можно считать и понять. А значит – включить в дальнейшую работу или учесть в планировании.
- Удобное и наглядное графическое представление создает базу для выявления закономерностей. Графики и схемы доходчивее показывают зависимости между числами и объектами, но в этом случае предельно важен тип визуализации, так как не все закономерности можно отобразить так, чтобы их было легко понять.
- Графики и диаграммы обеспечивают непрерывный мониторинг и контроль — они показывают изменения и отклонения. Но важно условие — данные собираются и отображаются в режиме реального времени или с достаточной частотой обновления.
- Средства визуализации дают возможность удобного планирования и проектирования процессов: что целесообразно, а что нет, какие объемы ресурсов доступны, как выглядит схема взаимодействия с пользователями и т.п. Они же позволяют обоснованно принимать управленческие решения и выступать весомым аргументом в любых спорах.
Линейный график

Базовый график для анализа изменений показателя во времени или по порядку. Быстро считывается, хорошо масштабируется. Обычно имеет 2 измерения — одно по горизонтали, второе по вертикали, и допускает отображение сразу нескольких рядов с данными, которые приведены в единую систему измерения. Подходит для отображения изменений в динамике – через равные промежутки замеров.
У линейного графика могут быть модификации: график с маркерами, с накоплением (когда область под линией закрашивается), нормированный график. Нормирование – это когда визуализируется динамика вклада каждой величины с течением времени или по категориям. Вклад оценивается в процентах или в долях.
Вертикальная (столбчатая) диаграмма или барчарт (Bar Graph) с накоплением

Отображает значения в виде вертикальных столбцов, разбитых на части. Подходит для сравнения категорий и анализа состава внутри каждой категории. Обычно 2 измерения: категория + значение, опционально — подкатегории.
Гистограмма (Bar Histograms)
Показывает распределение числовых данных по диапазонам значений в виде вертикальных прямоугольников. Используется для анализа частот, плотности и формы распределения. Обычно визуализируется одно числовое измерение (ось Y), агрегированное по интервалам.
Гистограмма с несколькими осями (Multi-Axis Charts)
Комбинирует несколько графиков с разными шкалами на одном поле. Применяется для сравнения показателей с разными единицами измерения. Обычно 2–3 показателя, общий X и разные Y.
Горизонтальная линейная диаграмма (Line Chart)

Отображает изменение показателя во времени или по порядку в виде горизонтальных столбцов. Лучший выбор для анализа динамики и трендов. Обычно имеет 2 измерения: на горизонтальную ось наносится время, на вертикальную ось — значения. Дополнительную информативность линейным диаграммам добавляют медианы и линии тренда. Тренды могут выстраиваться по разным математическим моделям: линейно, экспоненциально, логарифмически, на основе полиномов или степеней, как скользящее среднее значение и т.п.
Что примечательно – на линейной диаграмме удобно отображать сразу несколько рядов значений и сравнивать между собой.
Диаграмма с областями (Area Chart)

Линейный график с закрашенной областью под линией. Используется для показа динамики и накопленного эффекта. Поддерживает несколько рядов данных. Обычно 2–3 измерения – как раз для понимания областей смещения / разницы.
Диаграммы рассеяния, точечные или скаттерплот (Scatter Plot)
Показывает взаимосвязь между двумя числовыми переменными в виде точек. Подходит для анализа корреляций, кластеров и выбросов. 2 измерения, опционально 3-е через цвет или размер.
Радарные или лепестковые диаграммы

Радиальная диаграмма, где показатели откладываются по осям, расходящимся из центра, образуя «лепестки» в секторах круга. Используется для сравнения профилей объектов по нескольким критериям. Обычно 1 объект × 5–10 показателей, без временной оси.
Полярная диаграмма (Polar Plot)
Отображает значения показателей по радиальным осям. Это свернутая вертикальная линейная диаграмма. Используется для сравнения профилей объектов по нескольким критериям, а также для отображения цикличных процессов, например, для анализа суточных, недельных или сезонных паттернов.
«Полярные часы» (Polar Clock)
Круговая диаграмма, в которой несколько значений характеристик отображаются по разным радиусам окружности. Например, таким образом можно отображать часы: сколько времени прошло из всех 24 часов, сколько минут из 60 возможных в одном часе, сколько секунд (тоже из всех 60) и т.п. То есть это несколько кольцевых диаграмм, каждая из которых берет отсчет от одной вертикальной линии – радиуса.
Секторная или круговая диаграмма, пайчарт (Pie Charts)
Показывает доли целого, за это отвечают секторы круга. Подходит только для простых распределений с малым числом категорий. Отображает только одно измерение — процент или доля от 100%. Больше 100% на круге не показать 😉
Кольцевые диаграммы (Donut Chart)

Вариант круговой диаграммы, но только с пустым центром, выглядит как бублик. Используется для отображения долей и размещения дополнительной информации внутри. Отображает одно измерение, визуально удобнее полных секторных диаграмм.
Древовидные диаграммы (Treemap)
Показывают иерархию и доли через вложенные прямоугольники. Подходит для анализа структуры и относительных размеров в сложных наборах данных. Визуализируют два измерения: иерархия + величина.
Географическая диаграмма, хороплет (Map Charts, choropleth)
Отображает значения на карте через цветовые заливки регионов или с привязкой к точкам расположения, например, к офисам или городам. Используется для пространственного анализа. Два измерения: география + показатель.
Стрим-график или график потока (Stream Graph)
Это модифицированная диаграмма с областями, где потоки «текут» во времени. Подходит для анализа структуры изменений и относительных вкладов: время + несколько категорий.
Пузырьковые диаграммы (Bubble Charts)
Расширение точечных диаграмм, где точки имеют размер. Используется для анализа взаимосвязей между 3–4 показателями. Оси X и Y + размер пузыря + цвет.
Лучевая диаграмма (Sunburst)

Иерархическая диаграмма в виде концентрических колец. Подходит для анализа вложенных структур и долей. Иерархия + значение.
Комбинированные диаграммы
Иногда одного способа визуализации недостаточно. В этом случае применяют несколько форматов отображения внутри одного графика или схемы. Но чтобы данные были читаемыми, они должны опираться на одни и те же оси измерений. Например, столбцы + линия + линии тренда + изменение приращений. Общее правило: комбинируйте только логически связанные показатели. Обязательно используйте легенду и подписи для ясности. Слишком много информации в одном месте может привести к нечитаемой каше.
Специализированные диаграммы
Ниже особые варианты визуализации для узких задач, которые будут актуальны только в определенных нишах.
Диаграммы Ганта, сетевой график

Отображает задачи в привязке ко времени. Используется для планирования и контроля проектов: ось времени + задачи + длительность. В некоторых случаях на графике могут дополнительно отображаться связи между задачами, опорные вехи, например, ключевые сроки проекта и другие элементы.
Диаграмма Исикавы
Причинно-следственная схема («рыбья кость»). Подходит для анализа проблем и поиска первопричин. Качественные категории, без числовых осей. Про рыбов уже рассказывали.
Диаграмма Венна
Показывает пересечения нескольких множеств. Используется для логического анализа и классификации. Позволяет отображать одновременно 2–4 множества.
UML-диаграммы
Набор схем для моделирования систем и ПО. Отражают структуру, поведение и взаимодействие. Используются в проектировании. Технически это диаграммы связей или графы.
PERT-диаграмма

Сетевая диаграмма зависимостей задач. Применяется для оценки сроков и критического пути. Показывает задачи + зависимости + длительность.
SIPOC-диаграмма
Высокоуровневая схема процесса: Supplier–Input–Process–Output–Customer. Используется для анализа границ процесса.
Диаграмма «солнечные лучи» (Sunburst)
Иерархическая диаграмма в виде концентрических колец, где каждый уровень отражает вложенность структуры. Подходит для анализа состава и иерархий. Использует 2 измерения: структура и значение, опционально — цвет.
Биржевая диаграмма (японские свечи)

График временных рядов, отображающий открытие, закрытие, минимум и максимум значения за период. Применяется для анализа динамики и волатильности. Использует время + 4 числовых показателя. Может применяться также для визуализации значений с большим разбросом / погрешностями в точке измерения.
Диаграмма размаха, «ящик с усами» (Boxplot)
Показывает распределение данных через медиану, квартили и выбросы. Используется для сравнения распределений статистических данных и выявления аномалий. Одно числовое измерение, часто в сравнении по категориям. Чем-то напоминает японские свечи, но визуализирует статистические отклонения.
Поверхностная диаграмма
Это пример самых эффективных трехмерных визуализаций. Позволяет наглядно отобразить зависимость одного показателя от двух переменных в виде объемных поверхностей. Используется для анализа сложных взаимосвязей и оптимумов. Содержит 3 измерения: X, Y и значение Z, часто дополняется цветовой шкалой, чтобы было проще отделить различия или области несовпадения.
Каскадная диаграмма (Waterfall Chart)
Диаграмма, демонстрирующая поэтапное изменение показателя за счет последовательных положительных и отрицательных вкладов. Используется для анализа структуры изменений и влияния факторов, например, динамика изменений выручки по кварталам относительно первого периода. Обычно 1 временная или логическая ось и значения приращений.
Диаграмма спагетти (Spaghetti Charts)
Это наглядное представление перемещений. Итоговое изображение представляет собой множество пересекающихся или дублирующихся линий, отображающих индивидуальные траектории движений сотрудников, материалов и инструментов при выполнении рутинных операций. Такие диаграммы напоминают спагетти на тарелке, отсюда и название. Используются в основном для анализа поведения, а также для оптимизации рабочих пространств. На таких графиках может не быть измерений, только пути перемещения.

Правила визуализации данных
Нельзя просто взять абстрактные данные и отобразить их на графике. Визуализация – это всегда вопрос наделения чисел смыслом. Поэтому качественная визуализация должна отвечать на определенные вопросы / решать какие-то задачи.
- Сначала нужно определиться с целью визуализации. Что конкретно и для чего вы хотите отобразить в виде схем, графиков, диаграмм и пр. Сам способ визуализации является вторичным, он должен как можно лучше реализовывать исходную задачу.
- Одна диаграмма, схема или график должен использоваться для одной цели или задачи. Вы буквально не сможете отобразить на одном графике данные разного типа, а если сможете, то они будут нечитаемыми. Соответственно, дальнейшая работа с такой информацией будет невозможна.
- Если вы комбинируете на схеме данные разного типа, их нужно привязать не более чем к трем измерениям. Более трех измерений человечески мозг воспринять не может.
- Используйте нормализацию данных, чтобы обеспечить удобную работу с информацией. А еще так будет проще сравнивать значения за разные промежутки времени или в разных отчетах.
- Информация должна быть достоверной или максимально близкой к правде – с приемлемой погрешностью измерения / оценки.
- При использовании цветов старайтесь применять общепринятые или общераспространенные нормы. Например, как цвета светофора: красный (стоп-сигнал) – для негативных показателей, оранжевый – для нейтральных, зеленый (разрешающий сигнал) – для положительных. Если на графике используется много разных цветов, то обязательно нужно подумать о детализации легенды или подписывать значения прямо внутри графика или схемы.
- Следите за пропорциями. 100% соответствия никто не ждет, но чем реалистичнее и правдивее будут отрисованы данные, тем их проще будет сравнивать между собой. Как раз за счет разных пропорций ключевых элементов можно расставить акценты и привлечь внимание к нужной информации.
- Убирайте со схем и диаграмм лишние элементы. Они мешают сфокусироваться на самом главном.
Как строить диаграммы
- Определите цель создания диаграммы. Ее логично вынести в заголовок или в подпись.
- Подготовьте данные – рассчитайте, округлите, приведите к единым/совместимым единицам измерения, очистите от ненужных элементов и символов.
- Определитесь с типом диаграммы или схемы. Способ визуализации должен решать поставленную задачу.
- Разнесите данные по числовым прямым – осям координат X, Y, Z. Хотя обычно визуализация выстраивается в двух осях. «Плоские» графики наиболее быстро и легко считываются.
- Постройте графики или диаграммы. Для построения графиков чаще всего используются обычные офисные приложения, например, таблицы Excel, но можно применять и профильные программные решения: BI-системы, онлайн-сервисы, дашборды и пр.
- Подпишите данные и позаботьтесь о читаемости информации. Дизайн имеет значение. Например, разместите легенду обозначений и цветов рядом с основным графиком, подпишите информацию и важные значения прямо на графике.
- Проверьте восприятие информации на коллегах или на фокус-группах. Тут все будет зависеть от масштаба охвата и задач визуализации. Где-то достаточно сбора простой обратной связи, а где-то потребуются полноценные исследования с массой профильных метрик.
Какой вид или тип диаграмм выбрать
Каждый тип визуализации хорош только в определенных задачах и нишах. Например:
- Для анализа данных в динамике, когда нужно понять как показатели меняются со временем, лучше всего подойдут: линейный график, график с областями и временная шкала.
- Для сравнения значений, если нужно сравнить разные категории или объекты подойдут: столбчатая диаграмма, горизонтальные бары, диаграмма с накоплением (при анализе состава).
- Для анализа долей распределения чего-либо, когда важно понять разброс и структуру данных: гистограмма, боксплот, скрипичная диаграмма.
- Для выявления зависимостей, когда требуется найти взаимосвязь между показателями: пузырьковая диаграмма, тепловая карта, диаграмма рассеяния.
- Для отображения процессов, визуализации последовательностей или шагов: блок-схема, BPMN-диаграмма, диаграмма потоков и пр.
- Для понимания структур и связей, когда требуется показать иерархию или взаимосвязи между объектами: дерево связей, майнд-карты, сетевые диаграммы, графы связей.
