Визуализация данных используется для отображения данных в более простом и удобном для понимания виде. Он может быть сформирован в виде гистограмм, точечных диаграмм, линейных графиков, круговых диаграмм и т. д. Многие люди до сих пор используют Matplotlib в качестве внутреннего модуля для визуализации своих графиков. В этой истории я дам вам несколько приемов, 5 мощных приемов использования Matplotlib для создания отличного сюжета.


Зачем использовать графики и диаграммы?

График — это графическое представление данных в любом формате. Это самый эффективный способ сообщить факты нетехническим специалистам и помочь им сделать выводы на основе данных. График — это мощный способ графического представления ваших данных. Аналитикам данных и специалистам по данным становится проще анализировать данные а также получить осмысленные выводы. Существует множество доступных инструментов, которые могут помочь вам визуализировать ваши данные, такие как Tableau, Looker, Sisense и т. д. Поскольку наука о данных — это все о числовых данных, которые обрабатываются с помощью научных методов и алгоритмов, построение графиков — это способ преобразования набора данных в визуальный контент. Наборы данных могут быть представлены графически с помощью графиков или графиков.


Важные шаги для улучшения графиков в науке о данных

Ниже показаны важные аспекты визуализации науки о данных в области науки о данных:

  • Очистка данных
  • Исследование данных
  • Выявление тенденций
  • Представление результатов


1) Очистка данных

Визуализация может помочь обнаружить нулевые значения элементов данных в больших наборах данных, представляя их отчетливо. Данные могут содержать избыточность и шум, которые необходимо устранить перед анализом. Визуализация этих наборов данных дает вам полный обзор без предположений о правильности данных.


2) Исследование данных

Визуальное представление данных помогает как техническим, так и нетехническим специалистам/персоналу получить общее представление о том, о чем данные. Затем они могут возиться, а также делать выводы на основе того, что они видят.


3) Определение тенденций

Ученые и аналитики данных иногда работают с данными в реальном времени, чтобы выявить значимые тенденции. Поскольку данные в реальном времени постоянно колеблются, становится трудно их анализировать. Здесь данные можно визуализировать с помощью диаграмм и графиков для лучшего понимания. Это помогает принимать обоснованные решения не только в науке о данных, но и в бизнес-аналитике в целом.


4) Представление результатов

Результат анализа в любой точке обработки всегда можно визуализировать. Визуализацию может выполнить любой, кто знаком с инструментами визуализации Data Science, а не только Data Scientist. Пока данные получены из поддерживаемого источника данных, инструмент визуализации науки о данных может представлять их в поддерживаемых форматах, таких как графики, кривые или диаграммы.


Тип графиков данных и их значение

Ниже приведены 7 наиболее часто используемых типов построения графиков данных в области визуализации данных:

  • Бар Сюжеты
  • Линейные графики
  • Графики рассеяния
  • Площадь участков
  • Гистограмма
  • Круговая диаграмма
  • Пузырьковый сюжет


1) Бар Сюжет

Бар Участок

Гистограмма очень проста для понимания и поэтому является наиболее широко используемой моделью построения графиков. Простота и ясность — два основных преимущества использования гистограммы. Его можно использовать, когда вы сравниваете переменные в одной и той же категории или отслеживаете изменение 1 или 2 переменных во времени. Например, чтобы сравнить оценки учащегося по нескольким предметам, наилучшим выбором будет гистограмма.


2) Линейный график

Линейный график

Линейный график широко используется для сравнения запасов или для анализа просмотров видео или постов с течением времени. Основным преимуществом использования линейного графика является то, что он очень интуитивно понятен, и вы можете легко понять результат, даже если у вас нет опыта в этой области. Он обычно используется для отслеживания и сравнения нескольких переменных во времени, анализа тенденций и прогнозирования будущих значений.


3) Графики рассеяния

Графики рассеяния

Точечная диаграмма использует точки для иллюстрации значений числовых переменных. Он используется для анализа отдельных точек, наблюдения и визуализации взаимосвязей между переменными или получения общего обзора переменных.


4) Земельные участки

Площадь участков

График площади графически отображает количественные данные. Это очень похоже на линейный график, но с ключевым отличием, заключающимся в выделении расстояния между различными переменными. Это делает его визуально более ясным и легким для понимания. Обычно он используется для анализа прогресса во временных рядах, анализа рыночных тенденций и вариаций и т. д.


5) Гистограмма

Гистограмма

Гистограмма графически представляет частоту числовых данных с помощью столбцов. В отличие от гистограммы, он представляет только количественные данные. Столбцы на гистограмме соприкасаются друг с другом, т. е. между столбцами нет промежутка. Обычно он используется, когда вы имеете дело с большими наборами данных и хотите обнаружить любые необычные действия или пробелы в данных.


6) Круговая диаграмма

Круговая диаграмма

Круговая диаграмма представляет данные в виде кругового графика. Срезы круговой диаграммы представляют относительный размер данных. Круговая диаграмма обычно используется для представления категориальных данных. Например, сравнение областей роста в рамках бизнеса, таких как прибыль, рыночные расходы и т. д.


7) Пузырьковые сюжеты

Пузырьковые сюжеты

Пузырьковая диаграмма — это точечная диаграмма, в которой размер круга сопоставляется со значением третьей числовой переменной, а четвертое значение также можно сопоставить с цветом пузырька.

Хватит болтать, переходим к пикантному 😁😁. Мы будем использовать python для построения графиков, все приведенные выше графики созданы с помощью python и matplotlib.


Начать


Матплотлиб

Matplotlib — это обширная библиотека для создания статических, анимированных и интерактивных визуализаций на Python. Matplotlib делает простые вещи простыми, а сложные возможными.

Чтобы установить matplotlib, запустите pip install matplotlib или если вы используете среду conda (как и должно быть), используйте conda install matplotlib. Вот и все у нас готово…

[!note]-
Для урока я буду использовать некоторый набор данных и некоторые библиотеки, которые не являются частью этого урока. Это учебник среднего уровня, если вы хотите начать с базового, следуйте этому руководство.

  1. Стилизация графика Есть много способов стилизовать наши графики, которые мы можем использовать встроенные стили, создавать свои собственные стили или комбинировать оба способа и получать выгоду от обоих миров. Тема:
colors = cycler(color=plt.get_cmap("tab20").colors)  # ["b", "r", "g"]

mpl.style.use("seaborn-pastel")
# mpl.style.use("seaborn-whitegrid")
mpl.rcParams["figure.figsize"] = (20, 5)
mpl.rcParams["axes.facecolor"] = "white"
mpl.rcParams["axes.grid"] = True
mpl.rcParams["grid.color"] = "lightgray"
mpl.rcParams["axes.prop_cycle"] = colors
mpl.rcParams["axes.linewidth"] = 1
mpl.rcParams["xtick.color"] = "black"
mpl.rcParams["ytick.color"] = "black"
mpl.rcParams["font.size"] = 12
mpl.rcParams["figure.titlesize"] = 25
mpl.rcParams["figure.dpi"] = 100
mpl.rcParams["savefig.dpi"] = 100
mpl.rcParams["legend.fontsize"] = 20
mpl.rcParams["legend.frameon"] = False
mpl.rcParams["legend.facecolor"] = "white"
mpl.rcParams["legend.edgecolor"] = "white"
mpl.rcParams["legend.fancybox"] = False
mpl.rcParams["legend.numpoints"] = 1
mpl.rcParams["legend.scatterpoints"] = 1
mpl.rcParams["legend.markerscale"] = 1
mpl.rcParams["legend.labelspacing"] = 0.5
mpl.rcParams["legend.handlelength"] = 2
mpl.rcParams["legend.handletextpad"] = 0.8
mpl.rcParams["legend.borderpad"] = 0.5
mpl.rcParams["legend.borderaxespad"] = 0.5
mpl.rcParams["legend.columnspacing"] = 2
mpl.rcParams["legend.framealpha"] = None
mpl.rcParams["legend.edgecolor"] = "inherit"
Войти в полноэкранный режим

Выйти из полноэкранного режима

Вы можете использовать seaborn-pastel или же seaborn-whitegrid в качестве базовой темы и добавьте свои собственные параметры для настройки. Поскольку у меня в основном накрахмаленное изображение, поэтому у меня размер фигуры (20,5), вы также можете изменить размер шрифта, шрифты и т. Д. Вот и все, теперь у вас будут лучшие графики для представления вашему боссу или нетехническому персоналу. В следующей статье мы поговорим о каждом типе диаграмм, о том, как их использовать и когда их использовать, поэтому следите за обновлениями и сохраняйте серию.


использованная литература