Введение:

В этой статье мы рассмотрим другую концепцию анализа данных. Это даст вам более четкое представление о том, что такое аналитика данных и как она позволяет вам собирать, хранить, просматривать и анализировать данные, чтобы помочь принимать бизнес-решения посредством инсайты, которые были идентифицированы.

Кому следует прочитать эту статью?
Эта статья написана, чтобы предоставить вам основу для анализа данных, и идеально подходит для тех, кто хочет стать аналитиком данных или специалистом по данным.


Цели:

  • Цель этого курса — дать вам понимание различных концепций аналитики.
  • Типы данных: включая структурированные, полуструктурированные и неструктурированные данные.
  • Когда вам следует использовать аналитику данных в вашем бизнесе
  • Процесс запуска аналитики по данным


Введение в аналитику данных:

В этой статье я дам вам общее представление о различных концепциях, чтобы помочь вам понять концепцию, лежащую в основе многих сервисов и архитектур AWS, используемых для реализации анализа данных.

Проще говоря, аналитика или аналитика данных — это наука о преобразовании данных, преобразовании данных в значимую информацию и идеи.
Здесь под данными мы подразумеваем любые имеющиеся у вас данные, такие как электронная таблица, CSV-файл, историческая информация о продажах, база данных, необработанные данные исследований, практически любые данные, которые у вас могут быть.

Описание изображения

С этими основными понятиями, я думаю, давайте немного подробнее рассмотрим концепции анализа данных.

Начинается с вопроса:
Все начинается с вопроса о проблеме, которая у нас есть, с помощью аналитики мы хотим решить эти проблемы, выбрав правильные инструменты для сбора или очистки данных соответствующим образом.


Типы данных:

В качестве входных данных для нашей аналитики у нас могут быть данные, которые могут быть организованы в различные категории. Например,

  • Качественные данные
  • Количественные данные
  • Структурированные данные
  • Полуструктурированные данные
  • Структурированное свидание

Если вы новичок в этих концепциях и не слышали этих терминов раньше, не волнуйтесь, я объясню их в следующей статье.
В этой статье мы разберемся, какие сервисы AWS можно использовать в процессе аналитики.


Типы данных:

Здесь давайте немного поговорим о вводе. У нас есть два основных типа данных, в которых данные организованы

Количественные данные:
Количественные относятся к числам, сумме определенных значений, например количеству жителей в данной географической области.
Пример: нет. студентов в классе = 16
Мальчики= 8
Девочки= 8

Качественные данные:
Качественные данные относятся к атрибутам населения, не выраженным в прямых числах, а для уточнения их атрибутов, таких как:

  • Цвет глаз
  • Уровень удовлетворенности


Основные типы данных:

У нас также есть три основные классификации форматов данных, которые следуют

Структурированные данные:
Структурированные данные относятся к данным с определенной моделью данных, такой как базы данных SQL, где таблицы имеют фиксированную модель и схему БД. Например, в AWS службы баз данных RDS или Rational являются полным примером структурированного хранилища.

Описание изображения

Полуструктурированные данные:
В полуструктурированных данных у нас в основном есть гибкая модель данных или механизм тегов, который позволяет семантическую организацию и некоторую иерархию обнаружения из данных без фиксированных и жестких правил из базы данных SQL. Базы данных, отличные от SQL, также могут быть структурированы, но обычно они используются гибким образом, чтобы дополнить ограничения от Amazon S3 до баз данных SQL. Amazon DynamoDB позволяет каждой записи иметь разное количество столбцов, но предоставляет фиксированные индексы для поиска. Это обеспечивает очень гибкую схему
Например. Файлы, отличные от sql, XML, JSON и CSV, являются хорошими примерами полуструктурированных данных.

Описание изображения

Неструктурированные данные:
И, наконец, у нас есть неструктурированные данные, в которых классифицируется любая текстовая информация без модели данных. Здесь у нас есть все виды документов без надлежащей модели данных или схемы;
Книги, обработка естественного языка и всевозможная обработка текста.

Описание изображения
Генерация данных резко возросла за последнее десятилетие. Мы генерируем данные с момента пробуждения до момента, когда ложимся спать или даже во время сна, датчики могут собирать данные о нашем теле и окружающей среде для улучшения ряда приложений и сервисов. Можно предположить, что мы генерируем слишком много данных, намного больше, чем мы, вероятно, можем проанализировать.

Описание изображения
Когда использовать аналитику данных:
Чтобы помочь нам определить, нужно ли нам использовать службы анализа данных, чтобы найти ответы на наши проблемы, которые заблокированы в наших данных. Мы можем рассматривать различные факторы
Объем: первый — это объем, который относится к размеру набора данных или, как мы обычно называем, размеру данных. И размер имеет значение для выбора правильного инструмента для его анализа. Обычно проблема больших данных достигает масштаба от гигабитов до петабайтов данных.

Описание изображения
Скорость: Существует также то, что мы называем скоростью данных, которая указывает, как быстро вам нужно получить ответы, а также связана с возрастом данных. Например, исторические записи за предыдущие годы или оповещения и информация в режиме реального времени. Это оказывает большое влияние на инструменты, используемые для анализа данных, потому что, в зависимости от необходимого вам времени отклика, вас устраивают ответы в реальном времени или ожидание? Зная это, мы можем выбрать правильный инструмент и технику.
Разнообразие: это относится к разнообразию классификации исходных данных; если его структурированный или неструктурированный. Как часто аналитические задачи будут иметь источники из нескольких типов, таких как.

Данные платформы бизнес-аналитики, блоги, данные CSV, тексты и любые виды структурированных или неструктурированных данных.


ВИДЫ АНАЛИТИК:

Сила аналитики возрастает, когда мы переходим от пакетной аналитики к аналитике в реальном времени, а затем к прогнозной аналитике, но, как всегда, проблема, которую вы пытаетесь решить, всегда будет диктовать лучший метод.

*Пакетная аналитика: * В отчетах или анализе BI данные обрабатываются для задания, а результаты представляются через определенный период времени. У нас есть многолетние данные в вашем хранилище данных или в файлах журналов, в электронных таблицах, и мы хотим найти в этих данных интересные закономерности, такие как потенциальные продажи, потенциальная прибыль или потенциальные выводы из данных исследований.

Аналитика в реальном времени: Когда дело доходит до аналитики в реальном времени, нам нужно получить ответы как можно скорее. Если вы потеряете время, могут быть серьезные последствия, такие как быстрая реакция на предупреждения системы обнаружения вторжений или ответы на рекламные кампании.

Предиктивная аналитика: Последний тип аналитики данных — это прогнозная аналитика, которая использует исторические данные в качестве входных данных, затем учится на истории, а затем оставляет нам прогнозы для будущего поведения. Это распространенный случай машинного обучения, такого как обнаружение спама, когда на основе прошлого поведения мы идентифицируем вредоносные сообщения, прогнозируя и избегая спам-сообщений.

Описание изображения


Процесс анализа данных:

Прежде всего, когда у вас возникает проблема, вы обычно определяете ее как вопрос, чтобы начать свое путешествие в область аналитики. Когда ваш вопрос готов, вам нужны исходные данные, которые фактически являются вашей отправной точкой. Это может быть база данных хранилища, рациональные таблицы базы данных или хранилище NoSQL, файл csv, книги, текстовые файлы. Короче говоря, любой читаемый формат может быть использован в качестве входных данных. Выбор ввода будет зависеть от ответов, которые вы пытаетесь получить из своей проблемы или вопроса.

Например:
Проблема может заключаться в подсчете слов в книге Шекспира или на другом конце шкалы, проблема может заключаться в анализе ДНК, чтобы найти закономерности. Таким образом, тип проблемы будет определять данные, а также алгоритм обработки.

Когда ваш ввод готов, вам нужно сохранить его в доступном месте, чтобы инструменты могли затем обработать его, проанализировать и вернуть результаты. Разделение с использованием процесса и анализа основано на том факте, что некоторые аналитические решения от AWS потребуют предварительной очистки или предварительной обработки данных для получения лучших результатов и точности.

AWS структурировала свое портфолио вокруг сбора, хранения, анализа и визуализации методологии для каждого шага, которая интегрировала сервисы для выполнения каждой функции.

Описание изображения

Собрать/проглотить:

Первым шагом в процессе аналитики является сбор данных, которые вы хотите использовать в качестве входных данных. Сбор данных также называется приемом, который представляет собой действие по сбору данных и их сохранению для последующего использования. В сборе данных у нас есть разные типы вводимых данных. У нас могут быть транзакционные данные, которые представлены традиционными рациональными базами данных, считываются и записываются. У нас также могут быть данные чтения файлов из источников файлов, таких как журналы, тексты, файлы CSV, содержимое книг и т. вещей устройств и так далее.
Набор инструментов, который в настоящее время предлагает AWS, может принимать данные из разных источников. Например; с потоками kinesis или firehose мы можем легко работать с потоковыми данными из любого источника, даже если они находятся локально.
Хранить:

После того, как данные сгенерированы или получены, нам нужно сохранить их в доступном для AWS месте. Обычно это называется озером данных. Большой пул, куда идут ваши услуги, чтобы получить источник и вернуть результаты. Amazon S3 — это один из основных сервисов хранения от AWS. Как высоконадежное хранилище объектов легко интегрируется со всеми другими аналитическими сервисами AWS для загрузки данных в рекламное хранилище. Вы также можете иметь данные в Amazon RDS, если данные имеют структурированный формат или Redshift. Если у него нет фиксированной модели данных, но есть базовая структура, мы можем использовать DynamoDB, решение NoSQL от AWS ДЛЯ ЭТОГО ХРАНЕНИЯ. А если к вашим данным обращаются очень редко, мы можем использовать glacier, сервис архивации от AWS.

Анализировать/обрабатывать:

  • Партия
  • В режиме реального времени
  • Прогнозирование Помните, что правильный сервис или инструмент зависит от типа вашей проблемы и скорости ваших ответов. Если вы можете подождать какое-то время или если вам нужны ответы на проблемы в реальном времени и если вы хотите предсказать будущее поведение.
    Амазонка ЭМИ

Если вашей целью является предоставление отчетов на основе

  • Пакетная обработка,
  • Анализ исторических данных
  • Выявление закономерностей в больших наборах данных

Если вам нужны ответы на вопросы в режиме реального времени или результаты должны отображаться на интерактивных информационных панелях, вы можете воспользоваться преимуществами потоковой обработки с помощью amazon Kinesis, AWS Lambda или Amazon OpenSearch. Kinesis предоставляет потоки для загрузки, хранения и простого использования данных в реальном времени, а AWS Lambda может защищать события этих потоков, выполняя определенные вами функции.

Для предиктивной аналитики, когда вам нужно предсказать событие на основе исторических случаев, вы можете воспользоваться сервисами машинного обучения Amazon для создания высокодоступных приложений для прогнозирования. Не забывая о конвейере данных, который можно использовать для организации всех этих сервисов. В качестве основы для рабочих процессов, управляемых данными, конвейер данных может использоваться для автоматизации загрузки вашей базы данных, а для аспекта визуализации, чтобы получить хороший обзор или панель мониторинга из ваших ответов, вы можете использовать Amazon QuickSight, который позволяет создавать богатую визуализацию из ваших данных. .


вывод:

На этом эта вводная статья подходит к концу, и теперь вы должны лучше понимать основные концепции, лежащие в основе анализа данных.
В этой статье мы рассмотрели все основные концепции аналитики данных. Спасибо, что нашли время прочитать эту статью. Надеюсь, вам было интересно и познавательно. Я надеюсь, вы понимаете, что такое аналитика данных, типы аналитики, когда вы должны использовать аналитику данных в своем бизнесе? и Процесс, лежащий в основе выполнения аналитики данных. Надеюсь, вам понравится читать эту статью.

Пожалуйста, поделитесь с нами своими отзывами.
Благодарю вас!!