Хранилище данных а также Озеро данных — это два разных метода хранения данных для разных целей, и они используются разными специалистами. Но уверяю вас, что оба совершенно различны по своему назначению. Давайте проясним основное различие между Data Lake и Data Warehouse.

Озеро данных
ОЗЕРО ДАННЫХ:
Озеро данных используется для хранения данных строк. Данные могут быть структурированными, неструктурированными или полуструктурированными.

Разница между структурированными, неструктурированными и полуструктурированными данными:

Structured Data are in the form of Row and Table. It is well Synchronized and We'll Managed. This Data can be easily Fetch from the Database or Data Warehouse.

Unstructured Data on an other hand, is Scattered and not well Managed. This Data Mostly in the form of Graph or in XML format.

Semi-Structured Data is not Scattered or not Well managed. However, it is some how easy to find data and query the result.

В Озеро данных, Данные в огромном количестве. Это может быть петабайт или зетабайт данных. Но все же данные являются экономически эффективными, потому что, если бы мы записали данные в озеро данных, их можно было бы легко обновить, но в случае с хранилищем данных этот трюк не работает.

Обновление данных в хранилище данных обходится очень дорого. Из-за большого количества данных в озере данных анализ очень сложен и занимает много времени. Время только сжато Если данные есть в каталоге. Озеро данных используется учеными и инженерами данных. Основное использование озера данных — это большие данные и анализ жизни в реальном времени.

Хранилище данных
Хранилище данных:
В хранилище данных данные находятся в определенном порядке, и определенные данные используются только для определенной цели.

Хранилище данных содержит данные в основном в структурированной форме, а размер данных невелик по сравнению с озером данных. Из-за этого небольшого объема данных анализ данных очень оптимизирован по сравнению с озером данных. Как я уже говорил вам ранее, обновление данных в хранилище данных обходится очень дорого. Хранилище данных используется аналитиком данных, бизнес-аналитиком, специалистом по данным и инженером по машинному обучению.

Сравнение
Существует огромная история, связанная с озером данных и хранилищем данных, о том, как данные передаются из одного места в другое, этот носитель называется конвейер данных. В этой теме я также расскажу о качествах данных, которые инженер данных должен обеспечить для работы с ними, это будет рассмотрено в следующем блоге, и я также прикреплю ссылку в этом блоге. А до тех пор продолжайте стремиться, продолжайте практиковаться.

Свяжись со мной 😊

LinkedIn
Гитхаб
Другие