Когда дело доходит до платформ, на которых можно построить свой стек аналитики данных, у компаний есть несколько вариантов. Централизованное хранилище данных, набор более специализированных витрин данных или их комбинация могут быть рассмотрены менеджерами данных. Хотя хранилища данных и витрины данных очень похожи, они служат довольно разным целям, и организация может использовать одно или оба для определенных случаев использования. Другой вариант - озеро данных, в котором отсутствует структура на основе схемы хранилища данных или витрины данных.
Хранилище данных против витрин данных
Разница между хранилищем данных и витриной данных заключается в том, что первое - это база данных, ориентированная на данные, а второе - это база данных, ориентированная на проекты. Еще одно различие между хранилищем данных и витриной данных заключается в том, что хранилище данных имеет широкую область применения, а витрина данных - узкую.
Хранилище данных, часто называемое единым источником истины, представляет собой репозиторий, в котором хранятся все текущие и исторические данные организации из многих источников. Это важный компонент архитектуры аналитики данных, поскольку он создает подходящую среду для поддержки принятия решений, аналитики, бизнес-аналитики и интеллектуального анализа данных.
Подмножество хранилища данных, ориентированное на бизнес, - это витрина данных. Витрина данных - это уменьшенная в масштабе версия хранилища данных, содержащая данные, которые критичны и требуются определенной группе или ограниченной группе пользователей внутри организации. Целью использования витрины данных является индексирование данных и обеспечение возможности поиска в определенных областях компании, а также для удовлетворения потребностей определенной группы пользователей внутри организации.
Таблица сравнения хранилищ данных и витрин данных
Параметры сравнения | Хранилище данных | Витрины данных |
Тип системы | Централизованный. | Децентрализовано. |
Данные | Подробная форма. | Обобщенная форма. |
Денормализация | Слегка денормализован | Сильно денормализованный |
Модель данных | Низходящий | Вверх дном |
Природа | Адаптивный, информационный и давний. | Сдержанный, проектно-ориентированный и имеет ограниченный срок службы. |
Что такое хранилище данных?
Хранилище данных относится к категории систем управления реляционными базами данных, которые разработаны для удовлетворения требований систем обработки транзакций. Это широкий термин, обозначающий любое централизованное хранилище данных, к которому можно получить доступ в коммерческих целях. Это база данных, в которой хранятся данные, которые можно использовать для принятия решений.
Это набор средств для принятия решений, призванный помочь интеллектуальным работникам (руководителям, менеджерам и аналитикам) делать более обоснованные и более обоснованные суждения. В результате хранилище данных предоставляет системы и инструменты, которые позволяют руководителям компаний систематически организовывать, интерпретировать и применять свои данные для принятия стратегических решений. В хранилище данных можно разместить несколько баз данных.
Данные организованы в таблицы и столбцы внутри каждой базы данных. Описание данных указывается в каждом столбце, например целое число, поле данных или текст. Схемы, которые можно представить себе как папки, можно использовать для упорядочивания таблиц. Данные загружаются и хранятся в многочисленных таблицах схемы. Схема используется инструментами запросов, чтобы выяснить, какие таблицы данных следует просматривать и анализировать.
Пользователи могут использовать хранилище данных для лучшего анализа и повышения эффективности своей организации. По мере того, как компьютерные системы становились все более сложными и требовались для управления большими объемами данных, необходимость в хранилищах данных росла. С другой стороны, создание хранилищ данных - не новая концепция.
Что такое витрины данных?
Витрина данных - это предметно-ориентированная база данных, которая обычно представляет собой многораздельное подмножество более крупного хранилища данных. Витрина данных часто содержит подмножество данных, относящихся к определенному бизнес-подразделению, например продажам, финансам или маркетингу. Витрины данных помогают предприятиям работать более эффективно, обеспечивая доступ к критически важной информации в хранилище данных или хранилище операционных данных в считанные дни, а не месяцы или годы.
Витрина данных - это экономичное решение для быстрого получения значимой информации, поскольку она содержит только данные, относящиеся к определенному бизнес-сектору. Зависимые, независимые и гибридные витрины данных - это три категории. Они классифицируются в зависимости от их отношения к хранилищу данных и источникам данных, используемых для построения системы.
Из существующего корпоративного хранилища данных формируется зависимая витрина данных. Это нисходящий метод, который начинается с хранения всех данных компании в централизованном месте, а затем удаляет четко определенный фрагмент данных, когда это необходимо для анализа. Независимая витрина данных - это автономная система, которая ориентирована на конкретную тему или бизнес-функцию и была построена без помощи хранилища данных.
Данные извлекаются из внутренних или внешних источников данных (или из обоих источников), обрабатываются и затем помещаются в репозиторий витрины данных, где они хранятся до тех пор, пока они не потребуются для бизнес-аналитики. Гибридная витрина данных собирает информацию из текущего хранилища данных, а также из других операционных систем-источников.
Основные различия между хранилищами данных и витринами данных
- Данные размещаются в хранилище данных, которое представляет собой единое централизованное хранилище. Витрины данных, с другой стороны, хранятся в децентрализованной области пользователя.
- Хранилище данных - это совокупность данных в наиболее полной форме. С другой стороны, витрина данных содержит обобщенные и выбранные данные.
- Данные хранилища данных денормализованы минимально, но данные витрины данных значительно денормализованы.
- Для создания хранилища данных используется метод «сверху вниз». С другой стороны, восходящая стратегия используется для создания витрины данных.
- Суть хранилища данных - адаптируемость, информационная ориентация и долговечность. С другой стороны, витрина данных ограничена, ориентирована на проекты и имеет ограниченный срок службы.
Вывод
В двух словах, хранилище данных - это массивная база данных, которая может подключаться практически к любому источнику данных. С другой стороны, витрина данных - это подсекция хранилища данных, которая имеет меньшую емкость хранения и предназначена для ответа на вопросы потребителей данных об определенном секторе бизнеса.
Хранилища данных обеспечивают вид предприятия, единую централизованную систему хранения, внутреннюю структуру и независимость от приложений, тогда как витрины данных обеспечивают представление отдела и децентрализованное хранилище. Поскольку хранилища данных настолько огромны и сложны, существует значительная вероятность отказа и трудности с их созданием.
С другой стороны, витрина данных проста в создании и связанный с этим риск сбоя низок, но витрина данных может стать фрагментированной.