Хранилища данных. Книга для проектировщиков, разработчиков и руководителей проектов
Год издания: 2024
Автор: Туманов В.Е.
Издательство: Ай Пи Ар, EDP Hub (Идипи Хаб)
ISBN: 978-5-4497-2322-2
Язык: Русский
Формат: PDF
Качество: Отсканированные страницы
Количество страниц: 438
Описание: Хранилища данных как информационная технология появились в результате применения прикладного искусственного интеллекта в области систем принятия и поддержки решений. И в обозримой перспективе хранилища данных будут оставаться базовым элементом систем бизнес-аналитики в части обработки структурированных данных. В издании рассматривается архитектура хранилищ данных, многомерная модель данных и сложившиеся подходы к многомерному проектированию (корпоративное хранилище данных, связанные киоски данных, Data Vault, Anchor-модель), обзор SQL для агрегации и аналитики, вопросы проектирования производительности, основы оптимизации запросов, представление о метаданных и базовые схемы процессов извлечения, преобразования и загрузки данных.
Книга будет интересна широкому кругу специалистов IT-сферы и бизнеса, чья деятельность связана с анализом данных.
Примеры страниц (скриншоты)
Оглавление
ПРЕДИСЛОВИЕ ................ ............................... .......................... 8
О ЧЕМ ЭТА КНИГА .......... ........................................................... 10
1. ДЛЯ ЧЕГО НУЖНЫ ХРАНИЛИЩА ДАННЫХ ................................. 12
О понятии «хранилище данных» ................................................. 12
Что такое архитектура хранилищ данных .................................. 23
Какие бывают архитектуры хранилищ данных .......................... 29
2. В ЧЕМ ОСОБЕННОСТИ
МНОГОМЕРНОЙ МОДЕЛИ ДАННЫХ .......................................... 36
На каких понятиях базируется многомерная модель данных .. 36
Каковы основные операции многомерной модели данных ...... 40
Как работает ОLАР-технология ................................................... 45
Для чего нужны многомерные диаграммы ................................ 53
3. КАК РЕАЛИЗУЕТСЯ МНОГОМЕРНАЯ МОДЕЛЬ
В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ ........................................... 59
Многомерная модель данных и реляционные отношения ........ 59
Факты, таблица фактов, ключи таблицы фактов ........................ 62
Измерения, таблицы измерений, ключи таблицы измерений ..... 70
Иерархии, таблицы иерархий ...................................................... 78
Отношение «многие - ко-многим» в хранилищах данных ......... 79
4 . КАК ПРЕДСТАВЛЯЕТСЯ ТЕМПОРАЛЬНОСТЬ
В БАЗАХ ДАННЫХ ......... ..................................................................... 83
Темпоральные данные в базах данных ....................................... 83
Как строится модель темпоральных данных .............................. 87
Как происходит учет временных зависимостей предметной
области ........................................................................................... 93
5. ЧТО ТАКОЕ МЕТАДАННЫЕ ХРАНИЛИЩА ДАННЫХ .......................... 101
Какие основные функции выполняют метаданные
в хранилищах данных ................................................................. 101
Логическая структура метаданных хранилища данных .................. 108
Какие существуют стандарты метаданных
хранилища данных ..................................................................... 113
Как осуществляется проектирование модели
метаданных хранилища данных ................................................ 118
6. КАК СОЗДАЕТСЯ ХРАНИЛИЩЕ ДАННЫХ .................................. 122
Что нужно для организации проекта хранилища данных ............. 122
Как выглядят жизненный цикл хранилища данных
и его модель ................................................................................. 124
Какие процессы включает бизнес-модель
типового проекта создания хранилища данных ...................... 141
7. КАК СОЗДАЕТСЯ ХРАНИЛИЩЕ ДАННЫХ
ИЗ КОРПОРАТИВНОЙ МОДЕЛИ ДАННЪIХ .............................. 151
О корпоративной модели данных ............................................. 151
Каков алгоритм преобразования корпоративной
модели данных в модель хранилища данных ........................... 156
Для чего создаются массивы данных и как происходит
секционирование таблиц фактов .............................................. 169
Нужно ли группировать данные в соответствии
с частотой использования .......................................................... 170
8. КАК ИСПОЛЬЗУЮТСЯ КИОСКИ ДАННЫХ
ДЛЯ СОЗДАНИЯ ХРАНИЛИЩА ДАННЫХ ...................................... 173
О понятии «киоски данных» ..................................................... 173
В чем особенность хранилищ данных
по Ральфу Ким баллу ................................................................... 174
Как происходит согласование измерений ................................. 179
Как происходит согласование фактов ....................................... 181
О реализации шины данных ...................................................... 182
9. В ЧЕМ СМЫСЛ МОДЕЛИ «СВОД ДАННЫХ»
(DATA VAULT) .............................................................................. 186
О модели «свод данных» ............................................................. 186
Каковы основные элементы модели «свод данных» ....................... 190
Как выглядит алгоритм построения модели
«свод данных» ............................................................................. 199
Пример проектирования модели « свод данных» ..................... 201
Создание и заполнение модели «свод данных» ........................ 209
10. О ТЕНДЕНЦИЯХ РАЗВИТИЯ
И ДРУГИХ МОДЕЛЯХ ХРАНИЛИЩ ДАННЫХ ................................. 212
Каковы тенден ции в обработке данных
и хранилищах данных ................................................................ 212
Какие хранилища данных называют облачными ..................... 216
Что такое озера данных .............................................................. 221
В чем особенность якорной модели хранилища данных ......... 223
11. ЧТО ТАКОЕ ФИЗИЧЕСКАЯ МОДЕЛЬ ДАННЫХ ...................... 234
Каковы объекты физической модели данных .......................... 234
Об основных объектах реляционной базы данных .................. 237
Как используются домены в физической модели данных ....... 241
Как создать физическую модель хранилища данных .............. 243
Как сгенерировать скрипт для создания
хранилища данных ..................................................................... 252
12. КАК ОБЕСПЕЧИТЬ ПРОИЗВОДИТЕЛЬНОСТЬ
ПРИ СОЗДАНИИ ФИЗИЧЕСКОЙ МОДЕЛИ .................................... 261
tJтo такое транзакция ................................................................. 261
Об использовании денормализации ......................................... 263
Как и для чего применяется разбиение
и объединение таблиц ................................................................ 268
Какие существуют встроенные средства СУБД
для увеличения производительности ....................................... 271
13. КАК ПРОИСХОДИТ ПРОЕКТИРОВАНИЕ
И РАЗРАБОТКА ПРОЦЕССА ИЗВЛЕЧЕНИЯ,
ПРЕОБРАЗОВАНИЯ И ЗАГРУЗКИ ДАННЫХ ............................... 283
Об извлечении, преобразовании и загрузке данных ............... 283
Какие существуют подходы к реализации процесса
извлечения, преобразования и загрузки данных ..................... 287
Как разрабатывается процесс извлечения,
преобразования и загрузки данных .......................................... 290
14. КАК ВЫГЛЯДИТ ПРОЦЕСС ИЗВЛЕЧЕНИЯ,
ПРЕОБРАЗОВАНИЯ И ЗАГРУЗКИ ДАННЫХ (CASE) .................... 303
Каким образом используются САSЕ-инструменты
для проектирования процессов преобразования данных ....... 303
В чем особенности моделирования движения данных ............ 307
Как смоделировать процесс преобразования данных ............. 309
Как строится диаграмма управления потоком
преобразования данных ............................................................. 310
Об управлении бизнес- правилами в хранилищах данных ............. 311
15. КАК ВЫПОЛНЯЕТСЯ НАСТРОЙКА
ПРОИЗВОДИТЕЛЬНОСТИ ЗАПРОСОВ
К ХРАНИЛИЩУ ДАННЫХ .............................................................. 314
Для чего оптимизировать обработку данных
и какие языки для этого используются ..................................... 314
Об особенностях оптимизации запросов .................................. 318
Синтаксическая оптимизация ................................................... 319
Оптимизация, основанная на правилах .................................... 321
Оптимизация, основанная на вычислении стоимости ................. 324
Как выглядит структура плана запроса ..................................... 330
Как повысить скорость выполнения запросов
с помощью их анализа ................................................................ 333
В чем особенности оптимизации запросов
для схем типа « звезда» ............................................................... 341
16. SQL В ХРАНИЛИЩАХ ДАННЫХ:
АГРЕГАЦИЯ И СУММИРОВАНИЕ ............................................... 350
Расширение команды SELECT для обработки данных ................ 350
Расширение SQL для агрегации данных ................................... 351
Предложение ROLLUP ................................................................. 355
Как использовать ROLLUP для вычисления
частичных сумм .......................................................................... 357
Предложение CUBE ..................................................................... 361
Функция GROUPING .................................................................... 366
Как осуществляется управление иерархией
в предложениях ROLLUP и CUBE ................................................ 370
17. SQL В ХРАНИЛИЩАХ ДАННЫХ:
АНАЛИТИЧЕСКАЯ ОБРАБОТКА ................................................. 373
Каковы аналитические функции SQL ........................................ 373
Что такое окно и оконные функции
и как с ними связано предложение OVER ................................. 377
Каковы функции ранжирования ................................................ 382
Функция CUME_DIST ................................................................... 390
Агрегатные и статистические оконные функции ............................. 394
Какие существуют функции управления доступом
к строкам в секции ...................................................................... 408
18. КАК ИСПОЛЬЗОВАТЬ ХРАНИЛИЩА ДАННЫХ
ДЛЯ БИЗНЕС-АНАЛИЗА .................................................................. 411
Об аналитике в бизнесе .............................................................. 411
Каковы алгоритмы анализа данных
в хранилищах данных ................................................................. 414
Машинное обучение, Big Data и Data Science ........................... 419
ЭТО ИНТЕРЕСНО. СПИСОК ТЕРМИНОВ ................................. .424