viernes, 12 de agosto de 2016

Data Warehouse

 

Data_Warehouse_Mart_figura_principal

Gracias al avance informático en la actualidad la mayoría de los procesos se han informatizado, y como resultado de esto se obtiene una gran cantidad de información que se almacenan en diferentes ficheros y bases de datos, es por esto que uno de los problemas principales que enfrentan hoy en día las empresa es la gestión de grandes volúmenes de información y la forma de explotar y sacar provecho a dicha información para lograr tener soporte en la toma de decisiones administrativas, financieras y económicas. Toda empresa actualmente debe mantener un control de la información generada día a día para poder tomar decisiones de forma óptima.

Al estar inmersos en la era del conocimiento, cuyo valor primordial es la información, la cual tiene un peso inmenso sobre cualquier otro recurso de una empresa; si un gerente está bien informado de lo que sucede dentro de la empresa con datos concretos y reales puede tomar decisiones mucho más acertadas para el bien de la empresa, permitiendo manejar sus recursos de manera eficiente.

La solución más factible para agrupar toda esta información en un solo lugar del cual se pueda extraer toda la información estadística y de inteligencia de negocio necesaria es un Almacén de Datos o Data Warehouse.

 

¿Qué es un Data Warehouse?

Es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un registro o historial de procesos completo de una organización, más allá de la información transaccional y operacional, almacenada en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos. Los almacenes de datos contienen a menudo grandes cantidades de información que pueden o no subdividirse en unidades lógicas más pequeñas (Data Marts) dependiendo del subsistema de la entidad del que procedan o para el que sea necesario.

Existen varias definiciones para Data Warehouse algunas de ellas encaminadas a la información que contienen, otras hacen referencia además, a todo el proceso por el cual pasa la información para llegar al resultado final.

 

Características

Entre las características de un Data Warehouse según Bernabeu están: (Bernabeu, 2010)

Ø Orientado a un tema

Ø Administra grandes cantidades de información

Ø Guarda información en distintos repositorios

Ø Condensa y agrega información

Ø Integra y asocia información

Ø Ayuda en la decisión estratégica

Ø Permite explotar la información histórica existente

 

Ventajas

Las ventajas del Data Warehouse según Bernabeu son: (Bernabeu, 2010)

Ø Posibilita la extracción de datos de sistemas operacionales y fuentes externas.

Ø Permite la integración y homogeneización de los datos de toda la empresa.

Ø Provee información que ha sido transformada y totalizada, para que ayude en el proceso de toma de decisiones estratégicas y tácticas

 

Componentes de un Data Warehouse

Data Marts

Es un subconjunto del Data Warehouse que se enfoca en solucionar un área específica de la organización.

Entre las características de un Data Mart destacan:

Ø Usuarios limitados.

Ø Área específica.

Ø Tiene un propósito específico.

Ø Tiene una función de apoyo.

Extracción, transformación y carga (ETL)

Extraer, transformar y cargar (ETL del inglés Extract, Transform and Load) es el proceso que permite mover datos desde múltiples fuentes, reformatearlos, limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar.

 

Modelo Multidimensional de un Data Warehouse

Un modelo multidimensional es una base de datos en donde su información se almacena en forma multidimensional, es decir, a través de tablas de hechos y tablas de dimensiones a estos elementos en conjunto se le llaman cubos de información.

Los cubos de información tratan de organizar los datos por tablas o relaciones; estos tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.

A la información de un cubo se puede acceder mediante "tablas dinámicas" en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.

Dimensiones

Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos.

Variables

También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “tiempo” (medido en días, horas, semanas, etc.).

 

Modelamiento

Al momento de realizar el modelamiento de un Data Warehouse se puede optar por distintas formas de relacionar la tabla de hecho y las tablas de dimensiones, entre las cuales están:

Ø Esquema Estrella: Consiste en una tabla de hechos central y las tablas de dimensión están relacionadas mediante claves. En este modelo los datos deben de estar totalmente normalizados.

Ø Esquema Copo de Nieve: Es una extensión del esquema en Estrella, esta posee una tabla de hechos central y las tablas de dimensión están relacionadas a este mediante claves, pero a su vez las tablas de dimensión pueden relacionarse con otras tablas de dimensión.

Ø Esquema Constelación: Compuesta por una tabla de hechos central relacionada con otras tablas de hechos, donde cada tabla de hechos posee sus propias dimensiones.


¿Te ha gustado este Post? Compártelo con tus amigos.

No hay comentarios:

Publicar un comentario

IconIconIcon