miércoles, 3 de diciembre de 2008

DataWarehousing, la ventaja competitiva a su alcance.

PRÓLOGO
Las investigaciones demuestran que quienes compran libros relacionados con sus negocios prefieren que estos puedan ser leídos con rapidez, tal vez durante un viaje en avión o en pocos momentos libres que pueda disponer.- Por otra parte consideran que este tiempo fue bien empleado si obtienen dos o tres ideas o técnicas que le permitan mejorar sus actitudes profesionales o solucionar un problema al que están enfrentadose en su trabajo.-
Este White Paper fue concebido teniendo en cuenta ambos conceptos y es el producto de una larga investigación, experiencia, capacitación y sobre todo de la participación en importantes foros de discusión que nos permiten ofrecerle informacion sin insumirle el tiempo que seguramente tanto aprecia y necesita para su gestion.-

INTRODUCCIÓN
Seguramente Ud. vivió esta situación... Empleados administrativos buscando información en viejos listados, operadores de sistemas procesando, en el turno noche, información histórica de backups, analistas de sistemas presionados programando procesos que nunca estuvieron previstos y el gerente de sistemas explicando que necesita tiempo porque las bases de datos no están preparadas y los procesos diarios no se pueden interrumpir...
Los ejecutivos necesitan información para tomar una decisión de negocios, pero no la necesitan mañana, ni siquiera hoy por la tarde, la necesitan
Esta escena se presenta día a día en todas las empresas de alta competencia, en las cuales la falta de información rápida y exacta puede significar la diferencia entre el éxito y el fracaso.-
La solución para soportar decisiones tiene un sólo nombre: Data Warehouse (DW) y un Sistema de Soporte de Decisiones (DSS).

COMO IMPLEMENTAR UN DSS ?
Es nuestra opinión que no será posible el Exito de un DSS si no se adopta una adecuada y estricta metodología con un fuerte apoyo político al grupo de trabajo y con la participación comprometida de por lo menos un usuario final "Clave", que tenga una visión profunda del negocio y una contínua interacción con los altos Ejecutivos de la empresa.-
La adopción de esta metodología de trabajo para una implementación exitosa es una verdad irrefutable en cualquier implementación que se quiera realizar, pero en este caso particular, es mucho más critica por el conocimiento y la certeza que sólo tienen los tomadores de decisiones para definir claramente la Razón del Negocio, los indicadores a monitorear, la dificultades técnicas que habrá que evaluar por las múltiples fuentes de datos a integrar, la identificación de las mismas, la rápida adaptación de los DSS a los cambios estratégicos, etc.-
Esta metodología beneficiará rápidamente a la empresa, porque la misma debe contemplar etapas muy breves de implementaciones parciales y no esperar los resultados finales luego de un largo plazo de incertidumbre e inversiones.
La evolución y los constantes cambios en los negocios actuales hacen inviable cualquier proyecto informático de mas 6/9 meses de plazo. De ahí la importancia de un estricto control de la metodología aceptada y sus cronogramas de Trabajo.
Adoptados todos los recaudos necesarios podremos pertenecer al exiguo 16% exitoso del siguiente gráfico:







Hasta hace poco tiempo las inversiones en Sistemas Informáticos se evaluaban principalmente por la reducción de costos que producirían en la empresa. De ahora en mas deberán evaluarse por el beneficio que reportan .- Un DSS es el más claro ejemplo de la nueva tendencia Económica/Financiera de evaluación de Sistemas.-

ELECCIÓN DE HERRAMIENTAS Y BASES DE DATOS
La Elección de Herramientas Abiertas en la implementación de un DSS y de un probado motor de Base de Datos para su Data Warehouse representan una etapa muy importante ya que le permitirá
Dar una rápida respuesta a los Ejecutivos Tomadores de Decisiones.
Observar la evolución técnica y la consolidación de tendencias del mercado sin tener necesidad de comprometer costos importantes .-
Existen "Soluciones" que no se encuentran lo suficientemente maduras y que hoy están fuertemente impulsadas por políticas de Marketing que tratan de demostrar que la solución efectiva pasa únicamente por la adopción de una nueva tecnología.
A nivel mundial el mercado de Soporte de Decisiones esta y seguirá creciendo a un ritmo muy acelerado por los próximos 5 años.- Esta situación genera una competencia extrema por parte de los Productores de Software y las Consultoras, muchas veces influidas inconscientemente, impulsan a los clientes a comprometerse con tecnologías de última generación, a veces, no probadas convenientemente.-
Al elegir una solución no-propietaria, seguramente, capitalizará rápidamente, sea cual sea la tendencia que se imponga (Ej: RDBMS o MDBMS, MOLAP o ROLAP), su experiencia en el desarrollo y la mayor parte de los productos que selecciono oportunamente.-

DATAWAREHOUSE
Un DW es una arquitectura de datos, por lo tanto no debe ser asociado únicamente con repositorios de datos especializados como MDBMS (MultiDimensional DataBase Management System), por el contrario esta arquitectura puede ser diseñada perfectamente sobre RDBMS (Relational DataBase Management System).

Los problemas generados por el uso de bases de datos transaccionales OLTP (On Line Transactional Processing) en soporte de decisiones, se deben a que las mismas están orientadas a la carga masiva de transacciones diarias y no al acceso, consulta y análisis posterior de la información.
En un DW se transforman los datos orientados a una aplicación (por ejemplo diseñados para procesar la facturación y la cobranza diaria) en datos de soporte a las decisiones, es decir en datos que capturen la naturaleza básica del negocio.-
El diseño de un DW debe aceptar como entrada información sumarizada, elaborada y descriptiva, la cual debe estar subordinada para que pueda presentar una visión "estratégica" del negocio en cuestión.
Los datos deben ser integrados por que son de naturaleza heterogénea, es decir que provienen de diferentes sistemas heredados o de información no procesada (interna o externa a la empresa) y variables en el tiempo.
Otra característica del DW es que éste incorpora continuamente información, la cual debe ser integrada a la información existente. A la vez debe permitir que los sistemas actuales continúen en operación sin interferir ni colisionar con los mismos .-
También debe consolidar inconsistencias de datos entre los múltiples sistemas (heredados) de la empresa en una sola base de datos orientada coherentemente a la toma de decisiones.
En el diseño de un DW se debe echar por tierra, los conceptos actuales de normalización de datos, ya que el mismo presenta serios inconvenientes a la hora de acceder a la información (normalización OLTP).
Al desnormalizar el conjunto de tablas requeridos utilizando métodos acordes a DW, se logra un diseño tal que permite realizar "queries" utilizando SQL Standar, los cuales serían demasiado complejos de realizar con una normalización tradicional.
Este diseño puede estar orientado a OLAP (On Line Analytical Processing).-
Un DW debe contar con "por lo menos" los siguientes componentes:
Base de datos fuente en un host, como por ejemplo un OLTP, base de datos de operaciones batch, datos externos, etc.
Herramientas de extracción y transformación, utilizadas para tomar la información de la fuente, reorganizarla, sumarizarla y depositarla en el "Target" o repositorio.
Un repositorio de datos o Target sobre un servidor, el cual puede ser relacional o multidimencional. Es de aclarar que "análisis multidimencional" no es término vinculado únicamente con MDBMS, si se diseña adecuadamente se tiene acceso multidimensional a un DW montado sobre RDBMS.
Herramientas Front-End, utilizadas por los profesionales en negocios, para el acceso y análisis de los datos.
Antes de comenzar a diseñar un DataWarehouse debe seleccionarse una base de datos "Target", considerando entre RDBMSs ó MDBMSs.
La selección de algunas de las RDBMSs convencionales y herramientas especializadas de extracción y transformación, provee un mecanismo altamente efectivo para manejar, acceder y distribuir datos a través de un entorno de DW corporativo.
Al mismo tiempo se debe evaluar la capacidad de compatibilidad, de las RDBMSs convencionales, con los Standards de la industria, incluyendo SQL, ODBC y OLE.
A esto último debe sumarse la compatibilidad con Herramientas "Front-End" altamente utilizadas.
Los proveedores de la tecnología MDBMS y herramientas propietarias de Data Warehousing declaran que las RDBMSs convencionales no son capaces de proveer alta performance en entornos de Data Warehousing, ya que han sido diseñadas para aplicaciones OLTP, promoviendo sus respectivos productos con características como motores multiplataformas diseñados para proveer respuestas veloces a los "queries" online, funciones de Data Warehouse programables y extensiones del SQL standard soportando alta performance.
La mayoría de estas herramientas propietarias soportan características de arquitecturas multidimensionales para entornos OLAP.
En contraste las MDBMS contienen significativas limitaciones incluyendo el excesivo incremento de los volúmenes almacenados, requerimientos de hardware altamente potentes, cantidad de dimensiones limitadas, etc.
Al mismo tiempo se debe evaluar que los mayores proveedores de RDBMSs tradicionales están anunciando sus nuevas versiones con capacidades de Data Warehousing y OLAP, de los cuales algunos ya están en el mercado.
Dependiendo de la selección del tipo de Motor de Base de Datos se tienen diversas Herramientas de acceso y análisis para el usuario final, pudiendo ser "Queries Tools", aplicaciones específicas DSS/EIS o algunas de las más populares planillas de cálculo, debiéndose tener en cuenta que la selección de motores propietarios limitará al máximo la libertad de elección de estas herramientas.
Los requerimientos mínimos que debe contemplar una herramienta de consulta para Data Warehouse son los siguientes
Facilidades extendidas para acceso, manejo y presentación de los datos.
Pivoteo de Dimensiones
Capacidad de Drill Down (detalles, en caso de análisis multidimensional)
Capacidad de Roll Up (Totales, en caso de análisis multidimensional)
Graficación
Reportes gerenciales
etc.
Características que permitan minimizar el soporte del MIS
Soporte de standards de la industria como DDE, OLE y ODBC
Soporte de entorno "amigable" al usuario final

CONCLUSIÓN
A pesar de lo que se cree, el Data Warehouse no es más que un peldaño en la gran escalera de la información corporativa.
La gran mayoría de proveedores, en esta tecnología, no presentan una solución completa para esta estrategia. Como resultado muchos DW son desarrollados utilizando productos de múltiples proveedores.
Creemos en la necesidad de no comprometer esfuerzos en la utilización de herramientas propietarias, ya que en el presente y sin tomar en cuenta las noticias entrantes, se dispone de la tecnología necesaria para generar, mantener, acceder y utilizar eficientemente un Data Warehouse con herramientas, de arquitectura abierta, disponibles en el mercado (esta creencia es fuertemente compartida con los principales consultores a nivel mundial en la materia).
Por otra parte, se deben contemplar los mayores costos para implementar un sistema en el cual se debe invertir capacitación, desarrollo, Hardware, etc., cuando tal vez se cuenta con medios necesarios y suficientes en las instalaciones actuales.
Sin lugar a dudas, además de contemplar todos los aspectos de este informe, el diseño del Data Warehouse fue, es y seguirá siendo siempre fundamental.
Un diseño que no contemple los fundamentos de DW quita total importancia al resto de los aspectos, por ejemplo, la discusión RDBMS ó MDBMS.
No existe el producto que sin un diseño adecuado pueda solucionar la problemática de toma de decisiones.
La Metodología de trabajo para un DSS contempla implementaciones progresivas y a la vez una transferencia gradual de conocimientos desde nuestra consultoría al grupo designado.- Al concluir la puesta en marcha del primer Modulo este grupo se encontrara totalmente capacitado en DSS y DW.-
Como todos los DSS son de Implementaron progresiva y mejoramiento continuo OSC recomienda: prudencia ante la euforia y adoptar Tecnologías probadas y Abiertas para preservar y capitalizar mas rápidamente la inversión inicial.-

Carlos Arabito.

domingo, 27 de enero de 2008

DSE (Data Storage Environment)

INTRODUCCIÓN

Es muy importante considerar que DataWarehousing es un proceso, no un producto, porque esta confusión será el comienzo de un fracaso a corto o mediano plazo.-

Este White Paper tiene como objetivo explicar cual es el "Area Crítica" de la implementación, mantenimiento y mejoramiento contínuo, y al mismo tiempo ayudarlo con una metodología adecuada a encontrar un punto de equilibrio entre la respuesta rápida a los Usuarios y una implementación ordenada y exitosa de un proceso de DataWarehousing.-

Es imprescindible encontrar ese equilibrio y para esto es necesario comprender la complejidad del entorno de DataWarehousing y aplicar una metodología de trabajo que garantice el éxito de la implementación .-

DataWarehousing y su entorno total de implementación.


DSE - Data Storage Environment.

La comprensión de la complejidad e importancia de los procesos que ocurren en el DSE es el primer paso y el principal para implementar y mantener un DataWarehouse.-

Según Inmon (creador del término DataWarehouse) el 80% del esfuerzo y la inversión para implementar y mantener un proceso de DataWarehousing se realiza sobre el DSE.-

Como muestra el gráfico anterior los datos que alimentarán el DataWarehouse deben ser extraídos de diversas y múltiples fuentes que fueron procesadas o no en la empresa.-

Ej.: Diferentes Host y RDBMS, Archivos VSAM, , el mismo dato en diferentes formato o en diferentes unidad de medida, de fuentes externas como Consultoras de Marketing, Encuestadoras, Proveedores, Internet/Intranet , etc.-

Estos datos deben ser extraídos y transportados hacia el DataWarehouse consistentes, remapeados, integrados, limpios, sincronizados, con sus reglas de negocios definidas y sumarizados cuando sea necesario.-

Desde el DataWarehouse deben ser puestos a disposición de los usuarios o preferentemente distribuidos entre los mismos.-

Luego de implementado el proyecto, los Usuarios (Decision Markers de Marketing, Finanzas, Producción, Presupuestación….) irán adquiriendo conocimientos acerca de la explotación de la información en el DataWarehouse y habrá que proveerlos de la Herramientas de Análisis, Reporting, DataSets para DataMining o Datamarts adecuados a sus necesidades.-

No todos los usuarios necesitan OLAP y tal vez unos pocos DataMining y a otros les basta con Excel y tablas dinámicas.-

Todo estos cambios dinámicos deberán preverse en DSE para que un DataWarehouse sea explotado al máximo de sus posibilidades.-

Es muy importante conocer el porque un DataWarehouse tiene que estar preparado para crecer permanentemente por agregados, para absorber con transparencia los cambios en datos fuentes o nuevos requerimientos de los Usuarios.-

En general las tecnologías aplicadas a DataWarehousing están poco difundidas y en constante evolución y es frecuente que la presión de los usuarios o la confusión lleve a analizar la implementación del proceso de DataWarehousing a través de las excelentes y atractivas Herramientas de Reporting , Análisis Olap, DSS, DataMining o desde un DataMart y sus Plantillas.-

Los dos motivos por el cual siempre se deberán revisar los procesos de alimentación de un DataWarehouse son:

  • Las frecuentes actualizaciones tecnológicas o mantenimiento de aplicaciones OLTP, reingeniería, etc..

      En consecuencia cambian las fuentes de datos(formatos , Unidad de Medida, ...) y estos cambios deben reflejarse en el DW e integrarlos a los datos anteriores.
      Esto ocurrirá aun cuando se este trabajando sobre un ambiente OLTP estabilizado y hayamos realizado un excelente relevamiento de las necesidades.
      Según el mismo Inmon, si Ud. esta pensando mejorar su modelo de datos transaccional(OLTP) para evitar o minimizar la fase DSE Ud. nunca tendrá un DataWarehouse.

  • Las presiones de los Usuarios y/o Decision Makers de la empresa. El proceso en si mismo de DataWarehousing permite a los Usuarios descubrir una independencia de IS impensada.- Además estos deben tener una visión integral de los datos que pueden explotar.
  • Los productos de Reporting OLAP, DSS o Data Mining producen a los Decision Makers un cambio de percepción exigiendo cada vez mas y mejor información que seguramente no fueron solicitadas en su momento ni por ellos mismos.

DSE - Administración y automatización del ambiente.

En la figura superior se hace notar como se incrementan los costo de mantenimiento de un DataWarehouse a través del tiempo si no se automatiza y se administra el DSE.

Es obvio que si no se cuenta con las herramientas apropiadas y no se automatizan los procesos de mantenimiento, los costos de Análisis, Programación, Administración de Base de Datos, etc. crecerán indefinidamente a medida que evolucione el DataWarehouse.

Se debe ejercer en DSE un estricto control sobre el dato y sus procesos con una administración dinámica y flexible.-

Para seleccionar las herramientas y automatizar los procesos del DSE se debe tener en cuenta que:

  • Los registros de un DataWarehouse no se actualizan.
  • El volumen de información crece constantemente por agregación de registros.
  • Incorporación o cambios continuos en los datos fuentes.
  • Debe alertar sobre cambios no previstos o no informados en datos fuentes.
  • Es un proceso Batch pero debe prever procesos por excepción.
  • Debe preveer procesos que contemplen el análisis de Granularidad vs. Volumen.
  • Debe Implementarse con tecnología Abierta y Relacional (RDBMS)
Si se cumplen con estas condiciones podrá implementar un DataWarehouse con las siguientes características:
  • Escalable (Muy importante por el crecimiento continuo de la información).
  • De fácil acceso, Flexible.
  • Con capacidad de Distribución Herramientas y Función del Usuario.
  • Poder agregar rápidamente mas dimensiones en DataMart (Rolap/Molap).
  • Ejecutar procesos de DataMining sin inconvenientes en los DataSets adecuados.
  • Asegurar la calidad del dato.
  • No interferir los procesos transaccionales.
METODOLOGÍA.

Estas son las características principales que debe contemplar una Metodología para hacer del DataWarehousing un suceso permanente en su empresa y que este proceso sea de costo accesible e inversamente proporcional al beneficio que brinde:

  • Diseño especifico para DataWarehousing.
  • Comienzo con una fase Piloto, con el Usuario "Clave" y con un grupo de Trabajo con apoyo Gerencial. (Esta fase debe ser de inmediata implementación, no debe generar expectativas desmesuradas pero debe ser eficaz para poder publicitar la propagación y motivar a los próximos usuarios y diseñar e implementar la administración del DSE al mismo tiempo).
  • Administración desde Meta Data Dictionary.
  • Diseño Olap (Rolap/Molap) para DataMart.
  • Transferencia de conocimientos.
  • Mejoramiento continuo.
  • Estricto control del cronograma de trabajo.
Carlos A. Arabito (DataWarehousing/DSS Consultant)