Tecspace - Artigos

Business Intelligence

análise das informações

Business Intelligence (BI), ou Inteligência Empresarial, define a habilidade das empresas em acessar dados e colher informações contidas, por exemplo, em um sistema de Data Warehouse (DW), analisando estas informações para dar suporte às tomadas de decisões nos negócios.

O grande desafio de todo indivíduo que gerencia qualquer processo é a análise dos fatos relacionados a seu dever. Ela deve ser feita de modo que, com as ferramentas e dados disponíveis, o gerente possa detectar tendências e tomar decisões eficientes e no tempo correto. Com essa necessidade surgiu então o conceito de Business Intelligence.

Desde a década de 70 existem produtos de BI, ainda que, na época, não se utilizasse este termo. Nesta época, a implantação e programação de sistemas de bancos de dados para fins de análise tinham um custo muito alto. Com o surgimento dos bancos de dados relacionais, dos PC's e das interfaces gráficas como o Windows, aliados ao aumento da complexidade dos negócios, começaram a surgir os primeiros produtos realmente direcionados aos analistas de negócios, qu possibilitavam rapidez e uma maior flexibilidade de análise.

Há milhares de anos atrás, Fenícios, Persas, Egípcios e outros Orientais já faziam, a seu modo, Business Intelligence, ou seja, cruzavam informações provenientes da natureza, tais como comportamento das marés, períodos de seca e de chuvas, posição dos astros, para tomar decisões que permitissem a melhoria de vida de suas comunidades.

O termo BI surgiu na década de 80, cunhado pelo Gartner Group, e tem como principais características:

Extrair e integrar dados de múltiplas fontes

Fazer uso da experiência

Analisar dados contextualizados

Trabalhar com hipóteses

Procurar relações de causa e efeito

Transformar os registros obtidos em informação útil para o conhecimento empresarial

São ferramentas de Business Intelligence:

Data Warehouses

Planilhas Eletrônicas

Geradores de Consultas e Relatórios

EIS

Data Marts

Data Mining

Ferramentas OLAP

Data Warehouse

Segundo W.H.Inmon (um dos "pais" dos conceitos de DW), um data warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão.

Podemos dizer também que o data warehouse é um conjunto de tabelas (banco de dados) contendo dados extraídos dos sistemas de operação da empresa (ERPs, tarifadores, etc.), tendo sido otimizados para processamento de consulta e não para processamento de transações.

Em geral, um data warehouse requer a consolidação de outros recursos de dados além dos armazenados em BDs relacionais, incluindo informações provenientes de planilhas eletrônicas, documentos textuais, etc. O objetivo de um data warehouse é fornecer uma imagem única da realidade do negócio.

De uma forma geral, sistemas de data warehouse compreendem um conjuntos de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantém, e sistemas que fornecem estes dados aos seus usuários.

Pode-se dizer que sistemas de data Warehouse revitalizam os sistemas da empresa, porque:

permitem que sistemas mais antigos continuem em operação;

consolidam dados inconsistentes dos sistemas mais antigos em conjuntos coerentes;

extraem benefícios de novas informações oriundas das operações correntes;

provêm ambiente para o planejamento e arquitetura de novos sistemas de cunho operacional.

Como se vê, existem diferentes visões do que seria um data warehouse: uma arquitetura, um conjunto de dados semanticamente consistente com o objetivo de atender diferentes necessidades de acesso a dados e extração de relatórios, ou ainda, um processo em constante evolução, que utiliza dados de diversas fontes heterogêneas para dar suporte a consultas ad-hoc, relatórios analíticos e à tomada de decisão.

É importante considerar, no entanto, que um data warehouse não contem apenas dados resumidos, podendo conter também dados primitivos. É desejável prover ao usuário a capacidade de aprofundar-se num determinado tópico, investigando níveis de agregação menores ou mesmo o dado primitivo, permitindo também a geração de novas agregações ou correlações com outras variáveis. Além do mais, é extremamente difícil prever todos os possíveis dados resumidos que serão necessários: limitar
o conteúdo de um data warehouse apenas a dados resumidos significa limitar os usuários apenas às consultas e análises que eles puderem antecipar frente a seus requisitos atuais, não deixando qualquer flexibilidade para novas necessidades.

Data Mart

O Data Mart, também conhecido como Warehouse Departamental, é uma abordagem descentralizada do
conceito de Data Warehouse. Como os projetos sobre Data Warehouse (DW) referiam-se a uma arquitetura centralizada, sua implementação não é uma tarefa fácil, embora fosse interessante as características de uniformidade, controle e segurança. A implementação de um DW completo requer uma metodologia rigorosa e uma completa compreensão dos negócios da empresa. Esta abordagem pode ser longa e dispendiosa e por isto sua implementação exige um planejamento bem detalhado (em
outras palavras: tempo longo). Neste contexto e com a necessidade de agilização de implantação dos projetos de DW, o Data Mart passou a ser uma opção de arquitetura interessante.

Existem duas maneiras de distintas de criação de data marts: top-down e botton-up.

Top-down: é quando a empresa cria um DW e depois parte para a segmentação, ou seja, divide o DW em áreas menores gerando assim pequenos bancos orientados por assuntos departamentalizados.

Botton-up: é quando a situação é inversa. A empresa por desconhecer a tecnologia, prefere primeiro criar um banco de dados para somente uma área. Com isso os custos são bem inferiores de um projeto de DW completo. A partir da visualização dos primeiros resultados parte para outra área e assim sucessivamente até resultar num Data Warehouse completo.

A tecnologia usada tanto no DW como no Data Mart é a mesma, as variações que ocorrem são mínimas, sendo em volume de dados e na complexidade de carga. A principal diferença é a de que os Data Marts são voltados somente para uma determinada área, já o DW é voltado para os assuntos da empresa toda.

Portanto, cabe a cada empresa avaliar a sua demanda e optar pela melhor solução. O maior atrativo para implementar um data Mart é o seu custo e prazo. Segundo estimativas, um Data Mart custa de 5 a 50% do custo total de um DW integral e seu prazo de implantação é de cerca de 120 dias enquanto que o DW integral leva cerca de um ano para estar consolidado.

Metadados

Os metadados são definidos como dados dos dados, informações das informações. Dada a complexidade das informações de um Data Warehouse, a documentação dos sistemas e dos bancos de dados tornou-se de vital importância. Este tipo de registro já era tido como muito importante desde o surgimento dos primeiros bancos de dados. Com o DW, isto se tornou fundamental, pois
sendo um projeto gigantesco, se não houver uma documentação eficiente, ninguém conseguirá entender mais nada.

Num projeto de DW, deve-se gerar documentação sobre o levantamento de dados, do banco de dados, relatórios a serem gerados, origem dos dados que alimentam o DW, processos de extração, tratamento e rotinas de carga dos dados, além de, possivelmente, regras de negócio da empresa e todas suas mudanças.

Segundo Inmon (um dos "papas" dos conceitos de DW), os metadados englobam o DW e mantém as informações sobre o que está onde. O autor ainda define quais informações os metadados mantém:

A estrutura dos dados segundo a visão do programador;

A estrutura dos dados segundo a visão dos analista de SAD;

A fonte de dados que alimenta o DW;

A transformação sofrida pelos dados no momento de sua migração para o DW;

O modelo de dados;

O relacionamento entre o modelo de dados e o DW;

O histórico das extrações de dados;

Os dados referentes aos relatórios que são gerados pelas ferramentas OLAP assim como os que são gerados nas camadas semânticas.

Os metadados podem surgir de vários locais durante o decorrer do projeto. Desde o material originado das entrevistas com os usuários até documentação dos sistemas operacionais. Aliás, as entrevistas muitas vezes tornam-se uma fonte preciosa de informações, pois muitos dados levantados não estão (e não estariam) documentados em nenhum outro lugar. Nesta fase, deve-se definir, inclusive, as regras para validação dos dados após carregados no DW.

Como pudemos ver, o volume de metadados gerados é muito grande. Existem hoje algumas ferramentas que fazem única e exclusivamente o gerenciamento dos metadados. Elas têm algumas características peculiares. Essas ferramentas conseguem mapear o dado em todas as etapas de
desenvolvimento do projeto, desde a conceitual até a de visualização dos dados em ferramentas OLAP/EIS.

A regra da boa implementação de um projeto de DW reza que devemos sempre nos preocupar com os metadados, pois são eles que servirão de guia por entre as brumas das tabelas, relatórios e dados quando estivermos perdidos.

ETL (extration, tranform and load)

A etapa de ETL é uma das mais críticas de um projeto de DW, pois uma informação carregada erroneamente trará conseqüências imprevisíveis nas fases posteriores. O objetivo desta fase é fazer a integração de informações de fontes múltiplas e complexas. Basicamente, divide-se esta etapa em três passos: extração, transformação e carga dos dados. Embora tenhamos hoje em dia ferramentas
que auxiliam na execução do trabalho, ainda assim é um processo trabalhoso, complexo e também muito detalhado.

Carga. Num processo de ETL, primeiramente devemos definir as origens das fontes de dados e fazer a
extração deles. As origens deles podem ser várias e também em diferentes formatos, onde poderemos encontrar desde os sistemas transacionais das empresas (por exemplo: SAP, BSCS, etc.) até planilhas, arquivos textos e também arquivos DBF (dBase) ou do Microsoft Access.

Limpeza. Definidas as fontes, partimos para o segundo passo que consiste em transformar e limpar esses dados. A limpeza é necessária porque os dados normalmente advém de uma fonte muitas vezes desconhecida nossa, concebida há muito tempo, contendo muito lixo e inconsistência. Por exemplo: se a empresa for de cartão de crédito, o vendedor está mais preocupado em vender o produto (cartão) do que na qualidade de dados que está inserindo. Se o cliente não tiver o número do RG na hora da venda, o vendedor cadastrará um número qualquer para agilizar a venda. Se for feita uma consulta posterior, levando-se em conta o número do RG dos clientes, no mínimo informações estranhas aparecerão (algo como RG número 99999999-99). Por isso, nessa fase do DW, faz-se a limpeza desses dados, para haver compatibilidade entre eles.

Transformação. Uma vez que a origem dos dados podem ser de sistemas diferentes, às vezes é necessário padronizar os diferentes formatos. Por exemplo: em alguns sistemas a informação sobre o sexo do cliente pode estar armazenada no seguinte formato : “M” para Masculino e “F” para Feminino. Porém, em algum outro sistema pode estar guardadado como “H” para Masculino e “M” para Feminino e assim sucessivamente. Quando levamos esses dados para o DW, deve-se ter uma padronização deles, ou seja, quando o usuário for consultar o DW, ele não pode ver informações iguais em formatos diferentes. Portanto, fazemos o processo de ETL, transformamos esses dados e deixamos num formato uniforme normalmente sugerido pelo próprio usuário. No DW, teremos somente M e F, fato esse que facilitará a análise dos dados que serão recuperados pela ferramenta OLAP.

Apesar de existirem ferramentas de ETL como o Data Stage (Ardent/Informix), o DTS (Microsoft) e o Sagent (da própria Sagent), às vezes é necessário criar rotinas de carga para atender determinadas situações que poderão ocorrer. Todos tem os seus diferenciais e cada um poderá ser utilizado dependendo do caso de cada empresa. O mais importante é que uma ferramenta de ETL tem grande valia, principalmente se os sistemas OLTP (transacionais) são muitos, pois elas são uma poderosa fonte de geração de metadados, e que contribuirão muito para a produtividade da equipe.

Data Mining

Data Mining (ou mineração de dados) utiliza técnicas estatísticas e de aprendizado de máquinas (redes
neurais) para construir modelos capazes de predizer o comportamento de clientes. Hoje em dia, a tecnologia consegue automatizar o processo de mineração, integrá-lo ao data warehouse e apresentá-lo de forma relevante aos seus usuários.

O Data mining é a descoberta de conhecimento interessante, mas escondido em grandes bases de dados. Bases de dados corporativas freqüentemente contêm tendências desconhecidas, relações entre objetos, como clientes e produtos, que são de importância estratégica para a organização.

Diferentes técnicas existem para analisar os dados dos clientes. Há técnicas convencionais, como OLAP,
ferramentas de consulta (query) e estatística, e novas técnicas como data mining. O valor de data mining pode ser melhor compreendido se comparado a técnicas convencionais. O data mining difere de técnicas estatísticas porque, ao invés de verificar padrões hipotéticos, utiliza os próprios dados para descobrir tais padrões.

Bases de dados armazenam conhecimento que podem nos auxiliar a melhorar nossos negócios. Técnicas tradicionais permitem a verificação de hipóteses. Aproximadamente 5% de todas as relações podem ser encontradas por este método. Data mining pode descobrir outras relações anteriormente desconhecidas: os 95% restantes. Em outras palavras, você pode dizer que técnicas convendionais "falam" à base de dados, enquanto data mining "ouve" a base de dados. Se você não fizer uma pergunta específica, nunca terá a resposta. Data mining explora as bases de dados através de dezenas de centenas de pontos de vista diferentes. Toda a informação escondida relacionada ao comportamento dos clientes será mapeada e enfatizada.

Data mining não substitui técnicas estatísticas tradicionais. Ao invés disto, data mining é uma extensão
dos métodos estatísticos, que são em parte o resultado de uma mudança maior na comunidade de estatística. O poder cada vez maior dos computadores com custos mais baixos, aliado à necessidade de análise de enormes conjuntos de dados com milhões de linhas, permitiu o desenvolvimento de técnicas baseadas na exploração de soluções possíveis pela força bruta.

O ponto chave é que data mining é a aplicação desta e de outras técnicas de IA e estatística de problemas relacionados a negócios, de forma a tornar estas técnicas disponíveis tanto a estatísticos como a usuários de mercado.

Muitas técnicas de datamining foram desenvolvidas no passado para extrair informações de dados. Ou seja, data mining é a combinação de diferentes técnicas de sucesso comprovado, como inteligência artificial, estatística e bancos de dados.

Em resumo, o uso de data mining para construção de um modelo traz as seguintes vantagens.

Modelos são de fácil compreensão: pessoas sem conhecimeno estatístico (por exemplo, analistas
financeiros ou pessoas que trabalham com database marketing) podem interpretar o modelo e compará-lo com suas próprias idéias. O usuário ganha mais conhecimento sobre o comportamento do cliente e pode usar esta informação para otimizar os processos dos negócios.

Grandes bases de dados podem ser analisadas: grandes conjuntos de dados, de até vários gigabytes de informação podem ser analisados com data mining. Por exemplo, para cada um dos seus clientes, você pode ter centenas de atributos que contêm informações detalhadas. Bases de dados podem ser muito extensas também: você pode querer mineirar uma base de dados contendo milhões de registros de clientes.

Data mining descobre informações que você não esperava: como muitos modelos diferentes são validados, alguns resultados inesperados podem surgir. Em diversos estudos, descobriu-se que combinações de fatores particulares tiveram resultados inesperados. Estes gérmens de conhecimento escondido (hidden nuggets) provaram ter valor competitivo para os negócios em questão.

Variáveis não necessitam de recodificação: data mining lida tanto com variáveis numéricas quanto categóricas. Estas variáveis aparecem no modelo exatamente da mesma forma em que aparecem na base de dados.

Modelos são precisos: os modelos obtidos por data mining são validados por técnicas de estatística. Desta forma, as predições feitas por estes modelos são precisas.

Modelos são construídos rapidamente: data mining permite gerar modelos atualizados em poucos minutos, ou poucas horas. A modelagem se torna mais fácil já que os modelos são testados, e apenas os melhores modelos são retornados aos usuários.

OLAP

O OLAP proporciona as condições de análise de dados on-line necessárias para responder às possíveis
torrentes de perguntas dos analistas, gerentes e executivos. OLAP é implementado em um modo de
cliente/servidor e oferece respostas rápidas as consultas, criando um microcubo na máquina cliente ou no servidor.

As ferramentas OLAP são as aplicações que os usuários finais têm acesso para extraírem os dados de suas bases e construir os relatórios capazes de responder a suas questões gerenciais. Elas surgiram juntamente com os sistemas de apoio a decisão para fazerem a consulta e análise dos dados contidos nos Data Warehouses e Data Marts. A funcionalidade de uma ferramenta OLAP é caracterizada pela análise multi-dimensional dinâmica dos dados, apoiando o usuário final nas suas atividades, tais como: Slice and Dice e Drill.

Vamos ver algumas características dessas ferramentas:

Consultas ad-hoc: segundo Inmon, são consultas com acesso casual único e tratamento dos dados segundo parâmetros nunca antes utilizados, geralmente executado de forma iterativa e heurística. Em outras palavras, a possibilidade do próprio usuário gerar consultas de acordo com suas necessidades de cruzar as informações de uma forma não vista e com métodos que o levem a descoberta daquilo que procura. Slice-and-Dice: é a técnica que permite analisar as informações de diferentes prismas limitados somente pela nossa imaginação. Utilizando esta tecnologia consegue-se ver a informação sobre ângulos que anteriormente inexistiam sem a confecção de um DW e a utilização de uma ferramenta OLAP.

Drill Down/Up: consiste em fazer uma exploração em diferentes níveis de detalhe das informações. Com o Drill Down você pode “subir ou descer” dentro do detalhamento do dado, como por exemplo analisar uma informação tanto diariamente quanto anualmente, partindo da mesma base de dados.

Geração de Queries: a geração de queryes no OLAP se dá de uma maneira simples, amigável e transparente para o usuário final, o qual precisa ter um conhecimento mínimo de informática para obter as informações que deseja.

Cada uma destas tecnologias e técnicas tem seu lugar e são complementares entre si, pois dão apoio a diferentes tipos de análises. É importante lembrar que as exigências do usuário devem ditar que tipo de Data Mart você está construindo. Como sempre, a tecnologia e técnicas devem estar bem fundamentadas para atenderem da melhor maneira possível essas exigências.

Os Data Warehouses/Data Marts, servem como fonte de dados para estas aplicações, assegurando a consistência, integração e precisão dos dados. Os sistemas transacionais não conseguem responder essas questões por isso, é necessária a criação de um ambiente de apoio de decisão robusto, sustentável e confiável.