Inteligência Artificial para Negócios - FCA2: auto analisador gratuito de arquivos CSV e XLS. Just like magic! - por Fabiano Castello

Artigo

12 Dezembro, 2019

Na coluna do mês passado (veja aqui) falei sobre data readiness num conceito bem amplo. A mensagem principal é que atualmente os dados são uma das principais vantagens competitivas das organizações e, sem eles, de nada adianta ter as melhores pessoas e a mais atualizada tecnologia.

Independentemente do tipo de aplicação que se esteja criando com dados, seja um algoritmo de inteligência artificial, ou um dashboard, uma das primeiras fases é a chamada análise exploratória. Muitas vezes é negligenciada quando cientistas de dados menos experientes, na ansiedade de chegar no resultado final, acham que esta fase é perda de tempo. Na verdade, é uma das fases mais importantes porque, pela famosa lei da informática, lixo que entra é lixo que sai.

Note que não estou falando de nenhum tipo de análise elaborada: é algo tão simples como totalizar campos numéricos, ver as principais categorias de campos tipo texto, identificar informações que estão duplicadas ou ausentes.

Durante anos fiquei com uma ideia na cabeça que nunca consegui fazer funcionar no [R], mas que este ano ficou funcional construída em Python. Essa ideia nasceu do fato de que eu levo muito a sério esta primeira análise exploratória básica, porque ao longo da minha vida profissional, como auditor, muitas vezes vi horas e horas de trabalho serem perdidas porque o consultor que recebeu os dados do cliente não os validou antes de começar a trabalhar nas análises.

Para resolver isso criei um software chamado FCA2, um analisador que faz todo um conjunto de análise de forma automática. Se isso parece uma propaganda para você, não desista! Na verdade, é um convite para você usar de forma gratuita e, principalmente, ajudar no desenvolvimento, porque todo o código está disponível para ser baixado por qualquer pessoa no github (o link está no final da coluna).

Em resumo, o FCA2 é um programa que roda em Python (em breve haverá uma versão executável rodando em Windows) e analisa arquivos tipo CSV ou XLS. Basta você colocar seus arquivos numa pasta de entrada, iniciar o programa e aguardar todos os resultados numa pasta de saída. 

O programa identifica todos os arquivos para análise e processa cada um de forma individual, identificando cada campo/coluna e o tipo (texto, numérico inteiro e numérico decimal).

Para os campos que são identificados como texto, conforme a figura abaixo, são apresentados o número de registros total, o número de ausentes (missing) e duplicados, bem como quantas categorias existem na coluna. A análise seguinte apresenta as categorias mais presentes, indicando frequência absoluta, frequência relativa e frequência relativa acumulada. Para cada campo do tipo texto!


Os campos numéricos têm análises semelhantes, com uma análise descritiva do campo, considerando soma, média, desvio, mínimo, máximo, amplitude, e quartis. Esta análise é feita dando uma atenção especial para campos zerados, porque estes casos são diferentes de campos que são ausentes.


Finalmente, para cada um dos campos numéricos são gerados gráficos (histogramas), como o exemplo abaixo.


Como vocês podem ver, não são análises de negócio, são análises secas dos dados. Mas que são geradas muito rapidamente (um arquivo com 1 milhão de linhas é analisado em menos de 3 minutos num notebook i7 com 8Gb de memória) e que fornecem um panorama excelente, e abrangente, sobre a base de dados que se irá trabalhar. Construí esta ferramenta porque sempre fiz estas análises manualmente. Incontáveis horas desperdiçadas em validação que geram pouco valor agregado, mas que, se negligenciadas, estragam todo o resultado do trabalho posterior.

Animado para usar a ferramenta? Está disponível em neste link (https://github.com/fabianocastello/fca2) e o objetivo de estar disponível para a comunidade é que todos que usam contribuam para fazer uma ferramenta cada vez melhor. 

A base de dados que usei como exemplo, bem como o exemplo completo dos resultados, você pode baixar neste link.

Quer compartilhar suas experiências, tem dúvidas ou comentários? Mande uma mensagem!

Aproveito para desejar a todos um Feliz Natal e um próspero Ano Novo.  Em janeiro estarei em férias, então nos vemos em fevereiro! Até lá! E que venha 2020!

* * *

O blog "Inteligência Artificial para Negócios" da Inova Business School é uma iniciativa de levar assuntos técnicos relacionados à novas tecnologias para a maioria das pessoas. Os assuntos em geral estão relacionados a big data, inteligência artificial, transformação digital, ciência de dados e DataViz. Você encontra mais informações, bem como o histórico de todas os posts, em fabianocastello.com. Para entrar em contato comigo use o email [email protected] ou acesse o qr-code abaixo.