Inteligência Artificial para Negócios - Data Readiness: o primeiro passo - por Fabiano Castello

Artigo

12 Novembro, 2019

Qualquer projeto de analytics, incluindo aí iniciativas relacionadas à inteligência artificial, depende principalmente de três fatores: tecnologia, pessoas e dados.

Em relação ao primeiro, podemos afirmar o cerne de propriedade intelectual necessária hoje é de domínio público (leia-se, por exemplo, Python e a principal biblioteca para projetos de deep learning, o tensorflow). Do ponto de vista de hardware, dá para fazer muita coisa em notebooks mais potentes. Precisa de maior poder de fogo? Uma GPU poderosa? Está ao alcance de suas mãos usando recursos de nuvem que, se não gratuitos como o Google CoLab, são bem acessíveis (ou, ao menos, você não vai precisar investir em hardware de milhares de Reais). 

Sobre pessoas, ainda muito se discute sobre a falta de cientistas de dados no mercado. Nos anos 90 faltavam pessoas que soubessem sentar na frente de um microcomputador e usar as versões primitivas do Excel, como SuperCalc II e Visicalc. E o mercado de trabalho se ajustou: pacote office agora não é diferencial, é assumido que você sabe utilizar. Meu ponto é simples: se hoje faltam recursos, o mercado se ajusta, as pessoas estudam e o gap de hoje não mais o será daqui a alguns anos.

Dadas as informações acima, muita atenção para este raciocínio¹: se a tecnologia é pública, o custo de operação inicial é mínimo e as pessoas sabem como operar esta tecnologia, o verdadeiro diferencial das organizações são seus dados, absolutamente necessários para treinar os modelos de inteligência artificial.

Ter os dados é absolutamente essencial. Existe um famoso vídeo "deekfake" do ex-presidente Obama fazendo um discurso que, à primeira vista, parece realmente ser Obama falando (veja no YouTube aqui). É assustador porque pode parecer que é possível gerar um vídeo "deepfake" de qualquer pessoa. Na verdade, Obama foi escolhido, além de sua notoriedade, porque existem milhares de discursos dele que são públicos e podem ser usados para treinar um modelo que fale como Obama. É nesse sentido que afirmo que os dados são essenciais: se você não tiver dados para treinar seu modelo, de nada adianta conhecer a tecnologia e ter as pessoas que sabem usá-la.


Se os dados são a real vantagem competitiva das organizações, temos que cuidar deles. E é aí que entra o conceito de Data Readiness.

Hoje não existe um consenso global sobre data readiness, seja como um processo, um framework ou uma metodologia. No entanto, existe de uma forma geral 3 grandes preocupações: se você tem dados suficientes, se você consegue acessar estes dados e, finalmente, se estes dados são íntegros.

Você tem dados suficientes?
Não existe uma regra definitiva sobre quantos dados você precisa para treinar um modelo em inteligência artificial, mas de uma forma geral quanto mais dados você tiver mais preciso será o seu modelo (ainda que haja discussão sobre a possibilidade de criar modelos interessantes do ponto de vista de negócio com poucos dados - eu mesmo tenho exemplos reais em People Analytics). 

Você consegue acessar seus dados?
As vezes as organizações têm os dados, mas não conseguem acessá-los e se beneficiar dos mesmos. Exemplos são dados que estão na forma de arquivos em PDF, ou dados que foram agregados (totalizados), e sua granularidade descartada.

Outro ponto importante é a própria burocracia das organizações: os dados existem, mas são de outra área, outro sistema, outro processo. E lá se vão meses de negociação interna! Ainda, a organização pode até ter acesso aos dados, mas não consegue entendê-los, porque não existem metadados ou dicionários. De que adianta uma base de dados que tem uma coluna chamada "Coluna 2" com alguns números que ninguém sabe o que significa?

Seus dados são íntegros?
Este talvez seja, de longe, o maior problema das organizações: o chamado "data quality". O famoso paradigma da computação "lixo para dentro, lixo para fora" se aplica totalmente em inteligência artificial. 

Qual a quantidade de dados que estão faltando, os famosos "missing values"? E qual a melhor estratégia para lidar com eles? Acredite se quiser, já vi em arquivo de plano de saúde ressarcimento de parto para beneficiário do sexo masculino. E coisas menos óbvias, como alta renda para adolescentes. Isto até pode acontecer, mas validações deste tipo são necessárias para avaliar dados do ponto de vista de sua qualidade.

Claro que a melhor maneira de lidar com estes problemas é não os ter, e a única forma de resolver isto, em geral, são consistências no início do processo de coleta de dados. Dados ruins jamais treinarão um modelo de forma satisfatória.

É isso aí! Acho que está suficiente para introduzir o assunto. Pretendo tratar desse assunto nas próximas colunas.
Quer compartilhar suas experiências, tem dúvidas ou comentários? Mande uma mensagem!

Abraços e até a próxima coluna.

¹ para ser honesto, este raciocínio não é meu, é do McKinsey Institute. Li há algum tempo num material deles, mas, infelizmente, não consegui achar em qual. Mas fica aqui registrado o devido crédito.
* * *

O blog "Inteligência Artificial para Negócios" da Inova Business School é uma iniciativa de levar assuntos técnicos relacionados à novas tecnologias para a maioria das pessoas. Os assuntos em geral estão relacionados a big data, inteligência artificial, transformação digital, ciência de dados e DataViz. Você encontra mais informações, bem como o histórico de todas os posts, em fabianocastello.com. Para entrar em contato comigo use o e-mail [email protected] ou acesse o qr-code abaixo.