Big Data para Profissionais Non-Tech -Correlação e Causalidade. Coisas Diferentes que Causam Muita Confusão - por Fabiano Castello

Artigo

12 Abril, 2018

"Para ser mais inteligente basta comer mais chocolate". Um estudo publicado num importante jornal de medicina há alguns anos acabou se revelando um vexame acadêmico internacional, e o que está por trás do vexame é a diferença entre Correlação e Causalidade. Entenda porquê neste post e comece a ser mais crítico em relação às notícias que você vê todos os dias, principalmente nestes tempos de fake news. #Analytics


Correlação e Causalidade.

Coisas Diferentes que Causam Muita Confusão.


Em 2012 o jornal científico "The New England Journal of Medicine" publicou um estudo que foi base para notícia viral na internet: comer chocolate deixa você mais inteligente. A princípio, muitos veículos com credibilidade divulgaram a notícia, tanto no Brasil (Carta Capital, Terra) como no exterior (New York Times, Forbes). O artigo apresentou uma correlação entre países que consomem chocolate e a quantidade de prêmios Nobel que estes países já haviam obtido, sugerindo que comer chocolate melhora a função cognitiva.

O erro é que a correlação não implica necessariamente em causalidade, ou seja, não é possível dizer que a causa de ganhar mais prêmios Nobel é consumir mais chocolate. Quem se propõe a fazer análises de dados tem que ter esses conceitos muito bem claros. Muita gente utiliza-se deste erro para manipular a opinião das pessoas. É um jeito quase científico de mascarar fake news.

Correlação é uma medida matemática entre duas variáveis numéricas. Pode ser calculado. Você pode entender como duas variáveis se comportam quando variam. Dizemos que tem uma correlação direta quando "se uma sobe a outra também sobe", como por exemplo quando acompanhamos o crescimento de uma criança: quando maior a idade maior a altura. A correlação também pode ser chamada inversa quando "se uma variável sobe a outra cai". Note esta relação no dia a dia da economia: quando o dólar sobe em geral a bolsa cai, e o inverso também é verdadeiro. O mais importante aqui é conseguir enxergar que, apesar de duas coisas terem uma relação (ou correlação) uma não necessariamente é a causa da outra. Elas apenas guardam uma relação.

Já causalidade é diferente. Para estabelecer uma relação de causalidade é necessário um estudo específico. Por exemplo, é fato que existe uma correlação entre o aumento na temperatura dos oceanos e o aumento no número de furacões. Neste caso, no entanto, há um estudo que mostra que uma das condições que leva a formação de furacões é justamente o aumento da temperatura dos oceanos. Desta forma, existe uma correlação e, também, uma relação de causalidade. Um ultimo exemplo, talvez exagerado, mas válido para fins didáticos: todo mundo bebe água e tomo mundo morre. É uma correlação direta! Mas beber água não mata ninguém! Tem correlação mas não causalidade!

No cotidiano o que mais vemos são notícias que relatam uma correlação e que tentam sugerir uma relação de causalidade. Em São Paulo há o caso da alteração da velocidade nas marginais. Diversos veículos de comunicação, tanto digitais como impressos, divulgaram notícias como "Acidentes caem na marginal um ano após redução de velocidade" e "Após aumento da velocidade, marginais tem 60% mais acidades", o que faz os cidadãos entenderem que aumentar a velocidade causa mais acidentes e reduzir a velocidade causa menos acidentes. Ainda que exista uma correlação, não podemos afirmar que uma é causa da outra. O Jornal da USP publicou um artigo justamente dizendo que "Políticas de velocidade nas marginais carecem de dados", e que as soluções para o trânsito são realizadas com pouco embasamento. O ponto do artigo é que para determinar causa outras variáveis deveriam ser estudadas, minimamente qualidade da via e sinalização. 

Para quem quiser estudar mais sobre o assunto tem um vídeo ótimo da Khan Academy que exemplifica o que falamos através do estudo de um artigo que afirma que "Comer café da manhã pode combater a obesidade infantil". Tem 12 minutos, é 100% em português e de ótima qualidade.

Este é um ano importante para a democracia no Brasil, e fake news são um dos principais assuntos que preocupam se a nossa democracia poderá ser manipulada. Vai depender de nós e da nossa capacidade de discernimento. Fique atento se alguém está tentando você achar causa em algo que só tem correlação!

APROVEITANDO, já está no site o Master Big Data Analytics para Profissionais Non-Tech, Powered by Watson and Qlik, que acontecerá em São Paulo no mês de julho. Conheça o programa e inscreva-se! Nos vemos lá!