Inteligência Artificial para Negócios - Analytics e LGPD: alguns cuidados que precisam ser tomados - Fabiano Castello
12 Março, 2020
Privacidade e proteção de dados são assuntos que cada vez mais ocupam espaço na mÃdia. Muitas organizações, tanto do setor público como do setor privado, veem a vigência da Lei Geral de Proteção de Dados (LGPD) se aproximando, já em agosto de 2020, e não sabem exatamente o que fazer ou como se preparar. O que tenho visto recentemente é que apenas as empresas mais bem estruturadas (leia-se: empresas que tem uma área especÃfica que cuida de compliance) tem projetos de conformidade em andamento.
O atraso no processo de aderência à lei é um problema geral, mas é particularmente preocupante em modelos de negócio que utilizam alguma forma de analytics ou, mais especificamente, inteligência artificial. É apenas importante ressaltar que a LGPD não se aplica apenas a dados digitais: comentei sobre isso no mês passado e você pode conferir aqui.
Gostaria de comentar dois aspectos que estão relacionados a este problema. Na coluna deste mês vou comentar o aspecto que está relacionado à dados sensÃveis e no mês que vem o aspecto que está relacionado a decisões automatizadas.
Segundo a LGPD, são considerados dados sensÃveis os dados pessoais sobre origem racial ou étnica, convicção religiosa, opinião polÃtica, filiação a sindicato ou a organização de caráter religioso, filosófico ou polÃtico, dado referente à saúde ou à vida sexual, dado genético ou biométrico. Quando há dados sensÃveis diversas restrições aplicam-se, bem como no caso de um vazamento de dados, supostamente, o dano moral causado será maior, já que uma boa definição para dados pessoais sensÃveis são todas as informações que podem causar um constrangimento ao indivÃduo.
Vamos considerar como exemplo uma base de dados para treinar um modelo de inteligência artificial. Nesta base existem dados pessoais identificados, contemplando tanto o nome do indivÃduo como o nome do cônjuge e, portanto, a conformidade com a LGPD é totalmente aplicável.
Digamos que haja a possibilidade de que a informação sobre orientação sexual seja relevante no modelo, mas esta informação não existe na nossa base. É possÃvel criar um algoritmo simples para inferir a orientação sexual a partir do nome do indivÃduo e do nome do cônjuge, comparando se os nomes são masculinos ou femininos. Por exemplo, se o nome do indivÃduo é "João", e o nome do cônjuge é "José", podemos inferir que "João" é homoafetivo. Mas, se o nome do cônjuge é "Maria", podemos inferir que "João" é heterossexual. Claro que não é possÃvel com este modelo inferir sobre todos os casos, mas é uma tentativa válida para derivar, a partir da base original, uma informação que pode ser relevante para o processo de construção do modelo de inteligência artificial, ou seja, esta informação pode trazer mais precisão para o que estamos buscando na análise preditiva.
O ponto que tento fazer nesta coluna não é sobre a qualidade do algoritmo, mas sim sobre a mudança do risco do ponto de vista de privacidade de dados. Se antes tÃnhamos dados pessoais, com esta nova informação mudamos o status para dados pessoais sensÃveis. Parece que é um detalhe, mas do ponto de vista de privacidade de dados é uma mudança significativa.
Uma das formas de estar atento a esse tipo de situação é algo que está previsto na GDPR, legislação europeia, mas não na LGPD, a legislação brasileira: o conceito de "privacy by design". Numa tradução mais ampla, a expressão "by design" na lÃngua inglesa pode ser traduzida por "desde o começo". A ideia é que ter um profissional especificamente preocupado com a questão de privacidade - o tal do "DPO" - desde o inÃcio do projeto pode ajudar a identificar situações como a acima.
Na coluna do próximo mês comentarei sobre a questão das decisões automatizadas. Até lá!