Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo

Repositório CommonPool expõe dados pessoais brasileiros

Uma investigação acadêmica revelou que o DataComp CommonPool, um dos maiores conjuntos de dados empregados para treinar sistemas de inteligência artificial, armazena documentos e imagens de brasileiros coletados sem autorização. O repositório, criado em 2023, reúne 12,8 bilhões de arquivos capturados automaticamente da internet entre 2014 e 2022. Esse material serve de base para modelos geradores de imagens, como Stable Diffusion e Midjourney.

Os responsáveis pelo estudo analisaram amostras públicas do CommonPool e localizaram informações sensíveis, incluindo cópias de RG, CPF, CNH, passaportes digitalizados e fotos pessoais identificáveis. A presença desses itens indica que o processo de raspagem de conteúdo ocorreu sem filtros adequados, desrespeitando limites mínimos de privacidade.

Desde o lançamento, o banco de dados já foi baixado mais de dois milhões de vezes. Dessa forma, múltiplos desenvolvedores ao redor do mundo podem estar treinando algoritmos com dados pessoais de cidadãos brasileiros, muitas vezes sem se dar conta da origem do material.

Bilhões de imagens sem mecanismos de seleção

O CommonPool foi criado como sucessor do LAION-5B, outro conjunto massivo extraído do projeto Common Crawl. A coleta se baseia em scripts que percorrem páginas públicas, salvando qualquer arquivo visual disponível. Não há verificação sobre a natureza do conteúdo, o que resulta na inclusão de documentos sigilosos, fotos familiares e registros corporativos privados.

Embora o objetivo declarado seja apoiar a pesquisa em inteligência artificial, a falta de triagem transforma o repositório em um grande depósito de dados pessoais. Especialistas alertam que a prática conflita com legislações de proteção de dados e levanta dúvidas sobre o futuro uso dessas informações.

Escala do vazamento e tipos de documentos encontrados

A equipe liderada pela pesquisadora Rachel Hong, da Universidade de Washington, examinou uma fração do acervo e identificou mais de 800 currículos e cartas de apresentação vinculados a perfis reais em plataformas como LinkedIn. O número representa apenas uma amostra, sugerindo uma quantidade muito maior de registros expostos no arquivo completo.

Entre os achados, constam também certificados de nascimento, cartões de crédito fotografados e históricos escolares. A variedade confirma que dados considerados “pessoais sensíveis” pela Lei Geral de Proteção de Dados (LGPD) brasileira foram copiados sem qualquer autorização prévia.

Especialistas reforçam que esses documentos podem ser usados para treinar sistemas capazes de reconhecer, reproduzir ou até falsificar identidades visuais. O risco aumenta quando empresas comercializam soluções alimentadas por bancos de dados que contêm detalhes privados de indivíduos não consultados.

Currículos expostos podem facilitar fraudes

Os currículos encontrados trazem nomes completos, endereços, números de telefone e históricos profissionais. Combinados a imagens de documentos oficiais, esses dados oferecem material suficiente para a criação de perfis falsos ou golpes de engenharia social. A exposição afeta não só brasileiros, mas também cidadãos de outros países cujo material se encontra no CommonPool.

Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo - Imagem do artigo original

Imagem: Felipe Alencar via hardware.com.br

Falhas legais e riscos de uso comercial

Apesar de se apresentar como iniciativa acadêmica, o DataComp CommonPool possui licença que não restringe a utilização comercial. Na prática, qualquer empresa pode baixar o repositório e empregá-lo no desenvolvimento de produtos pagos, sem compensar os titulares das informações coletadas. Essa brecha contraria princípios de consentimento, finalidade e transparência defendidos pela LGPD.

No Brasil, projetos de pesquisa gozam de exceções previstas em lei. Contudo, especialistas afirmam que o uso mercadológico ultrapassa as permissões concedidas. A lacuna regulatória propicia cenário em que dados indevidamente capturados circulam livremente, alcançando laboratórios, startups e grandes corporações.

Diferenças entre público e disponível

A classificação de determinado conteúdo como “publicamente disponível” costuma ser mal interpretada. Muitas vezes, documentos arquivados em sites ou redes sociais não foram publicados com o intuito de servir a pesquisas de inteligência artificial. Ainda assim, a raspagem automatizada trata todos os arquivos da mesma forma, ignorando contexto e expectativa de privacidade.

Questionamentos sobre a coleta automática de dados

Diante dos resultados, os autores do estudo solicitam revisão urgente dos métodos de construção de conjuntos de treinamento para IA. O apelo inclui a criação de filtros técnicos robustos, auditorias independentes e políticas de consentimento explícito. Sem mudanças, a tendência é de crescimento no uso de dados pessoais sem respaldo legal.

Para o usuário comum, o alerta indica que informações armazenadas on-line, mesmo em plataformas fechadas, podem ser copiadas por robôs de varredura e reutilizadas fora de contexto. A situação reforça a importância de práticas de segurança digital, como restringir a visibilidade de documentos e remover arquivos antigos da web sempre que possível.

Enquanto legisladores avaliam ajustes na LGPD, pesquisadores defendem maior responsabilidade das instituições que mantêm bancos de dados de larga escala. A discussão envolve equilíbrio entre avanços na inteligência artificial e a proteção efetiva dos direitos dos indivíduos cujos dados se tornaram insumo involuntário para novos algoritmos.

Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo

Supercomputador inspirado no cérebro promete revolucionar a descoberta de novos medicamentos

Robô humanoide da REK entra em surto durante teste e derruba estrutura no laboratório

Governo brasileiro repassa R$ 23 bilhões a big techs e põe soberania digital em risco, indica estudo

Google impulsiona buscas em mais de 10% com recursos de IA e desafia rivais

EUA vetam IA considerada “woke” em contratos federais e pressionam Google, OpenAI e xAI

Resumo do dia: grandes destaques em tecnologia, hardware e games

Alien: Earth: entenda as diferenças entre ciborgues, sintéticos e híbridos na nova série de Noah Hawley

Melhores aplicativos para assistir animes de graça: Crunchyroll, Tubi TV, RetroCrush e Mais!

O que é Bluetooth Low Energy (BLE) e os benefícios dessa tecnologia de conexão

Planilha precificação: como definir preços que geram lucro real

Como ganhar dinheiro com site de reviews: transforme opiniões em renda extra garantida

Como escolher o melhor micro-ondas: economia de R$ 300 garantida

Algodão brasileiro adota drones, blockchain e QR Code para garantir sustentabilidade e rastreabilidade

Os Mais Populares

Alien: Earth: entenda as diferenças entre ciborgues, sintéticos e híbridos na nova série de Noah Hawley

Melhores aplicativos para assistir animes de graça: Crunchyroll, Tubi TV, RetroCrush e Mais!

O que é Bluetooth Low Energy (BLE) e os benefícios dessa tecnologia de conexão

Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo

Repositório CommonPool expõe dados pessoais brasileiros

Bilhões de imagens sem mecanismos de seleção

Escala do vazamento e tipos de documentos encontrados

Currículos expostos podem facilitar fraudes

Falhas legais e riscos de uso comercial

Diferenças entre público e disponível

Questionamentos sobre a coleta automática de dados

Postagens relacionadas