Repositório CommonPool expõe dados pessoais brasileiros
Uma investigação acadêmica revelou que o DataComp CommonPool, um dos maiores conjuntos de dados empregados para treinar sistemas de inteligência artificial, armazena documentos e imagens de brasileiros coletados sem autorização. O repositório, criado em 2023, reúne 12,8 bilhões de arquivos capturados automaticamente da internet entre 2014 e 2022. Esse material serve de base para modelos geradores de imagens, como Stable Diffusion e Midjourney.
Os responsáveis pelo estudo analisaram amostras públicas do CommonPool e localizaram informações sensíveis, incluindo cópias de RG, CPF, CNH, passaportes digitalizados e fotos pessoais identificáveis. A presença desses itens indica que o processo de raspagem de conteúdo ocorreu sem filtros adequados, desrespeitando limites mínimos de privacidade.
Desde o lançamento, o banco de dados já foi baixado mais de dois milhões de vezes. Dessa forma, múltiplos desenvolvedores ao redor do mundo podem estar treinando algoritmos com dados pessoais de cidadãos brasileiros, muitas vezes sem se dar conta da origem do material.
Bilhões de imagens sem mecanismos de seleção
O CommonPool foi criado como sucessor do LAION-5B, outro conjunto massivo extraído do projeto Common Crawl. A coleta se baseia em scripts que percorrem páginas públicas, salvando qualquer arquivo visual disponível. Não há verificação sobre a natureza do conteúdo, o que resulta na inclusão de documentos sigilosos, fotos familiares e registros corporativos privados.
Embora o objetivo declarado seja apoiar a pesquisa em inteligência artificial, a falta de triagem transforma o repositório em um grande depósito de dados pessoais. Especialistas alertam que a prática conflita com legislações de proteção de dados e levanta dúvidas sobre o futuro uso dessas informações.
Escala do vazamento e tipos de documentos encontrados
A equipe liderada pela pesquisadora Rachel Hong, da Universidade de Washington, examinou uma fração do acervo e identificou mais de 800 currículos e cartas de apresentação vinculados a perfis reais em plataformas como LinkedIn. O número representa apenas uma amostra, sugerindo uma quantidade muito maior de registros expostos no arquivo completo.
Entre os achados, constam também certificados de nascimento, cartões de crédito fotografados e históricos escolares. A variedade confirma que dados considerados “pessoais sensíveis” pela Lei Geral de Proteção de Dados (LGPD) brasileira foram copiados sem qualquer autorização prévia.
Especialistas reforçam que esses documentos podem ser usados para treinar sistemas capazes de reconhecer, reproduzir ou até falsificar identidades visuais. O risco aumenta quando empresas comercializam soluções alimentadas por bancos de dados que contêm detalhes privados de indivíduos não consultados.
Currículos expostos podem facilitar fraudes
Os currículos encontrados trazem nomes completos, endereços, números de telefone e históricos profissionais. Combinados a imagens de documentos oficiais, esses dados oferecem material suficiente para a criação de perfis falsos ou golpes de engenharia social. A exposição afeta não só brasileiros, mas também cidadãos de outros países cujo material se encontra no CommonPool.

Imagem: Felipe Alencar via hardware.com.br
Falhas legais e riscos de uso comercial
Apesar de se apresentar como iniciativa acadêmica, o DataComp CommonPool possui licença que não restringe a utilização comercial. Na prática, qualquer empresa pode baixar o repositório e empregá-lo no desenvolvimento de produtos pagos, sem compensar os titulares das informações coletadas. Essa brecha contraria princípios de consentimento, finalidade e transparência defendidos pela LGPD.
No Brasil, projetos de pesquisa gozam de exceções previstas em lei. Contudo, especialistas afirmam que o uso mercadológico ultrapassa as permissões concedidas. A lacuna regulatória propicia cenário em que dados indevidamente capturados circulam livremente, alcançando laboratórios, startups e grandes corporações.
Diferenças entre público e disponível
A classificação de determinado conteúdo como “publicamente disponível” costuma ser mal interpretada. Muitas vezes, documentos arquivados em sites ou redes sociais não foram publicados com o intuito de servir a pesquisas de inteligência artificial. Ainda assim, a raspagem automatizada trata todos os arquivos da mesma forma, ignorando contexto e expectativa de privacidade.
Questionamentos sobre a coleta automática de dados
Diante dos resultados, os autores do estudo solicitam revisão urgente dos métodos de construção de conjuntos de treinamento para IA. O apelo inclui a criação de filtros técnicos robustos, auditorias independentes e políticas de consentimento explícito. Sem mudanças, a tendência é de crescimento no uso de dados pessoais sem respaldo legal.
Para o usuário comum, o alerta indica que informações armazenadas on-line, mesmo em plataformas fechadas, podem ser copiadas por robôs de varredura e reutilizadas fora de contexto. A situação reforça a importância de práticas de segurança digital, como restringir a visibilidade de documentos e remover arquivos antigos da web sempre que possível.
Enquanto legisladores avaliam ajustes na LGPD, pesquisadores defendem maior responsabilidade das instituições que mantêm bancos de dados de larga escala. A discussão envolve equilíbrio entre avanços na inteligência artificial e a proteção efetiva dos direitos dos indivíduos cujos dados se tornaram insumo involuntário para novos algoritmos.