Close Menu
Conectecnologia
    ConectecnologiaConectecnologia
    • Home
    • Decoração e Casa Inteligente
    • Aplicativos e Softwares
    • Tecnologia
    • Dicas de Seguro
    • Noticias de Tecnologia
    • Noticias de Games
    Conectecnologia
    Início » Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo
    Aplicativos e Softwares

    Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo

    Compartilhar
    Facebook Twitter Telegram WhatsApp

    Repositório CommonPool expõe dados pessoais brasileiros

    Uma investigação acadêmica revelou que o DataComp CommonPool, um dos maiores conjuntos de dados empregados para treinar sistemas de inteligência artificial, armazena documentos e imagens de brasileiros coletados sem autorização. O repositório, criado em 2023, reúne 12,8 bilhões de arquivos capturados automaticamente da internet entre 2014 e 2022. Esse material serve de base para modelos geradores de imagens, como Stable Diffusion e Midjourney.

    Os responsáveis pelo estudo analisaram amostras públicas do CommonPool e localizaram informações sensíveis, incluindo cópias de RG, CPF, CNH, passaportes digitalizados e fotos pessoais identificáveis. A presença desses itens indica que o processo de raspagem de conteúdo ocorreu sem filtros adequados, desrespeitando limites mínimos de privacidade.

    Desde o lançamento, o banco de dados já foi baixado mais de dois milhões de vezes. Dessa forma, múltiplos desenvolvedores ao redor do mundo podem estar treinando algoritmos com dados pessoais de cidadãos brasileiros, muitas vezes sem se dar conta da origem do material.

    Bilhões de imagens sem mecanismos de seleção

    O CommonPool foi criado como sucessor do LAION-5B, outro conjunto massivo extraído do projeto Common Crawl. A coleta se baseia em scripts que percorrem páginas públicas, salvando qualquer arquivo visual disponível. Não há verificação sobre a natureza do conteúdo, o que resulta na inclusão de documentos sigilosos, fotos familiares e registros corporativos privados.

    Embora o objetivo declarado seja apoiar a pesquisa em inteligência artificial, a falta de triagem transforma o repositório em um grande depósito de dados pessoais. Especialistas alertam que a prática conflita com legislações de proteção de dados e levanta dúvidas sobre o futuro uso dessas informações.

    Escala do vazamento e tipos de documentos encontrados

    A equipe liderada pela pesquisadora Rachel Hong, da Universidade de Washington, examinou uma fração do acervo e identificou mais de 800 currículos e cartas de apresentação vinculados a perfis reais em plataformas como LinkedIn. O número representa apenas uma amostra, sugerindo uma quantidade muito maior de registros expostos no arquivo completo.

    Entre os achados, constam também certificados de nascimento, cartões de crédito fotografados e históricos escolares. A variedade confirma que dados considerados “pessoais sensíveis” pela Lei Geral de Proteção de Dados (LGPD) brasileira foram copiados sem qualquer autorização prévia.

    Especialistas reforçam que esses documentos podem ser usados para treinar sistemas capazes de reconhecer, reproduzir ou até falsificar identidades visuais. O risco aumenta quando empresas comercializam soluções alimentadas por bancos de dados que contêm detalhes privados de indivíduos não consultados.

    Currículos expostos podem facilitar fraudes

    Os currículos encontrados trazem nomes completos, endereços, números de telefone e históricos profissionais. Combinados a imagens de documentos oficiais, esses dados oferecem material suficiente para a criação de perfis falsos ou golpes de engenharia social. A exposição afeta não só brasileiros, mas também cidadãos de outros países cujo material se encontra no CommonPool.

    Inteligência artificial utiliza dados pessoais de brasileiros sem consentimento, indica estudo - Imagem do artigo original

    Imagem: Felipe Alencar via hardware.com.br

    Falhas legais e riscos de uso comercial

    Apesar de se apresentar como iniciativa acadêmica, o DataComp CommonPool possui licença que não restringe a utilização comercial. Na prática, qualquer empresa pode baixar o repositório e empregá-lo no desenvolvimento de produtos pagos, sem compensar os titulares das informações coletadas. Essa brecha contraria princípios de consentimento, finalidade e transparência defendidos pela LGPD.

    No Brasil, projetos de pesquisa gozam de exceções previstas em lei. Contudo, especialistas afirmam que o uso mercadológico ultrapassa as permissões concedidas. A lacuna regulatória propicia cenário em que dados indevidamente capturados circulam livremente, alcançando laboratórios, startups e grandes corporações.

    Diferenças entre público e disponível

    A classificação de determinado conteúdo como “publicamente disponível” costuma ser mal interpretada. Muitas vezes, documentos arquivados em sites ou redes sociais não foram publicados com o intuito de servir a pesquisas de inteligência artificial. Ainda assim, a raspagem automatizada trata todos os arquivos da mesma forma, ignorando contexto e expectativa de privacidade.

    Questionamentos sobre a coleta automática de dados

    Diante dos resultados, os autores do estudo solicitam revisão urgente dos métodos de construção de conjuntos de treinamento para IA. O apelo inclui a criação de filtros técnicos robustos, auditorias independentes e políticas de consentimento explícito. Sem mudanças, a tendência é de crescimento no uso de dados pessoais sem respaldo legal.

    Para o usuário comum, o alerta indica que informações armazenadas on-line, mesmo em plataformas fechadas, podem ser copiadas por robôs de varredura e reutilizadas fora de contexto. A situação reforça a importância de práticas de segurança digital, como restringir a visibilidade de documentos e remover arquivos antigos da web sempre que possível.

    Enquanto legisladores avaliam ajustes na LGPD, pesquisadores defendem maior responsabilidade das instituições que mantêm bancos de dados de larga escala. A discussão envolve equilíbrio entre avanços na inteligência artificial e a proteção efetiva dos direitos dos indivíduos cujos dados se tornaram insumo involuntário para novos algoritmos.

    Compartilhar. Facebook Twitter Telegram WhatsApp

    Postagens relacionadas

    Supercomputador inspirado no cérebro promete revolucionar a descoberta de novos medicamentos

    30/07/2025

    Robô humanoide da REK entra em surto durante teste e derruba estrutura no laboratório

    28/07/2025

    Governo brasileiro repassa R$ 23 bilhões a big techs e põe soberania digital em risco, indica estudo

    28/07/2025

    Google impulsiona buscas em mais de 10% com recursos de IA e desafia rivais

    24/07/2025

    EUA vetam IA considerada “woke” em contratos federais e pressionam Google, OpenAI e xAI

    24/07/2025

    Resumo do dia: grandes destaques em tecnologia, hardware e games

    23/07/2025
    Nossas Escolhas

    Melhores aplicativos para assistir animes de graça: Crunchyroll, Tubi TV, RetroCrush e Mais!

    O que é Bluetooth Low Energy (BLE) e os benefícios dessa tecnologia de conexão

    Bluetooth: Entenda a Tecnologia e suas Versões

    Leia também

    Avatares BuddyPoke: a trajetória do fenômeno que marcou o Orkut

    BuddyPoke: relembre o sucesso dos avatares animados no Orkut Entre 2008 e 2014, o BuddyPoke…

    iPad encurta fronteira com laptops da Apple e se torna opção de baixo custo

    02/08/2025

    Por que ouvimos uma voz interna ao ler em silêncio? Entenda a subvocalização

    02/08/2025

    Guia 2025: Melhores Apps de Apostas para Futebol no Brasil

    02/08/2025
    Últimas avaliações
    Sobre
    Sobre

    O Conectecnologia é um blog dedicado a explorar o universo da tecnologia de forma acessível e informativa. Com conteúdo sobre inovações, gadgets, tendências digitais e análises, o site busca manter seus leitores atualizados sobre o que há de mais novo no mercado. Aqui, a tecnologia é descomplicada e voltada para quem quer estar sempre conectado ao futuro.

    Categoria
    • Home
    • Decoração e Casa Inteligente
    • Aplicativos e Softwares
    • Tecnologia
    • Dicas de Seguro
    • Noticias de Tecnologia
    • Noticias de Games
    Os Mais Populares

    Melhores aplicativos para assistir animes de graça: Crunchyroll, Tubi TV, RetroCrush e Mais!

    O que é Bluetooth Low Energy (BLE) e os benefícios dessa tecnologia de conexão

    Bluetooth: Entenda a Tecnologia e suas Versões

    conectecnologial©Copyright 2024. Todos os direitos reservados.

    Digite acima e pressione Enter para pesquisar. Pressione Esc para cancelar.

    Utilizamos cookies para garantir que você tenha a melhor experiência em nosso site. Se você continuar a usar este site, presumimos que você esteja satisfeito.