VaultGemma: o novo modelo de IA com privacidade diferencial

A Google Research apresentou o VaultGemma, um modelo de linguagem com mil milhões de parâmetros, construído desde o início com privacidade diferencial (DP). Trata-se do modelo aberto mais avançado neste domínio, disponível no Hugging Face e no Kaggle.

VaultGemma: o novo modelo de IA com privacidade diferencial


Afinal, o que é a privacidade diferencial?

A privacidade diferencial é uma técnica matemática que adiciona ruído controlado durante o treino dos modelos, impedindo que memorizações individuais fiquem expostas. Isto garante que a IA não consegue revelar dados específicos dos utilizadores ou documentos usados no treino.

A Google estudou como equilibrar computação, tamanho de modelo, quantidade de dados e ruído para otimizar o treino. Ao contrário do treino tradicional, os modelos privados beneficiam de lotes muito maiores.

Segundo das revelações da Google, foi usado o método DP-SGD (Differentially Private Stochastic Gradient Descent) com avanços recentes que permitem eficiência e garantias de privacidade robustas.

VaultGemma: o novo modelo de IA com privacidade diferencial

O VaultGemma aproxima-se do desempenho de modelos não-privados lançados há cerca de cinco anos, como o GPT-2.

VaultGemma: o novo modelo de IA com privacidade diferencial

Este lançamento representa um marco no desenvolvimento de IA responsável e segura, mostrando que é possível treinar modelos poderosos com proteção de dados incorporada desde a base.

A Google espera que a comunidade aproveite o VaultGemma para acelerar a próxima geração de aplicações de IA com privacidade como princípio fundamental.