Meta lancia uno strumento di intelligenza artificiale open source

Meta lancia uno strumento di intelligenza artificiale open source

Meta lancia uno strumento di intelligenza artificiale open source

Meta rilascia uno strumento di intelligenza artificiale open source per la classificazione automatica dei documenti sensibili

Meta ha introdotto un nuovo strumento di intelligenza artificiale open source, la “Classificazione Automatica dei Documenti Sensibili”. Originariamente sviluppato per uso interno, questo sistema è progettato per individuare e classificare automaticamente le informazioni sensibili all’interno dei documenti, applicando etichette di sicurezza per proteggerli.

Lo strumento è in grado di gestire file di testo leggibile e offre regole di classificazione personalizzabili. Una volta etichettato, il documento può essere protetto da accessi non autorizzati o escluso dai sistemi di intelligenza artificiale basati sulla generazione aumentata del recupero (RAG).

L’integrazione con Apache Tika permette di estrarre il testo da vari documenti, tra cui Google Docs, Sheets e Slides. Inoltre, l’algoritmo Llama viene utilizzato per identificare i contenuti sensibili, mentre l’API di Google Drive applica le etichette di riservatezza ai file.

Perché è stato creato questo strumento
Per Meta, proteggere i dati sensibili rappresenta una sfida continua, complicata dalla grande quantità e varietà di informazioni gestite. “Prevenire la perdita di dati sensibili è una questione fondamentale per la sicurezza e la privacy”, ha spiegato Robin Franklin, Security Engineer di Meta, a Help Net Security.

Poiché l’azienda gestisce un’ampia gamma di file, i metodi tradizionali come le espressioni regolari non erano sufficienti. “Gli approcci convenzionali, come RegEx, non riuscivano a identificare i dati sensibili in modo adeguato”, ha affermato Franklin. Per questo motivo, Meta ha sviluppato una soluzione basata su Large Language Models (LLM), in grado di scalare e garantire un’accuratezza ottimale nella classificazione dei dati. Il sistema permette anche di tracciare la distribuzione dei dati all’interno dell’organizzazione, con la possibilità di generare file CSV e archiviare i risultati in un database SQL.

Questa maggiore precisione aiuta i team di sicurezza e privacy di Meta a individuare tempestivamente eventuali violazioni o furti di dati sensibili, riducendo l’onere manuale associato all’etichettatura.

Meta lancia uno strumento di intelligenza artificiale

Caratteristiche distintive dello strumento
Meta ha scelto di rilasciare questo strumento come open source per aiutare altre organizzazioni a prevenire la perdita di dati sensibili. Quando il progetto è stato avviato quasi tre anni fa, non esistevano molte risorse per sviluppare un sistema di classificazione personalizzato al di fuori delle piattaforme documentali più comuni. “Le informazioni che stiamo condividendo oggi avrebbero accelerato i nostri progressi, e speriamo che possano essere utili anche ad altri”, ha detto Franklin.

Il team di Meta ha puntato sulla flessibilità per gli sviluppatori, consentendo di personalizzare il sistema in base agli standard aziendali. Lo strumento offre un agente di classificazione multilivello, facilmente configurabile. Inoltre, l’infrastruttura è progettata per essere distribuita come container Docker, consentendo alle organizzazioni di adattarlo alle proprie necessità. È anche disponibile come pacchetto Python per una facile integrazione.

Progetti futuri e disponibilità
Al momento, l’architettura supporta l’integrazione con Llama-Stack e Google Drive. In futuro, Meta intende ampliare la compatibilità con altre piattaforme, come Ollama, e includere servizi SaaS per la condivisione dei documenti. Microsoft Office 365, che utilizza un sistema di etichette di riservatezza simile, potrebbe trarre vantaggio dall’approccio di classificazione automatica di Meta. Con il feedback della comunità open source, l’azienda prevede di aggiungere nuove funzionalità e supportare ulteriori piattaforme.


Translate »
error: Il contenuto è protetto!!