Votre
recherche

    17.04.2025

    Il Template della Commissione Europea sulla Trasparenza dei Dati di Addestramento: Prime Linee Guida per l’AI Act


    A partire dall’adozione dell’AI Act (Reg. UE 2024/1689), avvenuta il 1° agosto 2024, uno dei principali temi di confronto tra gli stakeholder del settore è stato l’obbligo previsto dall’art. 53.1, lett. d) e dal considerando 107, in particolare per quanto riguarda la trasparenza sui dati di addestramento dei modelli di intelligenza artificiale per finalità generali.

    Il regolamento richiede ai provider di questi modelli di rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei dati utilizzati per l’addestramento, ovvero di quel patrimonio informativo che viene impiegato per regolare e ottimizzare i parametri del modello stesso. Sin da subito, l’espressione “sufficiently detailed” ha generato un acceso dibattito: cosa significa, esattamente, “abbastanza dettagliato”? E soprattutto, quali criteri dovrebbero guidare i provider nella redazione di questa sintesi?

    Sarà proprio sull’elasticità o sulla rigidità dell’interpretazione del requisito del “sufficientemente dettagliato” che si giocherà una parte decisiva della futura battaglia legale tra i titolari di contenuti e le piattaforme di intelligenza artificiale. Da un lato, i creatori e i detentori di diritti rivendicano un accesso concreto e verificabile alle informazioni sui dati utilizzati, essenziale per far valere i propri diritti. Dall’altro, i provider spingeranno per un’applicazione più flessibile del requisito, che consenta di proteggere i propri asset strategici e di evitare di scoprire troppo le carte, anche per ragioni di concorrenza. La linea di demarcazione tra trasparenza effettiva e mera compliance formale sarà sottile, e a definirla saranno – inevitabilmente – le prime pronunce giudiziarie.

    La ratio dell’obbligo è chiara: consentire ai titolari di interessi legittimi di esercitare i propri diritti in modo più efficace. Il riferimento immediato è, naturalmente, ai titolari di diritti d’autore, per i quali la possibilità di accedere a informazioni sui dati utilizzati consente di verificare se e come i propri contenuti siano stati impiegati senza autorizzazione.

    Ma il perimetro degli interessi tutelati va ben oltre la sfera autoriale. In gioco ci sono anche la protezione dei dati personali, il diritto alla ricerca scientifica, e la necessità – sempre più pressante – di individuare e correggere eventuali bias, che possono riflettersi su una vasta gamma di ambiti, dalle piattaforme di servizi ai sistemi decisionali pubblici, fino ai prodotti commerciali basati su IA.

    Il considerando 107, nell’esplicitare le modalità di adempimento dell’obbligo di disclosure, sottolinea anche la necessità di trovare un equilibrio. Da una parte, la tutela di chi ha interesse a sapere quali dati siano stati usati. Dall’altra, la legittima esigenza dei provider di non esporre asset strategici, come segreti industriali, algoritmi o processi di raccolta ed elaborazione.

    Per cercare di offrire un primo orientamento applicativo, la Commissione Europea ha pubblicato nel gennaio 2025 un template destinato a guidare i provider nella redazione della sintesi richiesta. Il modello nasce da un ampio processo di consultazione, che ha coinvolto rappresentanti del settore IA e dei titolari di interessi legittimi già attivi nella stesura del Codice di Buone Pratiche sull’IA per finalità generali (CPAI).

    Questo template accompagna il provider lungo tutte le fasi del ciclo di vita del dato, dal pre-training al fine-tuning, e impone un linguaggio chiaro e comprensibile, pensato per essere accessibile anche a chi non ha competenze tecniche avanzate.

    Le sezioni previste sono tre:

    1. General Information
      Si raccolgono informazioni generali sul modello: chi lo ha sviluppato, quando è stato immesso sul mercato, qual è la knowledge cut-off date, ovvero la data dell’ultimo aggiornamento dei contenuti. Sono richiesti anche dettagli sulla dimensione complessiva dei dati e sulle loro caratteristiche (numero di immagini, minuti audio, lingue e provenienza geografica dei dati).
    2. List of Data Sources
      Qui viene richiesto un elenco delle fonti di dati utilizzate: dataset pubblici, dataset di terze parti, dati raccolti tramite web crawling (con indicazione degli strumenti utilizzati), dati forniti dagli utenti o autoprodotti dal provider.
      Un aspetto controverso riguarda il fatto che il template si concentra solo sui dataset “principali” o “grandi”, definiti come quelli che rappresentano più del 5% del totale. Questo potrebbe creare un effetto distorsivo, perché:
      • alcuni provider potrebbero suddividere dataset voluminosi in sottoinsiemi artificiosi per eludere l’obbligo;
      • i dataset visivi (immagini/video), per loro natura, sono più grandi di quelli testuali, rischiando così una discriminazione tecnica non giustificata.
    3. Relevant Data Processing Aspects
      In questa sezione si richiede di descrivere le misure adottate per la tutela dei diritti d’autore, come l’identificazione e rimozione di contenuti riservati, ma anche la gestione di contenuti inappropriati.
      Sono emerse tuttavia critiche: la sezione appare troppo focalizzata sulla protezione del copyright, e trascura aspetti cruciali come la descrizione delle fasi di pre-processing, in particolare i metodi di anonimizzazione o filtraggio dei dati.

    La pubblicazione definitiva del template e delle linee guida è attesa nel secondo trimestre del 2025, in vista della piena applicabilità degli obblighi, fissata per il 2 agosto 2025.

    Ciò che è certo è che questa normativa, e la sua attuazione concreta, avranno un impatto significativo sulle scelte dei provider di IA a livello globale. Alcuni Paesi potrebbero decidere di allinearsi al modello europeo, creando uno standard internazionale. Altri, al contrario, potrebbero preferire regolamenti più flessibili, per attrarre ricerca, investimenti e sviluppo nei rispettivi territori.

    Il vero banco di prova, tuttavia, arriverà solo con le prime controversie giudiziarie, che daranno forma concreta ai principi oggi scritti nel regolamento. Quelle decisioni segneranno la direzione futura della regolazione europea in materia di intelligenza artificiale.

    immobilier
    Newsletter immobilier - Mars 2026
    Nouvelle édition de la newsletter Immobilier !
    Lire la suite
    Steuerhinterziehung: BGH ändert Rechtsprechung zur Umsatzsteuervoranmeldung
    Mit Beschluss vom 10. Dezember 2025 (Az. 1 StR 387/25) änderte der BGH seine bis…
    Lire la suite
    Il rimborso ETS ai produttori termoelettrici nel DL Bollette: un'analisi critica della compatibilità con la normativa europea
    A distanza di diversi mesi dalla divulgazione della prima bozza (originariamente…
    Lire la suite
    CORPORATE
    ADVANT Altana conseille Eureden dans le cadre d’une alliance strategique avec le groupe Greenyard
    ADVANT Altana a conseillé Eureden, troisième coopérative agroalimentaire pluridi…
    Lire la suite
    Derivati: la Cassazione ci ripensa e attenua gli scenari probabilistici
    Il commento di Francesco Mocci su Plus24 - Il Sole 24 Ore. A distanza di pochi …
    Lire la suite
    Decreto Bollette ed impatti sul mercato energetico: l'intervento sui Conti Energia
    A distanza di diversi mesi dalla divulgazione della prima bozza (originariamente…
    Lire la suite
    Eine gefährliche Mischung: Die Probezeit und die Befristung
    Die ersten – in der Regel – sechs Monate eines Arbeitsverhältnisses dienen der E…
    Lire la suite
    Newsletter droit social - Février 2026
    Au sommaire de la newsletter ce mois-ci : A la Une - Un rapport parlementaire f…
    Lire la suite
    La giurisprudenza di merito rompe un equilibrio consolidato. La Corte d'Appello di Roma rivede i criteri di validità
    Articolo a cura di Benedetta Musco Carbonaro per Private Torniamo ad occuparci …
    Lire la suite