YOUR
Search

    17.04.2025

    Il Template della Commissione Europea sulla Trasparenza dei Dati di Addestramento: Prime Linee Guida per l’AI Act


    A partire dall’adozione dell’AI Act (Reg. UE 2024/1689), avvenuta il 1° agosto 2024, uno dei principali temi di confronto tra gli stakeholder del settore è stato l’obbligo previsto dall’art. 53.1, lett. d) e dal considerando 107, in particolare per quanto riguarda la trasparenza sui dati di addestramento dei modelli di intelligenza artificiale per finalità generali.

    Il regolamento richiede ai provider di questi modelli di rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei dati utilizzati per l’addestramento, ovvero di quel patrimonio informativo che viene impiegato per regolare e ottimizzare i parametri del modello stesso. Sin da subito, l’espressione “sufficiently detailed” ha generato un acceso dibattito: cosa significa, esattamente, “abbastanza dettagliato”? E soprattutto, quali criteri dovrebbero guidare i provider nella redazione di questa sintesi?

    Sarà proprio sull’elasticità o sulla rigidità dell’interpretazione del requisito del “sufficientemente dettagliato” che si giocherà una parte decisiva della futura battaglia legale tra i titolari di contenuti e le piattaforme di intelligenza artificiale. Da un lato, i creatori e i detentori di diritti rivendicano un accesso concreto e verificabile alle informazioni sui dati utilizzati, essenziale per far valere i propri diritti. Dall’altro, i provider spingeranno per un’applicazione più flessibile del requisito, che consenta di proteggere i propri asset strategici e di evitare di scoprire troppo le carte, anche per ragioni di concorrenza. La linea di demarcazione tra trasparenza effettiva e mera compliance formale sarà sottile, e a definirla saranno – inevitabilmente – le prime pronunce giudiziarie.

    La ratio dell’obbligo è chiara: consentire ai titolari di interessi legittimi di esercitare i propri diritti in modo più efficace. Il riferimento immediato è, naturalmente, ai titolari di diritti d’autore, per i quali la possibilità di accedere a informazioni sui dati utilizzati consente di verificare se e come i propri contenuti siano stati impiegati senza autorizzazione.

    Ma il perimetro degli interessi tutelati va ben oltre la sfera autoriale. In gioco ci sono anche la protezione dei dati personali, il diritto alla ricerca scientifica, e la necessità – sempre più pressante – di individuare e correggere eventuali bias, che possono riflettersi su una vasta gamma di ambiti, dalle piattaforme di servizi ai sistemi decisionali pubblici, fino ai prodotti commerciali basati su IA.

    Il considerando 107, nell’esplicitare le modalità di adempimento dell’obbligo di disclosure, sottolinea anche la necessità di trovare un equilibrio. Da una parte, la tutela di chi ha interesse a sapere quali dati siano stati usati. Dall’altra, la legittima esigenza dei provider di non esporre asset strategici, come segreti industriali, algoritmi o processi di raccolta ed elaborazione.

    Per cercare di offrire un primo orientamento applicativo, la Commissione Europea ha pubblicato nel gennaio 2025 un template destinato a guidare i provider nella redazione della sintesi richiesta. Il modello nasce da un ampio processo di consultazione, che ha coinvolto rappresentanti del settore IA e dei titolari di interessi legittimi già attivi nella stesura del Codice di Buone Pratiche sull’IA per finalità generali (CPAI).

    Questo template accompagna il provider lungo tutte le fasi del ciclo di vita del dato, dal pre-training al fine-tuning, e impone un linguaggio chiaro e comprensibile, pensato per essere accessibile anche a chi non ha competenze tecniche avanzate.

    Le sezioni previste sono tre:

    1. General Information
      Si raccolgono informazioni generali sul modello: chi lo ha sviluppato, quando è stato immesso sul mercato, qual è la knowledge cut-off date, ovvero la data dell’ultimo aggiornamento dei contenuti. Sono richiesti anche dettagli sulla dimensione complessiva dei dati e sulle loro caratteristiche (numero di immagini, minuti audio, lingue e provenienza geografica dei dati).
    2. List of Data Sources
      Qui viene richiesto un elenco delle fonti di dati utilizzate: dataset pubblici, dataset di terze parti, dati raccolti tramite web crawling (con indicazione degli strumenti utilizzati), dati forniti dagli utenti o autoprodotti dal provider.
      Un aspetto controverso riguarda il fatto che il template si concentra solo sui dataset “principali” o “grandi”, definiti come quelli che rappresentano più del 5% del totale. Questo potrebbe creare un effetto distorsivo, perché:
      • alcuni provider potrebbero suddividere dataset voluminosi in sottoinsiemi artificiosi per eludere l’obbligo;
      • i dataset visivi (immagini/video), per loro natura, sono più grandi di quelli testuali, rischiando così una discriminazione tecnica non giustificata.
    3. Relevant Data Processing Aspects
      In questa sezione si richiede di descrivere le misure adottate per la tutela dei diritti d’autore, come l’identificazione e rimozione di contenuti riservati, ma anche la gestione di contenuti inappropriati.
      Sono emerse tuttavia critiche: la sezione appare troppo focalizzata sulla protezione del copyright, e trascura aspetti cruciali come la descrizione delle fasi di pre-processing, in particolare i metodi di anonimizzazione o filtraggio dei dati.

    La pubblicazione definitiva del template e delle linee guida è attesa nel secondo trimestre del 2025, in vista della piena applicabilità degli obblighi, fissata per il 2 agosto 2025.

    Ciò che è certo è che questa normativa, e la sua attuazione concreta, avranno un impatto significativo sulle scelte dei provider di IA a livello globale. Alcuni Paesi potrebbero decidere di allinearsi al modello europeo, creando uno standard internazionale. Altri, al contrario, potrebbero preferire regolamenti più flessibili, per attrarre ricerca, investimenti e sviluppo nei rispettivi territori.

    Il vero banco di prova, tuttavia, arriverà solo con le prime controversie giudiziarie, che daranno forma concreta ai principi oggi scritti nel regolamento. Quelle decisioni segneranno la direzione futura della regolazione europea in materia di intelligenza artificiale.

    12. GWB-Novelle: Reformierung der Fusionskontrolle und des Kartellverfahrens
    Das BMWE hat am 4.6.2026 den Referentenentwurf der 12. GWB-Novelle…
    Read more
    China Desk | National People's Congress - 2026 Legislative Work Plan
    Last year, following the release of the Standing Committee of the National…
    Read more
    Contenuti generati dall'IA: la Commissione europea pubblica il Codice di condotta per l'etichettatura
    Il contesto: trasparenza come pilastro dell'AI Act La Commissione europea ha…
    Read more
    Bei Erbstreitigkeiten im Rahmen der Auseinandersetzung von Erbengemeinschaften ist guter Rat teuer - aber nach dem BFH als Nachlassverbindlichkeit bei der Erbschaftsteuer abziehbar
    Mit seinem Urteil vom 11. März 2026, II R 10/23 stellte der BFH nun klar, dass…
    Read more
    La nostra proposta di riforma dell’articolo 193 per garantire semplificazione e trasparenza alla finanza di progetto
    La nostra proposta di riforma dell’articolo 193 per garantire semplificazione e…
    Read more
    Erleichterungen bei der Ad-hoc Publizität: Änderungen der MAR seit 5. Juni 2026
    Die Änderungen der Marktmissbrauchsverordnung (MAR) bringen Erleichterungen bei…
    Read more
    Focus Lavoro - Giugno 2026
    Torna l'appuntamento con “Focus Lavoro”, la Newsletter dedicata agli…
    Read more
    Crypto e sanzioni Ue
    Articolo a cura della nostra Irene Gusso per Bluerating. Sono passati più di…
    Read more
    Die EU-Entgelttransparenzrichtlinie
    Die EU-Entgelttransparenzrichtlinie bringt neue Anforderungen für Unternehmen…
    Read more