Votre
recherche

    17.04.2025

    Il Template della Commissione Europea sulla Trasparenza dei Dati di Addestramento: Prime Linee Guida per l’AI Act


    A partire dall’adozione dell’AI Act (Reg. UE 2024/1689), avvenuta il 1° agosto 2024, uno dei principali temi di confronto tra gli stakeholder del settore è stato l’obbligo previsto dall’art. 53.1, lett. d) e dal considerando 107, in particolare per quanto riguarda la trasparenza sui dati di addestramento dei modelli di intelligenza artificiale per finalità generali.

    Il regolamento richiede ai provider di questi modelli di rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei dati utilizzati per l’addestramento, ovvero di quel patrimonio informativo che viene impiegato per regolare e ottimizzare i parametri del modello stesso. Sin da subito, l’espressione “sufficiently detailed” ha generato un acceso dibattito: cosa significa, esattamente, “abbastanza dettagliato”? E soprattutto, quali criteri dovrebbero guidare i provider nella redazione di questa sintesi?

    Sarà proprio sull’elasticità o sulla rigidità dell’interpretazione del requisito del “sufficientemente dettagliato” che si giocherà una parte decisiva della futura battaglia legale tra i titolari di contenuti e le piattaforme di intelligenza artificiale. Da un lato, i creatori e i detentori di diritti rivendicano un accesso concreto e verificabile alle informazioni sui dati utilizzati, essenziale per far valere i propri diritti. Dall’altro, i provider spingeranno per un’applicazione più flessibile del requisito, che consenta di proteggere i propri asset strategici e di evitare di scoprire troppo le carte, anche per ragioni di concorrenza. La linea di demarcazione tra trasparenza effettiva e mera compliance formale sarà sottile, e a definirla saranno – inevitabilmente – le prime pronunce giudiziarie.

    La ratio dell’obbligo è chiara: consentire ai titolari di interessi legittimi di esercitare i propri diritti in modo più efficace. Il riferimento immediato è, naturalmente, ai titolari di diritti d’autore, per i quali la possibilità di accedere a informazioni sui dati utilizzati consente di verificare se e come i propri contenuti siano stati impiegati senza autorizzazione.

    Ma il perimetro degli interessi tutelati va ben oltre la sfera autoriale. In gioco ci sono anche la protezione dei dati personali, il diritto alla ricerca scientifica, e la necessità – sempre più pressante – di individuare e correggere eventuali bias, che possono riflettersi su una vasta gamma di ambiti, dalle piattaforme di servizi ai sistemi decisionali pubblici, fino ai prodotti commerciali basati su IA.

    Il considerando 107, nell’esplicitare le modalità di adempimento dell’obbligo di disclosure, sottolinea anche la necessità di trovare un equilibrio. Da una parte, la tutela di chi ha interesse a sapere quali dati siano stati usati. Dall’altra, la legittima esigenza dei provider di non esporre asset strategici, come segreti industriali, algoritmi o processi di raccolta ed elaborazione.

    Per cercare di offrire un primo orientamento applicativo, la Commissione Europea ha pubblicato nel gennaio 2025 un template destinato a guidare i provider nella redazione della sintesi richiesta. Il modello nasce da un ampio processo di consultazione, che ha coinvolto rappresentanti del settore IA e dei titolari di interessi legittimi già attivi nella stesura del Codice di Buone Pratiche sull’IA per finalità generali (CPAI).

    Questo template accompagna il provider lungo tutte le fasi del ciclo di vita del dato, dal pre-training al fine-tuning, e impone un linguaggio chiaro e comprensibile, pensato per essere accessibile anche a chi non ha competenze tecniche avanzate.

    Le sezioni previste sono tre:

    1. General Information
      Si raccolgono informazioni generali sul modello: chi lo ha sviluppato, quando è stato immesso sul mercato, qual è la knowledge cut-off date, ovvero la data dell’ultimo aggiornamento dei contenuti. Sono richiesti anche dettagli sulla dimensione complessiva dei dati e sulle loro caratteristiche (numero di immagini, minuti audio, lingue e provenienza geografica dei dati).
    2. List of Data Sources
      Qui viene richiesto un elenco delle fonti di dati utilizzate: dataset pubblici, dataset di terze parti, dati raccolti tramite web crawling (con indicazione degli strumenti utilizzati), dati forniti dagli utenti o autoprodotti dal provider.
      Un aspetto controverso riguarda il fatto che il template si concentra solo sui dataset “principali” o “grandi”, definiti come quelli che rappresentano più del 5% del totale. Questo potrebbe creare un effetto distorsivo, perché:
      • alcuni provider potrebbero suddividere dataset voluminosi in sottoinsiemi artificiosi per eludere l’obbligo;
      • i dataset visivi (immagini/video), per loro natura, sono più grandi di quelli testuali, rischiando così una discriminazione tecnica non giustificata.
    3. Relevant Data Processing Aspects
      In questa sezione si richiede di descrivere le misure adottate per la tutela dei diritti d’autore, come l’identificazione e rimozione di contenuti riservati, ma anche la gestione di contenuti inappropriati.
      Sono emerse tuttavia critiche: la sezione appare troppo focalizzata sulla protezione del copyright, e trascura aspetti cruciali come la descrizione delle fasi di pre-processing, in particolare i metodi di anonimizzazione o filtraggio dei dati.

    La pubblicazione definitiva del template e delle linee guida è attesa nel secondo trimestre del 2025, in vista della piena applicabilità degli obblighi, fissata per il 2 agosto 2025.

    Ciò che è certo è che questa normativa, e la sua attuazione concreta, avranno un impatto significativo sulle scelte dei provider di IA a livello globale. Alcuni Paesi potrebbero decidere di allinearsi al modello europeo, creando uno standard internazionale. Altri, al contrario, potrebbero preferire regolamenti più flessibili, per attrarre ricerca, investimenti e sviluppo nei rispettivi territori.

    Il vero banco di prova, tuttavia, arriverà solo con le prime controversie giudiziarie, che daranno forma concreta ai principi oggi scritti nel regolamento. Quelle decisioni segneranno la direzione futura della regolazione europea in materia di intelligenza artificiale.

    ALERTE DROIT SOCIAL - Période d’essai : l’employeur peut prévoir une période d’essai s’il n’a pas pu apprécier l’aptitude professionnelle du salarié lors de la précédente relation de travail
    La période d’essai est destinée à évaluer les compétences du salarié (C. trav. Art. L.1221-20). Au cours de cette période, le contrat de travail peut être rompu librement et sans motif (sauf abus). 📢 Dans…
    Lire la suite
    5 Minuten Handelsvertreterrecht für Entscheider: Folge #16 - Kündigt der Handelsvertreter, verliert er seinen Ausgleich. Oder nicht?
    Wenn der Handelsvertreter den Vertrag kündigt, verliert er seinen Ausgleichsansp…
    Lire la suite
    ADVANT Beiten berät CATL als German Legal Counsel bei Börsengang in Hongkong
    Berlin/München, 20. Mai 2025 – Die internationale Wirtschaftskanzlei ADVANT Beit…
    Lire la suite
    Justizstandort-Stärkungsgesetz
    Am 1. April 2025 tritt das Gesetz zur Stärkung des Justizstandortes Deutschland …
    Lire la suite
    Vom Schriftformerfordernis zur Textform bei Gewerberaummietverträgen: (K)eine „Erleichterung“ für Transaktionsparteien?!
    Durch das Inkrafttreten des Vierten Bürokratieentlastungsgesetzes (BEG IV) genüg…
    Lire la suite
    Ersatzanspruch des Errichters eines Gebäudes bei Errichtung auf einem fremden Grundstück und damit einhergehender grundlegender Veränderung des Grundstücks
    Die Bedeutung der Änderung der höchstrichterlichen Rechtsprechung zum Verwendung…
    Lire la suite
    Mitwirkungshandlungen des Auftraggebers im Bauvertrag
    Schon lange hadern die Bauwirtschaft und Teile der Lehre mit einer Besonderheit …
    Lire la suite
    Aggiustare la RIS o rifarla da zero
    Le regole per gli investitori al dettaglio? O cambiano in modo compatibile con l…
    Lire la suite
    Le cripto-attività classificate come quote di organismi di investimento collettivo
    A cura di Lorenzo Macchia per Fondi & Sicav Le cripto-attività, fin dall'inizio…
    Lire la suite