Camoscio

🇮🇹🦙 Camoscio: un language model italiano addestrato a seguire le tue istruzioni

Contesto

L’intelligenza artificiale ha rivoluzionato l’interazione dell’uomo con la tecnologia, in particolare nell’elaborazione del linguaggio naturale, come dimostrato dal successo dei language modes quali ChatGPT, in grado di dare risposte convincenti alle richieste dell’utente, anche in italiano, ad esempio per generare testi creativi, risolvere problemi matematici, prevedere strutture proteiche o rispondere a domande di comprensione.

Questi modelli sono molto grandi, con miliardi di parametri, il che li rende poco fruibili dai ricercatori; inoltre, non sono accessibili poiché sotto controllo delle grandi corporazioni che li gestiscono. Ciò crea problemi di analisi, studio, efficienza, nonché di riduzione di noti problemi di bias e tossicità di questi modelli.

Recentemente la comunità ha fatto piccoli progressi nello sviluppo di modelli più accessibili, come LLaMA di Meta AI, un modello linguistico addestrato per predire la parola successiva in 20 lingue diverse. Un team di ricerca di Stanford ha poi sviluppato una versione di LLaMA (Stanford Alpaca) addestrata per seguire istruzioni in inglese, dimostrando che è possibile ottenere performance simili al modello di OpenAI GPT-3 (text-davinci-003) pur essendo 25 volte più piccolo.

Camoscio

In questo contesto, Andrea Santilli, dottorando del gruppo di ricerca GLADIA (Sapienza Università di Roma) guidato dal Prof. Emanuele Rodolà, ha realizzato e condiviso con la comunità Camoscio: un modello addestrato specificamente per comprendere e seguire istruzioni in lingua italiana. Partendo dal lavoro fatto con Stanford Alpaca, traducendo il dataset di instruction-tuning in italiano e utilizzandolo per addestrare il modello LLaMA. Il contributo è particolarmente rilevante in quanto:

  • mettiamo a disposizione il primo dataset Italiano per addestrare modelli a seguire istruzioni;
  • rendiamo pubblico il modello addestrato su tale dataset, completamente open source, e che dovrebbe offrire prestazioni qualitativamente simili a GPT-3;
  • pubblichiamo inoltre la repository per replicare tutti gli esperimenti;
  • il modello è piccolo e investigabile, può essere eseguito su un Raspberry Pi, e si presta ad essere studiato senza necessitare di enormi risorse di calcolo.

Pur con le dovute limitazioni, il modello è un primo passo verso lo sviluppo di modelli open ed accessibili alla comunità in grado di seguire istruzioni impartite in linguaggio naturale italiano.

Una demo interattiva (per utenti esperti) è disponibile nei link qui sotto tramite Google Colab.

✉️ Subscribe

Se sei interessato ad ulteriori aggiornamenti su questo progetto, puoi lasciare qui la tua email per essere aggiornato. Non ti preoccupare, non ti invieremo spam! Puoi eliminarti in qualsiasi momento contattandoci.

📝 Esempi di Output

Instruction: Scrivi una breve biografia su Dante Alighieri

Alpaca-LoRA: Dante Alighieri (1265-1321) was an Italian poet, philosopher, and political figure. He is best known for his epic poem, The Divine Comedy, which is widely considered to be one of the greatest works of literature ever written. Dante was born in Florence, Italy, and spent much of his life in exile. He wrote The Divine Comedy while in exile, and it tells the story of his journey through Hell, Purgatory, and Heaven. Dante is considered to be one of the founders of the Italian language, and

ChatGPT: Dante Alighieri è stato uno dei più grandi poeti italiani del Medioevo. Nato a Firenze nel 1265, ha studiato nella prestigiosa Scuola di Santa Croce e ha mostrato fin da giovane una grande passione per la poesia. Ha scritto la sua prima opera, “Il Convivio”, all’età di 30 anni, ma è soprattutto noto per la sua opera più famosa, “La Divina Commedia”. Questo poema epico, scritto in terzine, descrive il viaggio immaginario di Dante attraverso l’Inferno, il Purgatorio e il Paradiso, e rappresenta una sintesi della cultura medievale, della filosofia e della teologia. Dante ha anche avuto una vita politica attiva, partecipando alla vita pubblica di Firenze e sostenendo la fazione guelfa. Tuttavia, dopo essere stato esiliato dalla città nel 1302, ha trascorso il resto della sua vita in esilio, scrivendo le sue opere più importanti e cercando di rientr

Camoscio: Dante Alighieri (1265-1321) è considerato uno dei più grandi poeti e scrittori italiani di tutti i tempi. Nato a Firenze, è conosciuto principalmente per il suo poema epico La Divina Commedia, che è considerato uno dei capolavori della letteratura occidentale.


Instruction: Dimmi tutte le regioni italiane in ordine alfabetico.

Alpaca-LoRA: Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige, Umbria, Veneto.

ChatGPT: Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige/Südtirol, Umbria, Valle d’Aosta/Vallée d’Aoste, Veneto.

Camoscio: Le regioni italiane in ordine alfabetico sono: Abruzzo, Basilicata, Calabria, Campania, Emilia-Romagna, Friuli-Venezia Giulia, Lazio, Liguria, Lombardia, Marche, Molise, Piemonte, Puglia, Sardegna, Sicilia, Toscana, Trentino-Alto Adige, Umbria, Valle d’Aosta, Veneto.


Instruction: Dimmi di più sul presidente della repubblica Italiana del 2019.

Alpaca-LoRA: The President of the Republic of Italy in 2019 is Sergio Mattarella. He was elected in 2015 and re-elected in 2018. He is the 12th President of the Republic of Italy.

ChatGPT: Il presidente della Repubblica Italiana del 2019 era Sergio Mattarella. Nato a Palermo nel 1941, Mattarella è stato eletto presidente nel 2015, succedendo a Giorgio Napolitano. Prima di diventare presidente, ha ricoperto importanti incarichi politici, tra cui quello di ministro della Difesa, della Pubblica Istruzione e della Giustizia. Durante il suo mandato, Mattarella è stato impegnato nella promozione dell’unità nazionale e nella difesa della Costituzione italiana. Ha anche sostenuto l’integrazione europea e la cooperazione internazionale. Nel 2018, ha svolto un ruolo importante nella formazione del governo italiano, che ha visto la nomina di un governo di coalizione tra il Movimento 5 Stelle e la Lega. Mattarella è stato molto attivo nella difesa dei diritti umani e della giustizia sociale, promuovendo iniziative per combattere la povertà e la disuguaglianza.

Camoscio: Il presidente della Repubblica Italiana del 2019 è Sergio Mattarella, che è stato eletto il 31 gennaio 2015 e ha prestato giuramento il 31 gennaio 2015.


Instruction: Riassumi la storia di Pinocchio.

Alpaca-LoRA: Once upon a time, there was a wooden puppet named Pinocchio who dreamed of becoming a real boy. He was created by a woodcarver named Geppetto, who loved him very much. Pinocchio was a mischievous puppet who often got into trouble, but he always tried to do the right thing in the end. One day, Pinocchio met a fairy who offered him the chance to become a real boy if he proved himself to be brave, truthful, and unselfish. Pinocchio accepted the fairy’s offer and set off on a series of advent

ChatGPT: La storia di Pinocchio racconta di un burattino di legno, creato dal falegname Geppetto, che prende vita grazie alla fata turchina. Pinocchio ha un forte desiderio di diventare un bambino vero, ma cade in numerose avventure e inganni, spesso guidato dal suo istinto e dalla sua ingenuità. Nel corso della storia, Pinocchio viene ingannato da un gatto e una volpe, viene imprigionato e trasformato in un asino, ma alla fine dimostra il suo coraggio, la sua lealtà e la sua generosità salvando il padre e ottenendo la sua trasformazione in un bambino vero.

Camoscio: La storia di Pinocchio racconta di un bambino di nome Pinocchio che vive con i suoi genitori in un piccolo villaggio. Un giorno, Pinocchio incontra un burattino magico che gli dona la possibilità di diventare un vero bambino. Pinocchio inizia una serie di avventure mentre cerca di diventare un vero bambino. Durante il suo viaggio, Pinocchio fa amicizia con molti personaggi e impara molte lezioni di vita. Alla fine, Pinocchio raggiunge il suo obiettivo e diventa un vero bambino.


Instruction: Dimmi quattro parole che fanno rima con ‘gatto’.

Alpaca-LoRA: Cat, hat, mat, rat.

ChatGPT: Piatto, matto, spratto, grattò.

Camoscio: ‘Cattivo, cattivo, cattivo, cattivo.’


Andrea Santilli
Andrea Santilli
PhD Student

PhD Student passionate about natural language processing, representation learning and machine intelligence.