Iniziamo questa rubrica di Legal AI per parlare dei recenti sviluppi del legal tech nel Deep Learning (DL) applicato al linguaggio.
Per DL si intende una rete neurale composta da diversi layers, in grado di rappresentare teoricamente una qualsiasi funzione, capace di trasformare una informazione in Input verso un risultato, mediante un processo di apprendimento.
Per fare un esempio concreto applicato al legal tech, il modello può decodificare un testo in input (es.: un report, un verbale, una sentenza, ecc.) e ottenere un risultato in Output (es.: lo classifica, ne estrae kwd e proprietà, applica dei processi di ragionamento come prendere delle decisioni su disputation e così via). Nell'esempio che vedremo, la rete DL è usata per classificare sentenze in diversi domini legali.
Il DL applicato al linguaggio, nelle reti degli ultimi anni, è completamente non supervisionato, ovvero il modello apprende da solo (senza intervento umano di scelta o decisione) da documenti nei quali è stato esposto il problema da apprendere (detto in breve: il sistema di apprendimento si crea un modello inferenziale di trasformazione dall'input all'output, imparando dagli esempi esposti).
In particolare, oggi parliamo di una legal platform francese (Doctrine: www.doctrine.fr) che applica recenti modelli di DL per processare strutture testuali legate al mondo legale d’oltralpe: decisioni della corte, leggi, commenti da parte degli agenti legali, ecc. Il sistema applica strumenti di interpretazione semantica per poter riconoscere in automatico l'evoluzione di una decisione nelle diverse Corti francesi, nonostante spesso usino stili diversi (in particolare sulle scelte di come citare la parte Fatto o quella di Diritto) e diverso materiale informativo di dettaglio per specificare la discussione e la decisione. I modelli di classificazione scelti dal Team di Data Scientist di Doctrine sono una evoluzione del 2019-2020 del famoso modello sviluppato da Google nel 2018 Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding (vedi:https://arxiv.org/abs/1810.04805). In particolare, il gruppo di data Scientist di Doctrine ha scelto camemBERT, che è la versione francese del modello RoBERTa (un BERT più performante), realizzata da Facebook lab, Inria e altre strutture di ricerca di Parigi. camemBERT, il cui nome mette l'accento sul campanilismo d'oltralpe, è tra le migliori implementazioni europee mono-lingua di BERT, ossia è stato pre-trainato su quasi 100M di documenti, con risorse di calcolo molto costose (per fare un esempio: in Italia i modelli simili mono lingua, sono pre-trainati su un decimo della quantità di materiale informativo di camemBERT e con molti meno parametri). Osserviamo che la scelta di un modello monolingua impone subito delle restrizioni: per es.: Doctrine per ora non affronta il mercato europeo, ma si limita a quello francese.
A questo punto facciamo una precisazione importante su questi modelli, per capire come vengono usati nell’esempio proposto. L'apprendimento e la generazione di risultati in genere avvengono in tre fasi:
a) pre-training. Questa fase avviene una-tantum dai creatori del modello (molti sono già disponibili nelle lib Huggingface, che è il repository oggi di riferimento per questi task). Questo aspetto rappresenta la Conoscenza di base rispetto alle soluzioni da affrontare. Apprende da grandi Corpus (tipo tutto Wikipedia e altro). Da parte di Doctrine c'è stato soltanto un loading di questo modello acquisito dal gruppo di ricerca di camemBERT.
b) transfer-learning. Tutti qs processi per funzionare al meglio, necessitano di una fase ulteriore di apprendimento (almeno una) in cui gli viene innestata la conoscenza dedicata al task e ai contenuti usati nel task. Es.: News sportive, Info legali, Post di twitter, ecc. Questa fase invece è stata realizzata da Doctrine con una mole enorme di dati: 10 milioni di sentenze.
c) generation/prediction: la fase finale, sia di tipo generativo, ossia la generazione di un nuovo documento, sia interpretativo, come un riassunto, una lista di Question/Answering , o un semplice classificatore, come in questo caso.
Dopo le fasi di apprendimento, un primo utilizzo del modello è stato quello di classificare automaticamente le sentenze, partizionando diversi domini legali: Diritto civile, Diritto commerciale, Diritto delle persone e della famiglia, ecc. anche in modo granulare (divorzi, locazioni, successioni, ecc): 9 domini diversi e 40 sottodomini. Una difficoltà tecnologica affrontata dal gruppo è stata quella di adattare il modello per interpretare le lunghe parti di diritto delle Corti francesi. Poiché la classe di modelli usati non era adatta a operare su parti di documento più grandi di 1024 termini, Il gruppo francese ha dovuto creare una rete aggiuntiva per estendere la segmentazione del modello. probabilmente un effort di alcuni mesi/uomo di lavoro. Grazie a questo improvement, comunque, il nuovo modello ha potuto anche conseguire risultati su altre applicazioni.
Ad esempio, il riassunto automatico delle diverse parti della sentenza, in due versioni: pesata e non pesata (un'operazione che potrebbe somigliare a quella della generazione automatica di Massime).
Sebbene sia molto interessante il tipo di applicazione, e molto all'avanguardia, ci sono un po’ di dubbi sia sui risultati sia su come sono stati descritti gli esperimenti (molto approssimativamente). Lo score di qualità ottenuto (F1 = 0.85) sembra essere piuttosto basso rispetto all‘ effort di costruire una rete personalizzata in questo modo, inoltre il confronto con sistemi molto basic, anni ’90, come un classificatore bayesiano BagOfWord con una pesatura TFIDF, dà lo stesso risultato di Accuracy (molto strano). Inoltre, 0.85 è uno score più basso dei classificatori di BERT (anche nei casi di uso solo del pre-training) applicati a domini di altro tipo (come le News), che in media hanno uno score F1 del 0.90. Data la valanga di informazioni a disposizione da parte di Doctrine, un risultato migliore forse era possibile ottenerlo (sebbene sia difficile stimare i tipi di errore, senza nessuna indicazione, dato che la granularità dei sottodomini poteva creare problemi di intersezioni in comune: Per quanto riguarda il task del riassunto automatico, invece non ci sono risultati, ma dovrebbe essere più compliant a un approccio DL come quello adottato dal gruppo francese.
Cosa ti aspetteresti per l'italiano ?
Unisciti alle menti principali della tecnologia legale e ricevi mensilmente le ultime notizie e gli aggiornamenti su legge, tecnologia legale, intelligenza artificiale e molto altro.