Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale (NLP, da natural language processing) è una sottobranca di linguistica, informatica e intelligenza artificiale che tratta l'interazione tra i computer e il linguaggio umano, in particolare sul come programmare i computer per elaborare e analizzare grandi quantità di dati di linguaggio naturale. Lo scopo è rendere la tecnologia in grado di "comprendere" il contenuto dei documenti e le loro sfumature contestuali, in modo tale che possa quindi estrarre con precisione informazioni e idee contenute nei documenti, nonché classificare e categorizzare i documenti stessi.

Le sfide dell'elaborazione del linguaggio coinvolgono spesso il riconoscimento vocale, comprensione del linguaggio naturale e la generazione del linguaggio naturale.

Descrizione

Questo processo è reso particolarmente difficile e complesso a causa delle caratteristiche intrinseche di ambiguità del linguaggio umano. Per questo motivo il processo di elaborazione viene suddiviso in fasi diverse, tuttavia simili a quelle che si possono incontrare nel processo di elaborazione di un linguaggio di programmazione:

analisi lessicale: scomposizione di un'espressione linguistica in token (in questo caso le parole)
analisi grammaticale: associazione delle parti del discorso a ciascuna parola nel testo
analisi sintattica: arrangiamento dei token in una struttura sintattica (ad albero: parse tree)
analisi semantica: assegnazione di un significato (semantica) alla struttura sintattica e, di conseguenza, all'espressione linguistica

Nell'analisi semantica la procedura automatica che attribuisce all'espressione linguistica un significato tra i diversi possibili è detta disambiguazione.

Problemi

In teoria, l'elaborazione del linguaggio naturale è un metodo di interazione uomo-macchina. I primi sistemi sviluppati, quali SHRDLU, che lavoravano in "mondi a blocchi" con vocabolari ristretti, ottenevano ottimi risultati. Ciò portò i ricercatori a un eccessivo ottimismo, che scemò non appena i sistemi furono estesi a situazioni più realistiche con problemi reali di ambiguità e complessità.

La comprensione del linguaggio naturale è spesso considerata un problema IA-completo, poiché si pensa che il riconoscimento del linguaggio richieda una conoscenza estesa del mondo e una grande capacità di manipolarlo. Per questa ragione, la definizione di "comprensione" è uno dei maggiori problemi dell'elaborazione del linguaggio naturale.^[1]

Tendenze generali e (possibili) direzioni future

I legami con la linguistica cognitiva fanno parte dell'eredità storica della PNL, ma sono stati affrontati meno frequentemente a partire dalla svolta statistica degli anni Novanta. Tuttavia, gli approcci allo sviluppo di modelli cognitivi per creare quadri tecnicamente operazionalizzabili sono stati applicati nel contesto di vari quadri, come la grammatica cognitiva,^[2] la grammatica funzionale,^[3] la grammatica costruttiva, la psicolinguistica computazionale e le neuroscienze cognitive (ad esempio, ACT-R). Allo stesso modo, le idee della PNL cognitiva sono insite nei modelli neurali della PNL multimodale (anche se raramente esplicitate)^[4] e negli sviluppi dell'intelligenza artificiale, in particolare negli strumenti e nelle tecnologie che utilizzano approcci basati su modelli linguistici di grandi dimensioni^[5]^[6] e nelle nuove direzioni dell'intelligenza artificiale generale basate sul principio dell'energia libera del neuroscienziato e teorico britannico Carl J Hughes dell'University College London. Friston.

Approcci: Simbolico, statistico, reti neurali

Approccio statistico

Tra la fine degli anni '80 e la metà degli anni '90, l'approccio statistico ha posto fine al periodo invernale dell'intelligenza artificiale, causato dall'inefficacia degli approcci basati sulle regole.^[7]^[8]

I primi alberi decisionali, che creano sistemi di regole rigide "se-allora", erano ancora molto simili ai vecchi approcci basati sulle regole. Solo l'introduzione dei modelli di Markov nascosti applicati alla marcatura delle parti del discorso ha annunciato la fine del vecchio approccio basato sulle regole.

Reti neurali

Lo svantaggio principale dei metodi statistici è che richiedono una complessa ingegnerizzazione delle caratteristiche. Dal 2015, l'approccio statistico è stato sostituito da un approccio a rete neurale che utilizza il word embedding per catturare le proprietà semantiche delle parole.

Le attività intermedie non erano più necessarie.

Note

^ Democratizzare la comunicazione scritta per far progredire le capacità proprietarie dell'NLG. 06/21/2022
^ US patent 9269353, su worldwide.espacenet.com. URL consultato il 20 maggio 2024.
^ Universal Conceptual Cognitive Annotation (UCCA), su universalconceptualcognitiveannotation.github.io. URL consultato il 20 maggio 2024.
^ Introduction to Chunks and Rules, su www.w3.org. URL consultato il 20 maggio 2024.
^ Grounded Compositional Semantics for Finding and Describing Images with Sentences, su direct.mit.edu. URL consultato il 20 maggio 2024.
^ Understanding the Anatomies of LLM Prompts: How To Structure Your Prompts To Get Better LLM Responses, su www.codesmith.io. URL consultato il 20 maggio 2024.
^ How the Statistical Revolution Changes (Computational) Linguistics, su aclanthology.org. URL consultato il 20 maggio 2024.
^ Philip Resnik. Four revolutions, su languagelog.ldc.upenn.edu. URL consultato il 20 maggio 2024.

Bibliografia

Isabella Chiari, Introduzione alla linguistica computazionale, Bari, Laterza, 2007, ISBN 978-88-420-8209-5.

Voci correlate

Altri progetti

Wikimedia Commons

Wikimedia Commons contiene immagini o altri file sull'elaborazione del linguaggio naturale

Collegamenti esterni

Elaborazione del linguaggio naturale, su Vocabolario Treccani, Istituto dell'Enciclopedia Italiana, 2023.
(EN) Tara Ramanathan, natural language processing, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
(EN) Opere riguardanti Natural language processing (Computer science) / Natural Language Processing, su Open Library, Internet Archive.