Loading...

L’Analisi semiometrica della lirica trobadorica

L'Analisi statistica applicata ai testi lirici

Project Report 2015 44 Pages

Romance Languages - Italian and Sardinian Studies

Excerpt

Inhaltsverzeichnis

1. Introduzione

2. Estrazione di dati linguistici di tre autori-trovieri dal corpus lemmatizzato

3. Metodi d’estrazione delle co-occorrenze e classifica dei dati

4 Il lemma faire come punto di riferimento più Sostantivo, Verbo, Aggettivo a destra e a sinistra

5. Tipi di co-occorenze – classifica per l’analisi di statistica descrittiva
5.1 Co-occorrenze (tre forme) - immediata vicinanza con il lemma faire
5.2 Co-occorrenze (due forme) - immediata vicinanza con il lemma faire
5.3 Co-occorrenze a distanza a 2 e 3 a (+)destra e a (-)sinistra

6. Tipi di co-occorrenze – classifica per l’analisi di statistica inferenziale
6.1 Co-occorrenze (tre forme) - a distanza massima 3 posizioni a (+)destra e a (-)sinistra
6.2 Co-occorrenze delle forme uniche
6.3 Co-occorrenze delle stesse forme
6.4 Co-occorrenze di due forme del lemma faire nello stesso verso

7. L’analisi statistica
7.1 L’analisi fattoriale - coefficiente di correlazione di Pearson
7.2. L’analisi delle componenti principali
7.2.1 La matrice di correlazione dei lemmi amor, cor, vers, bon
7.4 La rappresentazione del lemma faire come punto 0 sul grafico a dispersione
7.5 La rappresentazione di (+)destra e (-)sinistra come positivo e negativo

8. L’analisi semantica
8.1 La disambiguazione semantica delle forme cor, cors
8.2 L’algoritmo per la disambiguazione semantica di cor, cors

9. La Self-Organizing Map (SOM) di Kohonen applicata alle collocazioni amor, cor, vers, bon

10. Obiettivi da raggiungere

11. Conclusione

Bibliografia

1. Introduzione

Il presente lavoro intende ad unire al livello interdisciplinare la metodologia statistica e linguistica a scopo di disambiguare la semantica delle co-occorrenze delle forme ambigue estratti da un Corpus lirico dei testi provenzali medievali. Per effettuare tale analisi sono stati applicati i metodi di semiometria che rappresentano un approccio indispensabile per poter mettere al confronto i dati statistici ottenuti dopo l’estrazione, con i risultati dello studio strettamente linguistico.

La semiometria offre la possibilità di misurare i dati applicando le conoscenze di statistica e matematica ed usa approcci simili all’analisi psicometrica e biometrica. Nello stesso tempo è molto impiegata nelle ricerche su marketing e in Text Mining.

Secondo Lebart (2003, pp. 5) la semiometria è una tecnica di descrizione delle connessioni semantiche di un determinato tipo fra le parole, ciò che potrebbe essere definito come uno dei tentativi di descrivere la semiometria.

Nel presente lavoro i resultati dell’analisi semiometrica effettuata vengono in seguito utilizzati per la disambiguazione2 semantica di alcune forme che si rivelano come migliori candidati dal punto di vista di ambiguità. Per tali forme ambigue viene proposto un algoritmo di disambiguazione semantica che si limita in ogni caso sui contenuti dei dati estratti. Alla fine dell’analisi viene fatto un test limitato dimostrativo di Self-Organizing Map (SOM) di Kohonen (1989) applicata ai dati estratti di co-occorrenze che sono stati sottoposti ad analisi statistica più approfondita.

2. Estrazione dei dati linguistici di tre autori-trovieri dal corpus lemmatizzato

I dati sono stati estratti dal Corpus lemmatizzato [LiEu] – Lirica Europea Trob Vers Lessico della poesia romanza delle origini. Il Corpus contiene le poesie di trovatori e trovieri del medioevo. Per l’analisi sono stati scelti tre trovatori provenzali: Bernart de Ventadorn (1151-1175), Giraut de Borneil (1176-1200) e Raimbaut d'Aurenga (1151-1175), ed in seguito sono stati estratti 180 collocazioni3 per ogni autore.

3. Metodi d’estrazione delle collocazioni e classifica dei dati

Le collocazioni sono stati estratti con metodo semiautomatico dal Corpus lemmatizzato e sono stati riclassificati nelle apposite tabelle secondo l’esigenza della ricerca. Per ogni trovatore è stata creata una base di dati con 180 versi dentro di cui sono stati effettuati le ricerche ed estratti determinati co-occorrenze con il lemma4 faire(oc.)-fare(it.) . I risultati delle ricerche sono stati rappresentati sui grafici. Per poter estrarre i dati numerici e basandosi sui dati rappresentati nei grafici sono stati impiegati i metodi di statistica sia descrittiva che inferenziale, cosi come l’analisi fattoriale – coefficiente di correlazione di Pearson5, e l’analisi dei componenti principali con le matrici di correlazione6 creati per ogni grafico. Tali dati dovrebbero dimostrare il grado di legame fra i componenti correlati.

4 Il lemma faire come punto di riferimento più Sostantivo, Verbo, Aggettivo

a destra e a sinistra

Per poter effettuare l’estrazione di dati dal Corpus poetico lemmatizzato è stato indispensabile di stabilire il punto di riferimento per le collocazioni (così detto nucleo). Tale punto di riferimento rappresenta il lemma faire. Il lemma faire con tutte le sue forme flesse è molto ricorrente nei trovieri provenzali. 180 collocazioni estratti dal Corpus [LiEu] rappresentano 180 versi con il lemma faire per ciascuno dei tre autori. Come l’oggetto dello studio figurano le collocazioni1 di lemma faire con il Sostantivo, Verbo e Aggettivo a distanza di tre a destra e a sinistra (la forma più distante – terza posizione a destra o a sinistra dal lemma faire). Secondo Sinclair (Jones, Sinclair 1974; cfr. Miall 1992 e Smadja 1989) le collocazioni vengono distinte dalle libere locuzioni che hanno una combinazione libera fra i costituenti (sono sostituibili). Mentre le collocazioni mostrano una certa fusione semantica fra i componenti lessicali, consolidata dall’uso e dall’alta frequenza di co-occorrenza. Sinclair (Jones, Sinclair 1974) afferma che la distanza massima fra i ‘collocati’ potrebbe essere fissata in ± 4 posizioni a destra e a sinistra del nucleo (nel presente lavoro il lemma faire assume il ruolo del nucleo).

Individuare questo tipo di collocazioni dopo l’analisi semantica secondo la classificazione basata sul principio onomasiologico (Malte-Ludolf Babin, 1993) è uno degli aspetti di questa ricerca i cui risultati verranno usati nella disambiguazione semantica.

5. Tipi di co-occorrenze – classifica per l’analisi di statistica descrittiva

Dopo l’estrazione di 180 collocazioni per ciascun trovatore provenzale i dati sono stati organizzati secondo il tipo di collocazione dal punto di vista sintattico. Prima di essere rappresentati sui grafici, le collocazioni di lemma faire sono stati classificati secondo i determinati criteri: ad ogni posizione a destra o a sinistra dal lemma faire sono stati assegnati i numeri (positivi per la posizione a destra, negativi per la posizione a sinistra) per poter identificare tutte le posizioni del Sostantivo (S), Verbo (V) e Aggettivo (Agg) a destra o a sinistra fino a terza posizione. Al lemma faire è stata assegnata solo la denominazione V (Verbo) senza la codifica numerica. Tale classifica permette di analizzare i dati dal punto di vista di statistica descrittiva.

Abbildung in dieser Leseprobe nicht enthalten

5.1 Co-occorrenze (tre forme) - immediata vicinanza con il lemma faire

Il primo gruppo di co-occorrenze con il lemma faire è stato classificato sotto la categoria di immediata vicinanza con il lemma faire. Questo gruppo è stato raffigurato in un diagramma per ciascun autore e contiene tutte le co-occorrenze con il lemma faire con Sostantivo, Aggettivo e Verbo in prima e seconda posizione a destra o a sinistra. Tali co-occorrenze sono costituite da tre forme flesse incluso la forma di faire.

Abbildung in dieser Leseprobe nicht enthalten

I Grafici 1 , 2 e 3 rappresentano le co-occorrenze di immediata vicinanza di Bernart di Ventadorn (BnVent), Giraut de Borneil (GrBorn) e Raimbaut d'Aurenga (RbAur), e mostrano non solo i dati quantitativi, ma anche percentuali di loro occorrenze in 180 versi. Dai grafici è possibile dedurre che la quantità maggiore costituiscono le co-occorrenze di VVAgg con 19,2% per BnVent, VVAgg con 16,2% per GrBorn e VVS con 15,6% per RbAur. Inoltre questo tipo di co-occorrenze sono presenti di più in BnVent rispetto a GrBorn e RbAur. Si notano anche le divergenze fra i costituenti delle co-occorrenze in questione, per esempio, SVS occorre in BnVent e non nei altri autori, SAggV e VAggV solo in GrBorn , AggSV solo in BnVent e in RbAur, SVAgg solo in GrBorn e in RbAur.

Abbildung in dieser Leseprobe nicht enthalten

5.2 Co-occorrenze (due forme) - immediata vicinanza con il lemma faire

La categoria di co-occorrenze che rappresentano il secondo gruppo di immediata vicinanza con il lemma faire, è stata presentata in un diagramma per ciascun autore che raffigura tutte le co-occorrenze con il lemma faire con Sostantivo, Aggettivo o Verbo in prima posizione a destra o a sinistra. Tale co-occorrenze sono costituiti da due forme flesse incluso la forma di faire.

Abbildung in dieser Leseprobe nicht enthalten

Tali co-occorrenze costituiscono una categoria molto ampia e sono ricorrenti in percentuale alta per tutti i tre autori (Grafici 4, 5 e 6 ). La quantità maggiore rappresentano le co-occorrenze VS(+1) con 31% per BnVent, V(-1)V con 23,8% per GrBorn e VS(+1) con 32,6% per RbAur. Questo tipo di co-occorrenze non rappresenta le divergenze fra i costituenti che significa che in immediata vicinanza dopo il lemma faire occorrono spesso Sostantivi, Verbi ed Aggettivi da tutti i tre autori: 138 su 180 co-occorrenze per BnVent, 112 su 180 per GrBorn, 141 su 180 per RbAur. Questo fatto dimostra che il lemma faire come nucleo raffigura un forte costituente per la formazione di co-occorenze con Sostantivi, Verbi e Aggettivi.

Grafico 4

Abbildung in dieser Leseprobe nicht enthalten

5.3 Co-occorrenze a distanza a 2 e 3 a (+)destra e a (-)sinistra

Il terzo gruppo di co-occorrenze con il lemma faire è stato classificato sotto la categoria di co-occorrenze a distanza a 2 e 3 dal lemma faire a destra e a sinistra. Questo gruppo è stato raffigurato in un diagramma per ciascun autore e contiene tutte le co-occorrenze con il lemma faire con Sostantivo, Aggettivo e Verbo in seconda o interza posizione a destra o a sinistra. Tali co-occorrenze possono essere formati da due o tre costituenti. In questo grafico vengono rappresentati solo le co-occorrenze con due costituenti a destra o a sinistra.

Abbildung in dieser Leseprobe nicht enthalten

La presente categoria di co-occorrenze in posizione a distanza a due o a tre dal lemma faire è una categoria ampia che illustra addirittura un numero maggiore di 180, come si può vedere nel Grafico 8 (GrBorn: 197 su 180). Questo occorre per semplice fatto che la ricerca rappresentata nei Grafici 7, 8 e 9 fornisci i risultati di tutti le occorrenze in seconda e in terza posizione a destra o a sinistra dal lemma faire secondo l’impostazione, che significa che in unico verso vengono contati le co-occorrenze, che rappresentano sia seconda che terza posizione, due volte. La maggiore quantità di questo tipo di co-occorrenze costituisccono S(-2)V con 16,3% per BnVent su 180 versi, V(-3)V con 19,3% per GrBorn e V(-3)V con 16,0% per RbAur.

Abbildung in dieser Leseprobe nicht enthalten

Grafico 7

Abbildung in dieser Leseprobe nicht enthalten

6. Organizzazione delle collocazioni con sopporto grafico - piano cartesiano

Dopo di aver classificati i dati estratti dal punto di vista di statistica descrittiva con supporto di diagrammi si è proceduto con la rappresentazione di essi sul piano cartesiano - un passo indispensabile per l’elaborazione dei dati dal punto di vista di statistica inferenziale. In questa sezione le collocazioni con il lemma faire vengono selezionati non solo al livello sintattico ma anche semantico, cosi come le collocazioni delle forme unici per ciascun autore, che significa che tale forma appare solo da un autore una sola volta. Vengono create le mappe semantiche con le collocazioni delle forme amor-cor per ciascun autore. Dato che le collocazioni di amor-cor e vers-bon appaiono nello stesso verso da tutti i tre autori, la loro rappresentazione grafica viene impiegata per la creazione delle matrice di correlazione. Inoltre vengono presi in considerazione le collocazioni con il secondo lemma faire in vicinanza con il lemma faire principale.

6.1 Collocazioni Trigrammi

In questa sezione le collocazioni vengono raffigurati come i trigrammi sintattici sul piano. Il lemma faire rappresenta il punto 0 da cui spostandosi a destra o a sinistra su assi x o y si può evincere la posizione di una determinata collocazione a distanza di tre. In questo caso i trigrammi raffigurati sono costituiti obbligatoriamente dal Verbo- faire, più Sostantivo, più Aggettivo. Dato che l’asse x rappresenta Aggettivi e l’asse y Sostantivi, non è possibile trovare sul grafico combinazioni come VAggAgg, AggAggV, VSS o SSV.

Dai Grafici 10, 11 e 12 si può dedurre che quando x e y entrambi positivi, non possono essere occupati le coordinate (3;3), (2;2) e (1;1). Il fatto che si dimostra vero, poiché non è possibile che avvenga la combinazione come VAgg(+3)S(+3), VAgg(+3)S(+3) o VS(+1)Agg(+1), dove Sostantivo ed Aggettivo occupino gli stessi posizioni contemporaneamente. Lo stesso vale quando x e y sono entrambi negativi. Quando invece x negativo e y positivo o viceversa, è possibile che tutti le coordinate fino a terza posizione sono occupati. Anche questa affermazione è vera: nel caso in cui Sostantivo ed Aggettivo non si trovano entrambi a destra o a sinistra dal Verbo, possono occupare la stessa posizione contemporaneamente, per esempio S(-1)VAgg(+1), S(-2)VAgg(+2) o Agg(-3)VS(+3): sono nella stessa posizione con la differenza che un componente si trova a destra ed altro a sinistra.

Sovrapponendo i piani dei tre autori (Grafici a dispersione 10, 11 e 12), si deduce che il Grafico 12 di RbAur contiene sia la varietà che quantità maggiore di occorrenze di questo tipo.

Grafico 10

Abbildung in dieser Leseprobe nicht enthalten

Grafico 11

Abbildung in dieser Leseprobe nicht enthalten

[...]


1 Dal termine greco s?µe??? semeion, che significa "segno" e métron = "conteggio" o "misura".

2 Disambiguazióne [der. di disambiguare; cfr. fr. désambiguïsation] – In linguistica, intervento con cui si toglie ambiguità a una parola, a una frase, è l'operazione con la quale si precisa il significato di una parola o di un insieme di parole (frase).

3 In linguistica, il termine collocazione indica la combinazione (tecnicamente co-occorrenza) di due o più parole, che tendono a presentarsi insieme (contigue o a distanza) più spesso di quanto si potrebbe prevedere (Krishnamurthy 20062).

4 Lat. lemma "premessa, assunto" In linguistica lemma è la citazione di una parola, ossia quella parola che per convenzione è scelta per rappresentare tutte le forme di una flessione.

5 Introdotto da Karl Pearson, basandosi sui lavori di Galton. In statistica, l'indice o coefficiente di correlazione di Pearson tra due variabili statistiche è un indice che esprime una eventuale relazione di linearità tra esse.

6 È una matrice quadrata di dimensione avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè[Abbildung in dieser Leseprobe nicht enthalten] , e i coefficienti sulla diagonale valgono 1.

Details

Pages
44
Year
2015
ISBN (eBook)
9783668084421
ISBN (Book)
9783668084438
File size
4.3 MB
Language
Italian
Catalog Number
v310082
Institution / College
University of Stranieri di Siena
Grade
Tags
l’analisi analisi

Author

Share

Previous

Title: L’Analisi semiometrica della lirica trobadorica