Cerca nel blog

domenica 22 agosto 2010

Psicologia della comunicazione: i processi mentali di comprensione del parlato

Al contrario del processo di produzione il processo di comprensione si svolge al contrario, cioè dai suoni si torna al messaggio. La sequenza avviene in serie o in parallelo? Il processo di comprensione è unidirezionale (Forster, 1979) o interattivo (Marlsen-Wilson e Tyler, 1980)? I riscontri empirici protendono per la seconda ipotesi. La percezione linguistica non è semplice come la percezione acustica, intervengono molti più processi. La tesi psicolinguistica prevalente è che si tratti di una rappresentazione fonologica, cioè da fonetica a fonologica. Altri ritengono che si giunga ad una rappresentazione morfologica.
Fino alla metà del 900 si pensava che il pattern acustico fosse da solo sufficiente alla percezione linguistica, cioè da una percezione bottom-up, se fosse così l’impresa di creare automi in grado di intendere il linguaggio sarebbe facile, ma non è così. Com’è stato detto riusciamo a percepire 20-30 fonemi al secondo quando in realtà riusciamo percepire al massimo 9 suoni al secondo. L’idea dei pattern acustici prevede che ad un’analisi spettrografica del suono si potrebbero isolare distintamente i fonemi, ma è stato scoperto che l’attacco consonantico non ha una configurazione acustica propria. Per altro si hanno differenze sensibili della qualità della voce in base al parlante, inoltre la configurazione acustica muta in dipendenza del contesto fonologico.
A testimoniare che la percezione del parlato sia top-down sono le illusioni percettive. Comune è l’illusione dei confini di parola, si suppone che ad ogni parola l’esame strumentale dimostri che si possano rilevare delle pause fra una e l’altra. Non è così. Le parole sono separate dall’ascoltatore. Nelle illusioni dei fonemi mancanti, al contrario, pause vengono interpretate come fonemi. Warren (1970) dimostra sperimentalmente il ripristino percettivo di fonemi. In un enunciato inseriva una pausa fino 0,30 secondi al posto di un fonema e l’ascoltatore percepiva la parola corretta in relazione al contesto. Lieberman (1961) dimostra il fenomeno slit-split per il quale inserendo una pausa brevissima, meno di un decimo di secondo, fra la [s] e la [l] di slit (fessura), l’ascoltatore capiva split (divisione). Il fatto è che split rispetta la fonotassi dell’inglese ed è una parola di senso compiuto. Bianchi e di Giovanni (1984) individuano nell’eloquio delle pause prosodiche all’interno delle parole, gli intervalli melodici, che, per la loro posizione inconsueta, vengono ignorati. Questa interruzione prolunga il fonema precedente, si parla perciò di illusione ecoica. Lo stesso vale per il lapsus d’orecchio, cioè quando si intende una parola per un’altra, benché sia dotata di senso o semplicemente si capisce comunque quello che dice una persona con una pronuncia scorretta.
Gli indizi principali per formare una parola sono gli indicatori acustici che indicano la presenza di un fonema. Gli indicatori acustici sono le prime due formanti del pattern formantico e alcune caratteristiche cronologiche dei fenomeni sonori, come il VOT (Voice Onset Time) che serve a distinguere tra esplosive sorde e sonore in fattore della durata. A volte usufruiamo di informazioni di supporto, come la lettura (inconscia) delle labbra, del ritmo e dell’intonazione, e segnali non verbali. L’effetto McGurk fa sì che sincronizzando un video in cui un uomo pronuncia ba e una traccia audio in cui si pronuncia ga, si percepirà da. Pare che la base percettiva minima sia la sillaba, ma varia a seconda della lingua (italiano e francese Syllable-timed language; inglese Stress-timed language). Per la Motor theory of speech perception (Liberman & Mattingly, 1985) si ipotizza che a discriminare i fonemi nel parlato non siano direttamente i foni in sé, ma i gesti articolatori prodotti per pronunciarli. Per cui i foni sarebbero dei comandi neuromotori agli organi articolatori che poi verrebbero interpretati come parole. La coordinazione è data da un modulo cerebrale specie-specifico e innato specializzato nella codifica e interpretazione della lingua, cosicché ad ogni parola corrisponde ad un pattern fonatorio con una relazione 1:1 mediata dal modulo specializzato. Per la Direct realist view (Fowler, 1986) la cui base teoretica è derivata dalla teoria della percezione di J. J. Gibson che a sua volta è ispirata a quella gestaltista di K. Koffka.  “I sistemi percettivi negli animali hanno una funzione universale. Costituiscono l'unico mezzo attraverso il quale gli animali possono conoscere la loro nicchia. Per di più, sembrano asservire a questa funzione in un modo: usano la struttura del medium che porta informazione degli eventi ambientali. Anche se è la struttura del medium che gli organi di senso trasducono (la luce per visione, la pelle per il tatto, l'aria per l'udito), non è la struttura del medium che gli animali percepiscono. Piuttosto, essenzialmente per la loro sopravvivenza,  percepiscono i componenti ambientali che hanno causato la struttura.” (Fowler, 1996) Con questa premessa la DRT prevede che l’oggetto della percezione del parlato è, come per la MT, il gesto articolatorio, ma al contrario non prevede un modulo specializzato, ma un numero di funzioni percettive generiche che valuta l’oggetto in sé senza mediazioni motoneuronali. Il segnale acustico porta in sé le informazioni per articolarlo direttamente (affordance); il percipiente rileva le proprietà fisiche dei gesti senza generarli internamente. Per le teorie che assumono principi generali di elaborazione uditiva, apprendimento e categorizzazione (Diehl & Kluender, 1989; Kuhl, 1986, 1992; Massaro, 1987), la General approach to speech perception prevede che il parlato sia percepito primariamente come un susseguirsi di eventi acustici e che sia elaborato da un concerto di meccanismi generali di origine precedente all’avvento della lingua e processi specializzati. La GA non è una teoria in senso stretto perché non offre un corpus di ipotesi falsificabili, ma un approccio teoretico in contrasto sia con la MT e la DRT.
Nel riconoscimento delle parole sono stati identificati alcuni modi in cui decidiamo che parola è stata pronunciata. L’effetto frequenza fa sì che la mente riconosca più velocemente parole d’uso frequente e abitudinario. Per l’effetto priming è facile riconoscere parole target influenzate da parole prime che assomigliano superficialmente o per vicinanza semantica (neighbors).  Simile all’effetto priming è l’effetto aspettativa, cioè l’aspettarsi l’arrivo di una parola vicina alla parola prime. Anche l’effetto contesto permette di riconoscere una parola in base alla frase in cui è inserita.
Negli esperimenti si adottano varie tecniche per comprende la comprensione. Nei compiti di denominazione si chiede al soggetto di pronunciare la parola appena capita, nei compiti di monitoraggio di segnalare solamente la comprensione. Nei compiti di decisione lessicale si misura il tempo di riconoscimento nel quale il soggetto distingue le parole dalle non-parole legali (fonotatticamente corrette) e le non-parole illegali (fonotatticamente scorrette). Per misurare la velocità di comprensione si può, nel caso che le parole siano udite, alzare la soglia di rumore, se la parola è letta la soglia di esposizione.
I modelli di riconoscimento delle parole, dapprima sia per le udite e le lette poi differenziati, seguono il principio dell’attivazione, una sorta di campo d’attivazione mentale che “risveglia” alcune parole,  o il principio delle ricerca d’archivio, una sorta di ricerca intelligente tra le informazioni verbali. Nel modello del logogeno di Morton prevede che ogni parola corrisponda mentalmente ad un logogeno, che è un’unità di attivazione collegata ad altre. Nel modello della ricerca per file di Forster esiste un master file che contiene tutte le parole e una serie di file d’accesso che le raggruppano in base a somiglianze fonologiche o semantiche. Nel modello della coorte di Marslen-Wilson si ritiene che man mano la parola venga udita si propongano combinazioni conosciute fino a che non ne rimane solo una. Per il modello è molto importante l’inizio della parola fino ad un uniqueness point, in genere i primi due fonemi, in cui la parola è distinta da tutte le altre. Una revisione al modello della coorte prevede un recognition point che indica se la parola può essere quella in ascolto integrandola poi nel contesto, ma non eliminando le altre. Evidenze sperimentali basati sul shadowing, cioè del ripetere ciò che si ascolta mentre si sta ascoltando, dimostrano che una parola fuori contesto è ripetuta più tardi di una in contesto (gating) e che, comunque, il contesto inizia a contare superato un uniqueness point (cross-modal priming). Per il modello TRACE di McClelland e Elman, che prevede integrazione top-down a dati bottom-up, ci sono tre rappresentazioni: fonetica, fonologia e semantica. È un modello connessionista e localista in quanto prevede che esista una istanza mentale per ogni unità di rappresentazione. Postula che venga a formarsi una traccia di una durata temporale data che viene, poi, modificata con le informazioni in ingresso e poi confrontata con le rappresentazioni.
Esistono nella lingua di tutti i giorni parole che hanno più significati (polisemia) o che hanno significati indipendenti (omonimia) o che fonologicamente sono uguali, ma non hanno la stessa grafia e significati diversi (omofonia). Solo il contesto può disambiguare il significato della parola. Sono stati prospettati due diversi ruoli. L’ipotesi dell’accesso multiplo o esaustivo prevede che siano disponibili tutti i significati possibili e successivamente il contesto seleziona il significato giusto. L’ipotesi di accesso selettivo sostiene che il contesto interviene prima e che emergerebbe solamente il significato pertinente. I risultati sperimentali ora danno ragione ad un’ipotesi ora all’altra in fattore della frequenza di utilizzo di un significato.
Per quanto riguarda l’analisi sintattica sono state costruite intelligenze artificiali in grado di capire il senso della frase senza farne. I sistemi FRUMP hanno una gran mole di dati dominio-dipendente, ma si tratta di una strategia limite tipica di chi non conosce una lingua. Varie osservazioni riferiscono che l’unità di analisi sia la proposizione. Sembra che per la strategia di analisi della struttura sintattica sia attuato un modello a garden-path: anziché portare avanti più interpretazioni possibili si va avanti con una finché si arriva ad un vicolo cieco e si ricomincia. Alcuni principi individuati negli elaboratori sintattici artificiali sono il late closure, cercare di attaccare quante più parole possibile al sintagma corrente, e il minimal attachment, cercare di costruire quanti meno sintagmi possibile. In ordine le fasi sintattiche della mente sono il parsing e l’interpretazione e agirebbero in serie. Altra visione è data dalle teorie basate sul vincolo per le quali il processo di elaborazione sintattica è un continuo scambio di informazioni tra i moduli alla ricerca del significato. Il modello concurrent prende aspetti di entrambe le teorie, vengono portati avanti più garden-path eliminando via via quelli insignificanti. Per quanto riguarda il ricordo delle strutture sintattiche pare che dopo 30 secondi al massimo vadano perse, in casi di particolare interesse personale vengono immagazzinate in MLT. Esistono delle teorie riguardo all’utilizzo della memoria durante il parsing e l’interpretazione. Per Baddelay esiste una memoria di lavoro fonologica e visiva, ma non si spiega la memoria semantica per la quale parole vengono ricordate meglio di non-parole. Caplan e Waters sostengono che esistano memorie per tutte le parti del linguaggio e una di output. Carpenter, Just, Miyake prevedono un’unica memoria a capacità generale. Martin, attraverso studi neuropsicologici, hanno individuato almeno una memoria fonologica e una semantica, ma non è chiaro ancora se esista o meno un magazzino sintattico.
La comprensione del linguaggio è solo la punta dell’iceberg, di seguito occorre dare un senso alla proposizione attraverso l’integrazione di informazioni sul mondo, del contesto linguistico ed extra-linguistico. L’esplicitazione degli impliciti avviene attraverso le inferenze. Le inferenze all’indietro o inferenze ponte sono quelle che collegano le informazioni precedenti alle correnti. Le inferenze in avanti o inferenze elaborative arricchiscono le informazioni in arrivo. In letteratura esistono inferenze logiche e inferenze pragmatiche, per la distinzione di verità di ragione o analitiche e verità di fatto o sintetiche. Le inferenze, come l’argomentazione, sono un tipo di ragionamento. Le forme di inferenza sono deduzione, induzione e abduzione. La deduzione parte da un caso generale e arriva ad un caso particolare (tutti gli x hanno y, questo è un x, x ha un y); l’induzione cerca di generalizzare da un caso (alcuni x hanno un y, tutti gli x hanno un y); l’abduzione crea ipotesi o congetture partendo da un caso generale ad uno particolare (tutti gli x hanno y, questo ha y, questo è un x). Nelle inferenze prendono parte tre tipi di conoscenze:  1) le regole; 2) le informazioni ponte, che portano alle regole; 3) le informazioni guida, che permettono di praticare la regola. Le informazioni che intervengono nell’inferenza sono prelevate da livelli profondi a più superficiali: le leggi naturali, sociali, culturali, economiche; il contesto extra-linguistico; la comunicazione contingente.
Nella vita di tutti i giorni le inferenze sono sottoposte a biases. Esistono delle differenze personologiche, gli HSM sono più inclini a inferire sugli impliciti aprendosi diverse piste di interpretazione.

Nessun commento:

Posta un commento