SCALE DI VALUTAZIONE: Funzioni delle Rating Scales

Share this





Le RS, come abbiamo visto, sono strumenti costituiti da una serie di item che definiscono gli elementi psico-comportamentali da osservare ed indicano, con diverso grado di precisione e formalizzazione, i livelli di gravità a cui fare riferimento. Possono essere impiegate come checklist di riferimento personale, come strumenti di rilevazione standardizzata o, più compiutamente, come strumenti di misura.

a - Al livello più elementare, le RS possono essere considerate delle checklist di riferimento personale, cioè delle liste di variabili che consentono al valutatore di esplorare tutti gli aspetti rilevanti dell'argomento da indagare con la certezza di non dimenticarne qualcuno per disattenzione o per dimenticanza.

b - Poiché la scelta delle variabili che compongono una RS è operata, a priori, dall'Autore dello strumento, tutti coloro che utilizzano una determinata RS si uniformeranno, di necessità, nella raccolta delle informazioni operando di fatto una standardizzazione della valutazione. La raccolta delle stesse informazioni da parte di valutatori operanti anche in contesti diversi, rappresenta soltanto il primo passo per la standardizzazione della valutazione; livelli ulteriori di standardizzazione possono essere raggiunti se le RS specificano, oltre alle variabili da esplorare, anche i criteri da utilizzare per effettuare la valutazione e le modalità di assegnazione dei punteggi. È bene ricordare, tuttavia, che nonostante l'elevato grado di standardizzazione raggiunto dalle RS, fattori diversi possono influire sull'attendibilità di questi strumenti e che di essi è necessario tener conto nel loro impiego. Come chiaramente mostra la tabella 3.I, i fattori che possono ridurre l'attendibilità delle RS sono sostanzialmente di tre tipi, quelli legati al soggetto che effettua la valutazione, quelli socioculturali e quelli semantici; la loro influenza è diversa se la valutazione è fatta da un osservatore esterno o dal paziente stesso. Dobbiamo comunque dire che l'influenza di questi fattori può manifestarsi su qualsiasi modalità di rilevazione del vissuto psicopatologico e che, semmai, grazie agli studi di taratura, nelle RS questa influenza può essere in parte eliminata e, per quella parte non eliminabile, può essere "pesata". Per una più esauriente trattazione di questo tema si rimanda al lavoro di Poli e Collaboratori (1981).

c - Le RS sono, infine, strumenti di misura e, in quanto tali, devono rispondere sostanzialmente a due principi: il primo, specifico per la misurazione dei singoli item, è quello dell'omomorfismo tra il sistema numerico e quello empirico, il secondo, che riguarda le scale composte da più item, è quello del rapporto tra i punteggi della scala e la realtà empirica.

Il primo caso, che è quello della valutazione di gravità unilineare, riguarda la distinzione di livelli diversi di gravità nell'ambito di un singolo item. È evidente che, rispetto all'item in questione, esiste omomorfismo tra i punteggi e la realtà oggettiva se i punteggi di due soggetti (A e B) sono uguali solo se il soggetto A è grave quanto B o, se il punteggio di A è maggiore (o minore) di quello di B, A è più (o meno) grave di B. Detto in questo modo, sembrerebbe che il problema potesse essere risolto semplicemente mediante un confronto con un criterio esterno; in realtà questo confronto non è necessario se il sistema empirico mantiene lo stesso rapporto ordinale del sistema numerico, se, cioè, non è messa in discussione la transitività dell'ordinamento. In altre parole, se A è più grave di B, B non può essere più grave di A. È possibile, infatti, che la differenza tra A e B e quella tra B e C sia inferiore alla soglia di discriminazione, per cui è corretto dire che A=B e B=C; ma la differenza fra A e C potrebbe superare tale soglia per cui sarà A_C in apparente contrasto con la proprietà transitiva secondo la quale, se A=B e B=C, A=C. Se, ad esempio, su di una scala da 0 a 100, abbiamo stabilito che differenze fino a 5 punti non sono discriminanti, possiamo avere che il soggetto A, che totalizza 60 punti, sia da considerarsi uguale al soggetto B, che totalizza 63 punti, e che questi sia uguale al soggetto C che ha 67 punti, ma A e C non potranno essere considerati uguali poiché la differenza tra i loro punteggi è superiore alla soglia di discriminazione. Incongruenze di questo tipo sono tollerabili poiché non compromettono l'ordinalità del sistema; altri tipi di incongruenza (p. es., A>B, B=C, C>A) sono del tutto improbabili, potendo verificarsi solo quando le specifiche per l'attribuzione del punteggio sono confuse o mal definite. Per evitare questi rischi è perciò opportuno che i criteri di attribuzione del punteggio siano il più possibile discreti ed univoci (Faravelli, 1983).

Il secondo caso è quello della valutazione di gravità multilineare, in cui i criteri di gravità sono desunti da scale composte da più item. Generalmente la somma dei punteggi dei singoli item viene assunta come criterio di gravità della sindrome esplorata anche se, in realtà, i valori numerici che si ottengono non sono, generalmente, strettamente correlati con la situazione oggettiva. Se assumiamo come elemento di confronto un criterio esterno come, ad esempio, il giudizio clinico, è facile che si possano mettere in evidenza incongruenze anche rilevanti fra il giudizio del clinico ed i punteggi delle RS, ma anche fra i punteggi di RS differenti. Il giudizio clinico, infatti, tiene conto sia della gerarchia dei sintomi (p. es., sintomi nucleari e sintomi accessori) che delle relazioni reciproche tra i sintomi (p. es., un sintomo può avere valore in presenza di un altro ma non da solo), mentre il punteggio della RS non è altro che la somma algebrica dei valori dei singoli item e rappresenterà perciò una via di mezzo tra la gravità e la pervasività della sintomatologia potendo uno stesso punteggio esprimere tanto una marcata gravità di un numero limitato di sintomi che una moderata gravità di un numero maggiore di sintomi. Ancora più rilevante può essere la discrepanza tra la gravità oggettiva e quella espressa mediante il punteggio delle scale di autovalutazione che, in assenza del filtro operato dal clinico, è ancora di più influenzato da fattori marginali, non ultimo la maggiore o minore tendenza del soggetto all'istrionismo ed alla teatralità.

Un'altra critica che viene comunemente sollevata alle RS è quella relativa alla loro reale "ordinalità". È evidente che il livello di ordinalità è in rapporto alla sensibilità della scala, ma è comunque opinabile che differenze modeste di punteggio totale corrispondano a reali differenze di gravità: è infatti difficile sostenere che, alla scala di Hamilton per la depressione (Hamilton Depression Rating Scale - HAM-D o HDRS), un punteggio totale di 30 esprima una gravità realmente maggiore rispetto ad uno di 29 o 28, mentre è probabile che ciò sia vero se si confronta un punteggio di 30 con uno di 22 o 23. Le RS sono dunque da considerare, almeno per quanto riguarda i punteggi grezzi, scale imperfettamente ordinali che corrispondono solo in misura più o meno approssimativa a ciò che si propongono di misurare. Ciò non toglie che, all'interno di un campione, siano ampiamente accettabili le inferenze statistiche; più problematica è l'accettazione dei risultati dei test statistici quando si vogliono applicare i risultati relativi al campione in esame, assunto come rappresentativo del fenomeno, all'universo dei fenomeni considerati (Faravelli, 1983).

Le RS, come abbiamo detto, misurano concetti clinici complessi mediante la loro scomposizione in elementi più semplici che sono ritenuti di più immediata valutazione e misurazione. Così, ad esempio, per misurare la depressione, noi valutiamo l'inibizione psicomotoria, la perdita di interessi, l'insonnia, le idee di colpa, l'ideazione suicidaria, eccetera. Quando, per misurare la gravità dell'entità morbosa in esame, sommiamo i punteggi dei singoli item è come se volessimo ridurre lo spazio multidimensionale individuato dalle singole componenti ad una retta; questo comporta una perdita di informazione tanto maggiore quanto più numerose sono le componenti in cui abbiamo scomposto il fenomeno e quanto minore è la correlazione tra di esse. Se, ad esempio, il fenomeno clinico A fosse scomposto in due soli item che esplorano le componenti B e C, che empiricamente abbiamo osservato presentarsi generalmente correlate tra loro, potremmo rappresentare A come un piano cartesiano delimitato dagli assi B e C; il singolo soggetto (a) sarebbe così individuato, rispetto al fenomeno A, dal punto in cui si incrociano i valori di B e di C (Fig. 3.1). I soggetti di un campione (a1, a2, a3...an) si distribuiranno nel piano A lungo un asse obliquo: la dispersione attorno a questo asse sarà tanto minore quanto maggiore è la correlazione tra B e C e la perdita di informazione è direttamente proporzionale all'entità della dispersione.

Nella realtà, noi generalmente scomponiamo un fenomeno psicomorboso in numerose componenti; ognuna di queste, nella correlazione con ciascuna delle altre, individua una serie di piani intersecantisi tra di loro. Una valutazione di gravità secondo un unico asse presupporrebbe una così stretta correlazione tra le diverse componenti che i punteggi finirebbero per disporsi su di un ellissoide molto affusolato ad n dimensioni (dove n corrisponde al numero delle componenti). Questa condizione (peraltro già riduttiva) raramente si verifica ed allora, nella pratica, si ricorre, mediante tecniche statistiche (di solito di tipo fattoriale), all'identificazione di un asse più significativo; questo comporta una più o meno marcata perdita di informazione, al punto che il fattore che misuriamo può, in certi casi, avere scarsa correlazione con la realtà clinica.

Fig. 3.1 - Rappresentazione del concetto di misurazione di una ipotetica entità clinica (A) attraverso la valutazione delle sue due componenti (B e C).

La mancanza di conoscenze intrinseche sul come e sul perché i singoli aspetti di un quadro psicopatologico sono tra loro collegati rende impossibile stabilire se e come raggruppare i valori delle diverse componenti in un punteggio unico che abbia un reale significato clinico. Si potrebbe obiettare che un paziente con un punteggio di 30 alla HAM-D ha, con molta probabilità, una depressione più grave rispetto ad un altro con punteggio di 15, ma questo non ci indica che cosa rappresenta quel "più", se cioè sono più gravi i sintomi nucleari o se è maggiore la componente ansiosa o se hanno un peso rilevante i sintomi accessori (ossessivi, paranoidei, di depersonalizzazione, eccetera).

Il punteggio totale non appare quindi il modo migliore e più appropriato per la definizione della gravità del quadro psicopatologico; più appropriata ed accettabile appare invece la quantificazione mediante un profilo, ricorrendo eventualmente, dato il gran numero di item che spesso compongono le RS, alla riduzione del numero delle variabili mediante procedimenti matematici (fattori, componenti principali) o empirici (cluster).

> Lascia un commento   > Torna all'indice

Totale visualizzazioni: 14018