Les ponderacions al CEO

En aquesta entrada us expliquem què són les ponderacions que fem servir en algunes enquestes del CEO, per què són necessàries i com les calculem.

Per què cal ponderar les mostres?

Les ponderacions són una tècnica estadística que es fa servir per corregir les diferències que hi pugui haver entre les característiques d’una mostra i les de la població que volem estudiar. La mostra és el conjunt de persones que seleccionem per enquestar, mentre que la població és el grup de referència que estem investigant. És important tenir sempre en compte que, quan fem enquestes, estudiem una mostra però el que ens interessa conèixer, en realitat, és la població.

Si la mostra no té les mateixes característiques que la població (en variables rellevants per al que volem estudiar com el sexe, edat, el nivell d’estudis, etc.), diem que és una mostra no-representativa. I si treballem amb mostres no-representatives podem extreure conclusions errònies sobre la població. En aquest sentit, les ponderacions són una eina útil per corregir les diferències entre la mostra i la població.

Per entendre-ho millor, suposem que volem realitzar una enquesta sobre la intenció de vot per a les pròximes eleccions al Parlament de Catalunya. Si la nostra mostra està formada majoritàriament (o desproporcionadament) per persones d’edat avançada, o d’un mateix sector social, els resultats de l’enquesta seran, amb tota probabilitat, esbiaixats i no reflectiran la realitat de l’electorat català, que és la nostra població d’interès en les enquestes electorals. En casos com aquest, les ponderacions ens poden ajudar a compensar les diferències i obtenir resultats més ajustats a les característiques vertaderes de la població.

Hem de ponderar les mostres sempre que hi hagi diferències entre les característiques rellevants de la mostra i les de la població. Aquestes diferències es poden produir per dues raons, principalment. La primera és que el disseny mostral sobrerepresenti (expressament) determinats territoris o grups de població. Això pot ser necessari per poder fer anàlisis separades d’aquests grups o, de vegades, per raons logístiques. L’altra font potencial de diferències entre la mostra i la població no té a veure amb el disseny mostral sinó amb l’administració del qüestionari: si la no-resposta es concentra més en determinats col·lectius que en d’altres, aquests poden acabar infrarepresentats a la mostra.

No obstant això, és important destacar que les ponderacions no sempre són necessàries. Si el disseny mostral és equilibrat i no hi ha problemes especials de no-resposta, pot ser que ja hi hagi un ajust adequat entre la mostra i la població. De vegades, emprem quotes en el disseny mostral que prevenen aquestes desviacions, tot i que les quotes poden obrir la porta a altres tipus de problemes dels quals en parlarem en un altre moment.

Com es calculen les ponderacions?

La idea de les ponderacions és relativament senzilla d’entendre: a grans trets, es tracta de donar més pes a aquells perfils que estan infrarepresentats en la mostra, i donar-ne menys als que estan sobrerepresentats. Així, si tenim la meitat de persones d’un determinat territori de les que hauríem de tindre, doncs en els càlculs finals cadascuna d’aquestes persones hauria de comptar doble. I, per contra, si en tenim massa, els haurem de treure pes (multiplicar per un valor entre 0 i 1).

Per calcular les ponderacions, hem de seguir quatre passos:

1. El primer que cal fer és definir quina és la població d’estudi. Sovint al CEO estudiem les persones residents a Catalunya de 16 anys i més (que estan inscrites al padró), o en el cas dels estudis electorals, les persones amb ciutadania espanyola de 18 anys i més (persones que tenen dret a vot a les eleccions al Parlament).

    2. En segona instància, cal triar les variables que emprarem per comparar la mostra amb la població i, si s’escau, calcular les ponderacions. Aquestes variables han de complir dues condicions: la primera és que han de ser importants pel que volem estudiar en l’enquesta. I la segona, i imprescindible, és que les dades poblacionals han d’estar disponibles.

    Les principals fonts de dades poblacionals provenen d’operacions d’estadística oficial realitzades per l’Institut d’Estadística de Catalunya (IDESCAT) o, en alguns casos, l’Institut Nacional d’Estadística espanyol (INE) o Eurostat. En general, es pondera per dades sociodemogràfiques (el sexe, l’edat, el nivell d’estudis, la llengua primera, la similitud electoral, etc.) però això dependrà de l’objectiu principal de l’estudi.

    Aquestes dades han de ser properes en el temps a l’enquesta i han de ser de màxima qualitat. És important remarcar que si les dades de referència no estan ben recollides, fer-les servir per calcular ponderacions pot induir-nos a resultats incorrectes.

    3. En tercer lloc, cal decidir quin tipus de distribució de cada variable farem servir. Es pot utilitzar la distribució marginal (distribució de cada variable per separat) o una distribució conjunta en la qual es té en compte com les variables es relacionen entre si, en cas que l’estadística oficial ens permeti conèixer la distribució conjunta. Si es considera que dues variables tenen relació entre elles, és millor treballar amb la distribució conjunta per tal de no perdre informació i obtenir resultats més precisos i fiables.

    4. Finalment, en funció del nombre i tipus de distribució de les variables, cal triar el mètode que farem servir per calcular les ponderacions. No hi entrarem a fons, però en aquesta entrada del blog del Pew Research Institute expliquen, de manera didàctica, els principals mètodes de ponderació.

    En el cas del CEO emprem, generalment, el mètode de l’ajustament iteratiu proporcional, més conegut com a raking (rastellatge). El raking és el mètode de ponderació més habitual en enquestes d’opinió pública, i està implementat a la funció rake del paquet d’R survey. El raking és un mètode popular perquè ens permet ponderar per diverses variables alhora, i no requereix, necessàriament, que en coneguem la distribució conjunta, el podem fer servir només amb les distribucions marginals.

    El funcionament del raking és relativament senzill d’entendre: donem a l’algoritme les distribucions poblacionals de les variables que volem emprar per ponderar. Per exemple, edat, nivell d’estudis i lloc de naixement. L’algoritme calcula els pesos per ajustar la mostra a la distribució poblacional d’edats. Un cop fet això, compara la mostra ponderada amb la distribució poblacional d’estudis, i recalcula els pesos per ajustar al nivell d’estudis, i després fa el mateix amb el lloc de naixement. Amb aquests pesos, torna a comparar la distribució d’edats de la mostra amb la de la població, i si els pesos d’estudis i lloc de naixement l’han desajustat, els arregla per quadrar la distribució d’edats. L’algoritme va repetint aquesta operació de manera iterativa fins que els pesos deixen de canviar.

    De vegades, si hi ha un grup molt infrarepresentat o molt sobrerepresentat a la mostra, l’algoritme pot donar a determinats individus uns pesos molt petits o molt elevats. Això pot ser problemàtic perquè si donem un pes molt gran (o molt petit) a uns pocs individus, les característiques singulars d’aquestes persones ens poden afectar molt els resultats. Per això és habitual delimitar el valor màxim i el mínim dels pesos. Al CEO retallem els pesos amb la funció trimWeights  del paquet survey, que ens permet evitar una influència excessiva dels valors extrems. Per retallar els pesos, trimWeights força que la suma dels pesos sigui igual a la mida de la mostra que s’està ponderant. Per complir aquesta restricció, els pesos més petits es fan grans, i els pesos més grans es redueixen. El resultat d’aquesta operació és un equilibri, o compromís, entre l’ajustament de la mostra i la prevenció d’una influència excessiva de determinats casos.

    En resum

    Amb tot això, cal insistir que les ponderacions són una eina important en les enquestes d’opinió pública per garantir que els resultats reflecteixin la realitat de la població. Sovint resulta imprescindible utilitzar-les, i ens ajuden a compensar possibles diferències entre la mostra i la població. En tot cas, la decisió de si cal emprar ponderacions i quines cal prendre-la en funció del disseny mostral, de la mostra finalment obtinguda, de l’objectiu de l’estudi i de la informació poblacional disponible.

    Finalment, cal dir que des del CEO apostem per la transparència en tot el procés de realització de les enquestes, des del mostreig fins a la publicació de les dades. I això inclou, també, el càlcul de les ponderacions. Per això al repositori del GitHub hi ha disponible el codi que s’usa per calcular les ponderacions en cada estudi que publiquem, així com les dades poblacionals utilitzades.

    Forquilles i decimals

    Si seguiu les nostres enquestes, potser haureu notat que, des de fa un any, el CEO presenta els resultats sense decimals (quan es tracta de percentatges) o amb un sol decimal (quan es tracta de mitjanes).

    I, segurament, us haureu fixat que, quan presentem estimacions electorals, tant d’intenció de vot com d’escons, emprem unes forquilles més àmplies de les habituals. De fet, moltes cases d’enquestes i mitjans de comunicació opten per no donar forquilles i presentar un valor concret, de vegades, fins i tot, amb diversos decimals en la intenció de vot.

    Nosaltres, al CEO, defugim conscientment aquesta pràctica perquè pensem que és la nostra responsabilitat ser transparents amb la incertesa que tenen les nostres estimacions, i evitar donar una imatge de falsa precisió que pot ser enganyosa. 

    Imatge decorativa

    Mostres i incertesa estadística

    Quan fem una enquesta, com és lògic, treballem amb una petita mostra de la població atès que no podem entrevistar tota la població d’interès. En el cas dels nostres baròmetres, la mostra és de 2000 persones al conjunt de Catalunya.

    A partir de l’anàlisi d’aquesta mostra, mirem de treure conclusions sobre el conjunt de l’electorat català. És el que coneixem com a inferència estadística. El fet que haguem emprat procediments aleatoris per seleccionar la mostra ens permet treure’n conclusions respecte el conjunt de la població d’interès. Però aquestes conclusions són, necessàriament, incertes i imprecises.

    Per fer un paral·lelisme, el fet de treballar amb una mostra és semblant a fer una fotografia de baixa resolució d’un paisatge. Ens permet fer-nos una idea general, però no ens podem acostar prou als petits detalls. Amb les enquestes passa una cosa semblant. Totes les estimacions basades en mostres porten associat un marge d’error, que és una estimació de la incertesa estadística associada a les nostres dades.

    La majoria de les enquestes van acompanyades d’una fitxa tècnica que informa, entre d’altres coses, del marge d’error amb què treballen. En una altra entrada explicarem amb més detall què és i com es calcula aquest marge d’error. Generalment, el marge d’error que es publica acostuma a ser el que tindria una variable amb màxima variació, en un mostreig aleatori simple. Però, per cada estimació que fem amb les nostres dades, podem tenir una mesura específica de la incertesa del paràmetre que ens interessa.

    En tot cas, aquest marge d’error ens dona una idea general de la incertesa que acompanya les nostres estimacions. Quan estimem uns percentatges d’intenció de vot, hi hem d’incorporar aquesta incertesa. No fer-ho implica donar una imatge de falsa precisió. Per comunicar la incertesa, nosaltres optem per presentar el que es coneix com a “intervals de confiança”, que són les forquilles entre les quals podem dir, amb un nivell de confiança raonable (generalment, el 95%), que es troba la dada que volem mesurar.

    El repartiment d’escons

    En el cas dels càlculs d’escons, la qüestió de la incertesa és encara una mica més complicada perquè, a més de la incertesa associada a l’estimació de vot, cal tenir en compte els efectes del sistema electoral.

    Primer, cal que tinguem present que els escons es reparteixen en cada circumscripció. Això fa que haguem d’estimar la intenció de vot en cada província, a partir de les dades del conjunt de Catalunya.

    I, segon, per traduir la intenció de vot en una estimació d’escons cal emprar la regla d’Hondt, que és la que es fa servir a les eleccions. Tanmateix, l’aplicació d’aquesta regla sovint fa que alguns escons s’assignin per pocs vots de diferència. Per això, nosaltres el que fem és el següent: emprant l’estimació d’intenció de vot -i la seva incertesa associada-, simulem uns quants milers de vegades el repartiment d’escons en cada circumscripció. De totes aquestes simulacions, que varien una mica entre elles, en descartem el 5% més baix i el 5% més alt per cada partit, i presentem la forquilla de les que queden. D’aquesta manera, excloem els casos més extrems que es podrien donar, i ens quedem amb els que són més probables.

    El resultat de tot això són forquilles de resultats una mica més àmplies del que són habituals. Entenem que pot ser una mica decebedor per qui està acostumat a “prediccions” més precises. Tot i això, des del nostre punt de vista, és més transparent i honest fer-ho d’aquesta manera perquè les enquestes són útils per veure les tendències generals però, com sabem, no tenen prou precisió per fer estimacions tan detallades com les que es presenten de vegades. De fet, considerem que fer veure que tenim un nivell de precisió superior al que realment tenim amb les nostres mostres és una mala praxi en la comunicació de les dades, i per això, des d’un centre públic com el CEO, en volem defugir.