En aquesta entrada us expliquem què són les ponderacions que fem servir en algunes enquestes del CEO, per què són necessàries i com les calculem.

Per què cal ponderar les mostres?
Les ponderacions són una tècnica estadística que es fa servir per corregir les diferències que hi pugui haver entre les característiques d’una mostra i les de la població que volem estudiar. La mostra és el conjunt de persones que seleccionem per enquestar, mentre que la població és el grup de referència que estem investigant. És important tenir sempre en compte que, quan fem enquestes, estudiem una mostra però el que ens interessa conèixer, en realitat, és la població.
Si la mostra no té les mateixes característiques que la població (en variables rellevants per al que volem estudiar com el sexe, edat, el nivell d’estudis, etc.), diem que és una mostra no-representativa. I si treballem amb mostres no-representatives podem extreure conclusions errònies sobre la població. En aquest sentit, les ponderacions són una eina útil per corregir les diferències entre la mostra i la població.
Per entendre-ho millor, suposem que volem realitzar una enquesta sobre la intenció de vot per a les pròximes eleccions al Parlament de Catalunya. Si la nostra mostra està formada majoritàriament (o desproporcionadament) per persones d’edat avançada, o d’un mateix sector social, els resultats de l’enquesta seran, amb tota probabilitat, esbiaixats i no reflectiran la realitat de l’electorat català, que és la nostra població d’interès en les enquestes electorals. En casos com aquest, les ponderacions ens poden ajudar a compensar les diferències i obtenir resultats més ajustats a les característiques vertaderes de la població.
Hem de ponderar les mostres sempre que hi hagi diferències entre les característiques rellevants de la mostra i les de la població. Aquestes diferències es poden produir per dues raons, principalment. La primera és que el disseny mostral sobrerepresenti (expressament) determinats territoris o grups de població. Això pot ser necessari per poder fer anàlisis separades d’aquests grups o, de vegades, per raons logístiques. L’altra font potencial de diferències entre la mostra i la població no té a veure amb el disseny mostral sinó amb l’administració del qüestionari: si la no-resposta es concentra més en determinats col·lectius que en d’altres, aquests poden acabar infrarepresentats a la mostra.
No obstant això, és important destacar que les ponderacions no sempre són necessàries. Si el disseny mostral és equilibrat i no hi ha problemes especials de no-resposta, pot ser que ja hi hagi un ajust adequat entre la mostra i la població. De vegades, emprem quotes en el disseny mostral que prevenen aquestes desviacions, tot i que les quotes poden obrir la porta a altres tipus de problemes dels quals en parlarem en un altre moment.
Com es calculen les ponderacions?
La idea de les ponderacions és relativament senzilla d’entendre: a grans trets, es tracta de donar més pes a aquells perfils que estan infrarepresentats en la mostra, i donar-ne menys als que estan sobrerepresentats. Així, si tenim la meitat de persones d’un determinat territori de les que hauríem de tindre, doncs en els càlculs finals cadascuna d’aquestes persones hauria de comptar doble. I, per contra, si en tenim massa, els haurem de treure pes (multiplicar per un valor entre 0 i 1).
Per calcular les ponderacions, hem de seguir quatre passos:
1. El primer que cal fer és definir quina és la població d’estudi. Sovint al CEO estudiem les persones residents a Catalunya de 16 anys i més (que estan inscrites al padró), o en el cas dels estudis electorals, les persones amb ciutadania espanyola de 18 anys i més (persones que tenen dret a vot a les eleccions al Parlament).
2. En segona instància, cal triar les variables que emprarem per comparar la mostra amb la població i, si s’escau, calcular les ponderacions. Aquestes variables han de complir dues condicions: la primera és que han de ser importants pel que volem estudiar en l’enquesta. I la segona, i imprescindible, és que les dades poblacionals han d’estar disponibles.
Les principals fonts de dades poblacionals provenen d’operacions d’estadística oficial realitzades per l’Institut d’Estadística de Catalunya (IDESCAT) o, en alguns casos, l’Institut Nacional d’Estadística espanyol (INE) o Eurostat. En general, es pondera per dades sociodemogràfiques (el sexe, l’edat, el nivell d’estudis, la llengua primera, la similitud electoral, etc.) però això dependrà de l’objectiu principal de l’estudi.
Aquestes dades han de ser properes en el temps a l’enquesta i han de ser de màxima qualitat. És important remarcar que si les dades de referència no estan ben recollides, fer-les servir per calcular ponderacions pot induir-nos a resultats incorrectes.
3. En tercer lloc, cal decidir quin tipus de distribució de cada variable farem servir. Es pot utilitzar la distribució marginal (distribució de cada variable per separat) o una distribució conjunta en la qual es té en compte com les variables es relacionen entre si, en cas que l’estadística oficial ens permeti conèixer la distribució conjunta. Si es considera que dues variables tenen relació entre elles, és millor treballar amb la distribució conjunta per tal de no perdre informació i obtenir resultats més precisos i fiables.
4. Finalment, en funció del nombre i tipus de distribució de les variables, cal triar el mètode que farem servir per calcular les ponderacions. No hi entrarem a fons, però en aquesta entrada del blog del Pew Research Institute expliquen, de manera didàctica, els principals mètodes de ponderació.
En el cas del CEO emprem, generalment, el mètode de l’ajustament iteratiu proporcional, més conegut com a raking (rastellatge). El raking és el mètode de ponderació més habitual en enquestes d’opinió pública, i està implementat a la funció rake del paquet d’R survey. El raking és un mètode popular perquè ens permet ponderar per diverses variables alhora, i no requereix, necessàriament, que en coneguem la distribució conjunta, el podem fer servir només amb les distribucions marginals.
El funcionament del raking és relativament senzill d’entendre: donem a l’algoritme les distribucions poblacionals de les variables que volem emprar per ponderar. Per exemple, edat, nivell d’estudis i lloc de naixement. L’algoritme calcula els pesos per ajustar la mostra a la distribució poblacional d’edats. Un cop fet això, compara la mostra ponderada amb la distribució poblacional d’estudis, i recalcula els pesos per ajustar al nivell d’estudis, i després fa el mateix amb el lloc de naixement. Amb aquests pesos, torna a comparar la distribució d’edats de la mostra amb la de la població, i si els pesos d’estudis i lloc de naixement l’han desajustat, els arregla per quadrar la distribució d’edats. L’algoritme va repetint aquesta operació de manera iterativa fins que els pesos deixen de canviar.
De vegades, si hi ha un grup molt infrarepresentat o molt sobrerepresentat a la mostra, l’algoritme pot donar a determinats individus uns pesos molt petits o molt elevats. Això pot ser problemàtic perquè si donem un pes molt gran (o molt petit) a uns pocs individus, les característiques singulars d’aquestes persones ens poden afectar molt els resultats. Per això és habitual delimitar el valor màxim i el mínim dels pesos. Al CEO retallem els pesos amb la funció trimWeights del paquet survey, que ens permet evitar una influència excessiva dels valors extrems. Per retallar els pesos, trimWeights força que la suma dels pesos sigui igual a la mida de la mostra que s’està ponderant. Per complir aquesta restricció, els pesos més petits es fan grans, i els pesos més grans es redueixen. El resultat d’aquesta operació és un equilibri, o compromís, entre l’ajustament de la mostra i la prevenció d’una influència excessiva de determinats casos.
En resum
Amb tot això, cal insistir que les ponderacions són una eina important en les enquestes d’opinió pública per garantir que els resultats reflecteixin la realitat de la població. Sovint resulta imprescindible utilitzar-les, i ens ajuden a compensar possibles diferències entre la mostra i la població. En tot cas, la decisió de si cal emprar ponderacions i quines cal prendre-la en funció del disseny mostral, de la mostra finalment obtinguda, de l’objectiu de l’estudi i de la informació poblacional disponible.
Finalment, cal dir que des del CEO apostem per la transparència en tot el procés de realització de les enquestes, des del mostreig fins a la publicació de les dades. I això inclou, també, el càlcul de les ponderacions. Per això al repositori del GitHub hi ha disponible el codi que s’usa per calcular les ponderacions en cada estudi que publiquem, així com les dades poblacionals utilitzades.