Les ponderacions al CEO

En aquesta entrada us expliquem què són les ponderacions que fem servir en algunes enquestes del CEO, per què són necessàries i com les calculem.

Per què cal ponderar les mostres?

Les ponderacions són una tècnica estadística que es fa servir per corregir les diferències que hi pugui haver entre les característiques d’una mostra i les de la població que volem estudiar. La mostra és el conjunt de persones que seleccionem per enquestar, mentre que la població és el grup de referència que estem investigant. És important tenir sempre en compte que, quan fem enquestes, estudiem una mostra però el que ens interessa conèixer, en realitat, és la població.

Si la mostra no té les mateixes característiques que la població (en variables rellevants per al que volem estudiar com el sexe, edat, el nivell d’estudis, etc.), diem que és una mostra no-representativa. I si treballem amb mostres no-representatives podem extreure conclusions errònies sobre la població. En aquest sentit, les ponderacions són una eina útil per corregir les diferències entre la mostra i la població.

Per entendre-ho millor, suposem que volem realitzar una enquesta sobre la intenció de vot per a les pròximes eleccions al Parlament de Catalunya. Si la nostra mostra està formada majoritàriament (o desproporcionadament) per persones d’edat avançada, o d’un mateix sector social, els resultats de l’enquesta seran, amb tota probabilitat, esbiaixats i no reflectiran la realitat de l’electorat català, que és la nostra població d’interès en les enquestes electorals. En casos com aquest, les ponderacions ens poden ajudar a compensar les diferències i obtenir resultats més ajustats a les característiques vertaderes de la població.

Hem de ponderar les mostres sempre que hi hagi diferències entre les característiques rellevants de la mostra i les de la població. Aquestes diferències es poden produir per dues raons, principalment. La primera és que el disseny mostral sobrerepresenti (expressament) determinats territoris o grups de població. Això pot ser necessari per poder fer anàlisis separades d’aquests grups o, de vegades, per raons logístiques. L’altra font potencial de diferències entre la mostra i la població no té a veure amb el disseny mostral sinó amb l’administració del qüestionari: si la no-resposta es concentra més en determinats col·lectius que en d’altres, aquests poden acabar infrarepresentats a la mostra.

No obstant això, és important destacar que les ponderacions no sempre són necessàries. Si el disseny mostral és equilibrat i no hi ha problemes especials de no-resposta, pot ser que ja hi hagi un ajust adequat entre la mostra i la població. De vegades, emprem quotes en el disseny mostral que prevenen aquestes desviacions, tot i que les quotes poden obrir la porta a altres tipus de problemes dels quals en parlarem en un altre moment.

Com es calculen les ponderacions?

La idea de les ponderacions és relativament senzilla d’entendre: a grans trets, es tracta de donar més pes a aquells perfils que estan infrarepresentats en la mostra, i donar-ne menys als que estan sobrerepresentats. Així, si tenim la meitat de persones d’un determinat territori de les que hauríem de tindre, doncs en els càlculs finals cadascuna d’aquestes persones hauria de comptar doble. I, per contra, si en tenim massa, els haurem de treure pes (multiplicar per un valor entre 0 i 1).

Per calcular les ponderacions, hem de seguir quatre passos:

1. El primer que cal fer és definir quina és la població d’estudi. Sovint al CEO estudiem les persones residents a Catalunya de 16 anys i més (que estan inscrites al padró), o en el cas dels estudis electorals, les persones amb ciutadania espanyola de 18 anys i més (persones que tenen dret a vot a les eleccions al Parlament).

    2. En segona instància, cal triar les variables que emprarem per comparar la mostra amb la població i, si s’escau, calcular les ponderacions. Aquestes variables han de complir dues condicions: la primera és que han de ser importants pel que volem estudiar en l’enquesta. I la segona, i imprescindible, és que les dades poblacionals han d’estar disponibles.

    Les principals fonts de dades poblacionals provenen d’operacions d’estadística oficial realitzades per l’Institut d’Estadística de Catalunya (IDESCAT) o, en alguns casos, l’Institut Nacional d’Estadística espanyol (INE) o Eurostat. En general, es pondera per dades sociodemogràfiques (el sexe, l’edat, el nivell d’estudis, la llengua primera, la similitud electoral, etc.) però això dependrà de l’objectiu principal de l’estudi.

    Aquestes dades han de ser properes en el temps a l’enquesta i han de ser de màxima qualitat. És important remarcar que si les dades de referència no estan ben recollides, fer-les servir per calcular ponderacions pot induir-nos a resultats incorrectes.

    3. En tercer lloc, cal decidir quin tipus de distribució de cada variable farem servir. Es pot utilitzar la distribució marginal (distribució de cada variable per separat) o una distribució conjunta en la qual es té en compte com les variables es relacionen entre si, en cas que l’estadística oficial ens permeti conèixer la distribució conjunta. Si es considera que dues variables tenen relació entre elles, és millor treballar amb la distribució conjunta per tal de no perdre informació i obtenir resultats més precisos i fiables.

    4. Finalment, en funció del nombre i tipus de distribució de les variables, cal triar el mètode que farem servir per calcular les ponderacions. No hi entrarem a fons, però en aquesta entrada del blog del Pew Research Institute expliquen, de manera didàctica, els principals mètodes de ponderació.

    En el cas del CEO emprem, generalment, el mètode de l’ajustament iteratiu proporcional, més conegut com a raking (rastellatge). El raking és el mètode de ponderació més habitual en enquestes d’opinió pública, i està implementat a la funció rake del paquet d’R survey. El raking és un mètode popular perquè ens permet ponderar per diverses variables alhora, i no requereix, necessàriament, que en coneguem la distribució conjunta, el podem fer servir només amb les distribucions marginals.

    El funcionament del raking és relativament senzill d’entendre: donem a l’algoritme les distribucions poblacionals de les variables que volem emprar per ponderar. Per exemple, edat, nivell d’estudis i lloc de naixement. L’algoritme calcula els pesos per ajustar la mostra a la distribució poblacional d’edats. Un cop fet això, compara la mostra ponderada amb la distribució poblacional d’estudis, i recalcula els pesos per ajustar al nivell d’estudis, i després fa el mateix amb el lloc de naixement. Amb aquests pesos, torna a comparar la distribució d’edats de la mostra amb la de la població, i si els pesos d’estudis i lloc de naixement l’han desajustat, els arregla per quadrar la distribució d’edats. L’algoritme va repetint aquesta operació de manera iterativa fins que els pesos deixen de canviar.

    De vegades, si hi ha un grup molt infrarepresentat o molt sobrerepresentat a la mostra, l’algoritme pot donar a determinats individus uns pesos molt petits o molt elevats. Això pot ser problemàtic perquè si donem un pes molt gran (o molt petit) a uns pocs individus, les característiques singulars d’aquestes persones ens poden afectar molt els resultats. Per això és habitual delimitar el valor màxim i el mínim dels pesos. Al CEO retallem els pesos amb la funció trimWeights  del paquet survey, que ens permet evitar una influència excessiva dels valors extrems. Per retallar els pesos, trimWeights força que la suma dels pesos sigui igual a la mida de la mostra que s’està ponderant. Per complir aquesta restricció, els pesos més petits es fan grans, i els pesos més grans es redueixen. El resultat d’aquesta operació és un equilibri, o compromís, entre l’ajustament de la mostra i la prevenció d’una influència excessiva de determinats casos.

    En resum

    Amb tot això, cal insistir que les ponderacions són una eina important en les enquestes d’opinió pública per garantir que els resultats reflecteixin la realitat de la població. Sovint resulta imprescindible utilitzar-les, i ens ajuden a compensar possibles diferències entre la mostra i la població. En tot cas, la decisió de si cal emprar ponderacions i quines cal prendre-la en funció del disseny mostral, de la mostra finalment obtinguda, de l’objectiu de l’estudi i de la informació poblacional disponible.

    Finalment, cal dir que des del CEO apostem per la transparència en tot el procés de realització de les enquestes, des del mostreig fins a la publicació de les dades. I això inclou, també, el càlcul de les ponderacions. Per això al repositori del GitHub hi ha disponible el codi que s’usa per calcular les ponderacions en cada estudi que publiquem, així com les dades poblacionals utilitzades.

    El record de vot

    Gràfica decorativa

    És relativament freqüent que hi hagi qui es fixi en la correspondència, o falta de correspondència, entre el record de vot de les enquestes i els resultats reals de les darreres eleccions. És lògic que sigui així: qui no s’hi dedica professionalment pot sorprendre’s si en una enquesta hi ha més o menys persones que declaren haver votat una opció de les que ho va haver en realitat. Hom podria pensar que la mostra no ha estat ben seleccionada, o que aquests desajusts invaliden, d’alguna manera, les conclusions que puguem treure de l’enquesta pel que fa a la intenció de vot.  

    Tanmateix, aquests desajusts són molt freqüents i ben coneguts per qui treballa amb enquestes. Se n’han estudiat molt les causes, les conseqüències i les possibles estratègies per mitigar-les. De fet, només cal fer una cerca per constatar que hi ha molta recerca sobre el tema. Recentment, el CSIC ha publicat un llibre de Jaime Balaguer sobre la qüestió. 

    En aquest post intentarem explicar de manera clara: 1/ per què observem aquestes desviacions entre el record de vot recollit a les enquestes i el vot real a les eleccions anteriors; 2/ com intentem minimitzar-les al CEO i, sobretot; 3/ com les corregim perquè no afectin les nostres estimacions de resultats. 

    Per què el record de vot de l’enquesta no coincideix sempre amb els resultats electorals? 

    Quan elaborem les mostres per les nostres enquestes, intentem assegurar al màxim la representativitat de les mateixes. Per fer-ho, emprem la selecció aleatòria de punts de mostreig i de rutes, i també quotes de sexe, edat i lloc de naixement. En un altre post explicarem els detalls d’aquesta selecció, i els indicadors de qualitat que fem servir per avaluar les nostres mostres. Tot i això ens trobem sovint amb discrepàncies entre el record de vot i els resultats de les eleccions anteriors. Per què es donen? Bàsicament, hi ha tres explicacions principals:  

    1. La no-resposta 

    La primera té a veure amb la no-resposta a les enquestes. Quan contactem les persones seleccionades per participar, n’hi ha moltes que opten per no respondre. Bé perquè no tenen temps o disponibilitat, o bé, simplement, perquè no volen. I en tenen tot el dret, no cal dir-ho. De fet, la llei del CEO estableix clarament que, a diferència de l’estadística oficial (que és de declaració obligatòria), la resposta a les nostres enquestes és voluntària. És per això, que els enquestadors sempre informen tothom del caràcter voluntari de les enquestes. El problema pel record de vot apareix quan el perfil de les persones que no responen a l’enquesta és diferent al de les persones que sí que responen. Si els votants d’un determinat partit tenen més tendència a rebutjar ser enquestats, això provocarà una distorsió en els resultats del record de vot. 

    2. Memòria i projecció 

    Però més enllà de la no-resposta, hi ha altres raons per la discrepància. El record de vot no és una variable fàcil de mesurar. Quan demanem a la gent què va votar fa un any, o dos, sovint no ho recorda. Especialment la gent que no està gaire interessada en política, i la que canvia de partit, tendeix a no recordar amb precisió què va votar en cada elecció concreta.  

    Aquests buits de memòria fan que hi hagi un percentatge de gent que ens indica que no sap què va votar o que no respon la pregunta. Però també hi ha gent que “omple” aquests buits de memòria amb el que es coneix com a biaix de projecció: algunes persones ens indiquen que van votar, en el passat, l’opció que votarien ara si hi hagués eleccions. Per això, sovint solem veure com, quan un partit creix en intenció de vot, també ho fa “màgicament” en record de vot. És habitual que els partits que estan al govern aglutinin més record de vot que els de l’oposició (per l’efecte conegut com a “cavall guanyador”). I, fins i tot, hem vist com quan apareixien nous partits, hi havia votants que “recordaven” haver-los votat abans que existissin! 

    En general, com més temps fa d’unes eleccions, més distorsions trobarem en el record de vot. I, com més moviment hi hagi en l’escenari polític, també trobarem més discrepàncies entre el que ens diuen els enquestats que van fer en el passat i els resultats reals.. 

    3. L’ocultació de l’abstenció 

    La qüestió de l’abstenció mereix un comentari a banda perquè sol ser la principal font de discrepàncies entre el record de vot de les enquestes i els resultats reals. Hi ha la idea, socialment força estesa, que votar no és només un dret sinó també un deure de ciutadania. Per això, una part de les persones que es van abstenir acostumen a contestar que sí van votar: prefereixen mentir que reconèixer el seu comportament abstencionista. És el que coneixem com a biaix de desitjabilitat social. Les enquestes sempre infraestimen l’abstenció. I, aquests abstencionistes que ens diuen que van votar, generalment indiquen que van votar l’opció que haurien triat si haguessin votat. 

    Per tant, la combinació de la no-resposta a l’enquesta, la no-resposta a la pregunta del record de vot (el “NS/NC”) i els problemes de memòria i/o projecció són els responsables de les discrepàncies que hi sol haver entre el record de vot a les enquestes i els resultats reals. 

    Com intentem minimitzar les discrepàncies? 

    El record de vot no és una variable que puguem emprar com a criteri de selecció de les persones a entrevistar, ja que, com és obvi, no la coneixem amb anterioritat. A més, preguntem pel que recorda haver votat al final de l’enquesta, atès que hi ha força evidència que resulta més fàcil per als enquestats respondre preguntes de l’àmbit “privat” quan ja fa una estona que interactuen amb els enquestadors i enquestadores.  

    Per tant, no podem dissenyar mostres que ajustin el record de vot de manera automàtica amb quotes com sí que ho fem amb altres variables més fàcils d’observar i mesurar, com el sexe o l’edat. 

    El que fem és emprar estratègies indirectes per intentar reduir les discrepàncies. D’una banda, quan dissenyem les mostres, ens assegurem que els resultats electorals les seccions censals on farem les enquestes s’ajustin als que hi va haver a les darreres eleccions de tal manera que no hi hagi, a priori, cap biaix en la selecció inicial de les persones enquestades. 

    Formulació de les preguntes

    D’una altra banda, també hem introduït diverses millores en la forma de fer la pregunta. Primer, afegim context a la formulació pregunta per ajudar els enquestats a fer memòria: els recordem, per exemple, que ens referim a les eleccions de 2021 que es van celebrar enmig de la pandèmia i separem el record d’haver votat o no del record de quina opció es va votar. La formulació emprada en el darrer Baròmetre de 2022 va ser aquesta:  

    – Per acabar, parlem de les darreres eleccions al Parlament de Catalunya que es van celebrar fa una mica més d’un any, enmig de la pandèmia, el 14 de febrer de 2021.   

    – Quan hi ha eleccions hi ha moltes persones que no poden votar per qualsevol motiu o que prefereixen no fer-ho. Vostè, en aquelles eleccions…   

    – I em podria dir a quin partit o coalició va votar en les darreres eleccions al Parlament de Catalunya, que es van celebrar fa una mica més d’un any, enmig de la pandèmia? 

    Administració 

    Finalment, des de fa dues onades també hem optat per fer que les preguntes sobre record i intenció de vot al Baròmetre, entre d’altres, siguin autoadministrades: en lloc de preguntar-les de viva veu, els enquestadors donen la tauleta a les persones enquestades perquè les responguin en privat. Tenim evidència, com comentarem en una altra publicació, que aquesta estratègia afavoreix la sinceritat en les respostes. 

    Com corregim les discrepàncies perquè no afectin les nostres estimacions? 

    Tot i aquestes estratègies, seguim trobant diferències entre el record de vot expressat a l’enquesta i els resultats reals. Això passa sempre i, en funció del context polític, les diferències van en una direcció o una altra. Per tant, si volem elaborar estimacions de resultats electorals, hem de tenir en compte aquestes discrepàncies. Especialment les que provenen de la no-resposta a l’enquesta, i a la pregunta.  

    En els nostres models d’estimació electoral, que explicarem en una altra publicació però que podeu trobar ben detallats en aquest document, fem dues coses per a corregir-les. La primera és mirar d’estimar, amb un model predictiu, el comportament que van tenir en el passat les persones que ens diuen que no recorden què van votar, o que no responen la pregunta. Això ho fem mitjançant models d’aprenentatge automàtic, que utilitzen les respostes a les altres preguntes de l’enquesta per mirar de “predir” el comportament passat. Això ens permet imputar el comportament més probable a les persones que no responen. 

    Ponderació 

    L’altra estratègia, i principal, és la ponderació per record de vot. No és una estratègia exempta de riscos, però en els casos en què hi ha discrepàncies importants, resulta imprescindible per a elaborar estimacions electorals creïbles. Bàsicament, el que fem és donar més pes en les nostres estimacions a aquells enquestats que van votar opcions infrarepresentades a l’enquesta, i treure pes a aquelles que pertanyen a grups sobrerepresentats.  

    D’aquesta manera, la mostra sobre la que fem les estimacions està **totalment** ajustada en record de vot als resultats de les darreres eleccions. Aquesta correcció és fàcil de realitzar i ens permet treballar amb mostres ben ajustades. Nosaltres, per fer les ponderacions, emprem el record de vot juntament amb altres variables com la llengua, per evitar que la ponderació desajusti la mostra en altres aspectes. A la taula, hi podeu veure la comparació entre el resultat de les eleccions de 2021, el record de vot en brut i el record de vot ponderat, que és el que emprem per fer les estimacions. De fet, aquesta correcció és el que explica, en bona mesura, les diferències entre la intenció directa de vot i l’estimació, que sempre publiquem als informes de resultats. 

     Eleccions 2021 Record directe 2022 Record ponderat 2022 
    Abstenció CER + Blanc + Nul 48,74 34,2 48,7 
    PSC-PSOE 11,64 13,85 11,6 
    ERC 10,77 20,69 10,8 
    JUNTS 10,14 10,12 10,2 
    VOX 3,88 2,04 3,9 
    ECP 3,47 6,61 3,5 
    CUP 3,38 5,2 3,4 
    Altres 3,21 2,88 3,2 
    CS 2,82 2,37 2,8 
    PP 1,95 2,04 1,9 

    Amb aquesta ponderació si hi ha algun risc és el de “sobrecorregir” les discrepàncies. D’alguna manera, estem assumint que les respostes que ens donen els enquestats són fidedignes i corregim la sobrerepresentació o infrarepresentació de determinats col·lectius. No és la solució òptima. Idealment, voldríem poder preguntar a la gent el record de vot immediatament després de les eleccions i conservar aquesta informació per al futur, com explica aquesta publicació de l’empresa Yougov. Però això, de moment, al CEO no ho podem fer perquè no tenim un panel que segueixi les mateixes persones al llarg del temps. 

    En resum: les discrepàncies en record de vot són habituals, i ben conegudes. Tot i que les intentem minimitzar amb la manera de fer l’enquesta, quan apareixen tenim estratègies per corregir-les i poder fer estimacions que ho tinguin en compte. Per tant, podem dir que les discrepàncies en el record de vot no afecten els resultats de les nostres estimacions.