Les ponderacions al CEO

En aquesta entrada us expliquem què són les ponderacions que fem servir en algunes enquestes del CEO, per què són necessàries i com les calculem.

Per què cal ponderar les mostres?

Les ponderacions són una tècnica estadística que es fa servir per corregir les diferències que hi pugui haver entre les característiques d’una mostra i les de la població que volem estudiar. La mostra és el conjunt de persones que seleccionem per enquestar, mentre que la població és el grup de referència que estem investigant. És important tenir sempre en compte que, quan fem enquestes, estudiem una mostra però el que ens interessa conèixer, en realitat, és la població.

Si la mostra no té les mateixes característiques que la població (en variables rellevants per al que volem estudiar com el sexe, edat, el nivell d’estudis, etc.), diem que és una mostra no-representativa. I si treballem amb mostres no-representatives podem extreure conclusions errònies sobre la població. En aquest sentit, les ponderacions són una eina útil per corregir les diferències entre la mostra i la població.

Per entendre-ho millor, suposem que volem realitzar una enquesta sobre la intenció de vot per a les pròximes eleccions al Parlament de Catalunya. Si la nostra mostra està formada majoritàriament (o desproporcionadament) per persones d’edat avançada, o d’un mateix sector social, els resultats de l’enquesta seran, amb tota probabilitat, esbiaixats i no reflectiran la realitat de l’electorat català, que és la nostra població d’interès en les enquestes electorals. En casos com aquest, les ponderacions ens poden ajudar a compensar les diferències i obtenir resultats més ajustats a les característiques vertaderes de la població.

Hem de ponderar les mostres sempre que hi hagi diferències entre les característiques rellevants de la mostra i les de la població. Aquestes diferències es poden produir per dues raons, principalment. La primera és que el disseny mostral sobrerepresenti (expressament) determinats territoris o grups de població. Això pot ser necessari per poder fer anàlisis separades d’aquests grups o, de vegades, per raons logístiques. L’altra font potencial de diferències entre la mostra i la població no té a veure amb el disseny mostral sinó amb l’administració del qüestionari: si la no-resposta es concentra més en determinats col·lectius que en d’altres, aquests poden acabar infrarepresentats a la mostra.

No obstant això, és important destacar que les ponderacions no sempre són necessàries. Si el disseny mostral és equilibrat i no hi ha problemes especials de no-resposta, pot ser que ja hi hagi un ajust adequat entre la mostra i la població. De vegades, emprem quotes en el disseny mostral que prevenen aquestes desviacions, tot i que les quotes poden obrir la porta a altres tipus de problemes dels quals en parlarem en un altre moment.

Com es calculen les ponderacions?

La idea de les ponderacions és relativament senzilla d’entendre: a grans trets, es tracta de donar més pes a aquells perfils que estan infrarepresentats en la mostra, i donar-ne menys als que estan sobrerepresentats. Així, si tenim la meitat de persones d’un determinat territori de les que hauríem de tindre, doncs en els càlculs finals cadascuna d’aquestes persones hauria de comptar doble. I, per contra, si en tenim massa, els haurem de treure pes (multiplicar per un valor entre 0 i 1).

Per calcular les ponderacions, hem de seguir quatre passos:

1. El primer que cal fer és definir quina és la població d’estudi. Sovint al CEO estudiem les persones residents a Catalunya de 16 anys i més (que estan inscrites al padró), o en el cas dels estudis electorals, les persones amb ciutadania espanyola de 18 anys i més (persones que tenen dret a vot a les eleccions al Parlament).

    2. En segona instància, cal triar les variables que emprarem per comparar la mostra amb la població i, si s’escau, calcular les ponderacions. Aquestes variables han de complir dues condicions: la primera és que han de ser importants pel que volem estudiar en l’enquesta. I la segona, i imprescindible, és que les dades poblacionals han d’estar disponibles.

    Les principals fonts de dades poblacionals provenen d’operacions d’estadística oficial realitzades per l’Institut d’Estadística de Catalunya (IDESCAT) o, en alguns casos, l’Institut Nacional d’Estadística espanyol (INE) o Eurostat. En general, es pondera per dades sociodemogràfiques (el sexe, l’edat, el nivell d’estudis, la llengua primera, la similitud electoral, etc.) però això dependrà de l’objectiu principal de l’estudi.

    Aquestes dades han de ser properes en el temps a l’enquesta i han de ser de màxima qualitat. És important remarcar que si les dades de referència no estan ben recollides, fer-les servir per calcular ponderacions pot induir-nos a resultats incorrectes.

    3. En tercer lloc, cal decidir quin tipus de distribució de cada variable farem servir. Es pot utilitzar la distribució marginal (distribució de cada variable per separat) o una distribució conjunta en la qual es té en compte com les variables es relacionen entre si, en cas que l’estadística oficial ens permeti conèixer la distribució conjunta. Si es considera que dues variables tenen relació entre elles, és millor treballar amb la distribució conjunta per tal de no perdre informació i obtenir resultats més precisos i fiables.

    4. Finalment, en funció del nombre i tipus de distribució de les variables, cal triar el mètode que farem servir per calcular les ponderacions. No hi entrarem a fons, però en aquesta entrada del blog del Pew Research Institute expliquen, de manera didàctica, els principals mètodes de ponderació.

    En el cas del CEO emprem, generalment, el mètode de l’ajustament iteratiu proporcional, més conegut com a raking (rastellatge). El raking és el mètode de ponderació més habitual en enquestes d’opinió pública, i està implementat a la funció rake del paquet d’R survey. El raking és un mètode popular perquè ens permet ponderar per diverses variables alhora, i no requereix, necessàriament, que en coneguem la distribució conjunta, el podem fer servir només amb les distribucions marginals.

    El funcionament del raking és relativament senzill d’entendre: donem a l’algoritme les distribucions poblacionals de les variables que volem emprar per ponderar. Per exemple, edat, nivell d’estudis i lloc de naixement. L’algoritme calcula els pesos per ajustar la mostra a la distribució poblacional d’edats. Un cop fet això, compara la mostra ponderada amb la distribució poblacional d’estudis, i recalcula els pesos per ajustar al nivell d’estudis, i després fa el mateix amb el lloc de naixement. Amb aquests pesos, torna a comparar la distribució d’edats de la mostra amb la de la població, i si els pesos d’estudis i lloc de naixement l’han desajustat, els arregla per quadrar la distribució d’edats. L’algoritme va repetint aquesta operació de manera iterativa fins que els pesos deixen de canviar.

    De vegades, si hi ha un grup molt infrarepresentat o molt sobrerepresentat a la mostra, l’algoritme pot donar a determinats individus uns pesos molt petits o molt elevats. Això pot ser problemàtic perquè si donem un pes molt gran (o molt petit) a uns pocs individus, les característiques singulars d’aquestes persones ens poden afectar molt els resultats. Per això és habitual delimitar el valor màxim i el mínim dels pesos. Al CEO retallem els pesos amb la funció trimWeights  del paquet survey, que ens permet evitar una influència excessiva dels valors extrems. Per retallar els pesos, trimWeights força que la suma dels pesos sigui igual a la mida de la mostra que s’està ponderant. Per complir aquesta restricció, els pesos més petits es fan grans, i els pesos més grans es redueixen. El resultat d’aquesta operació és un equilibri, o compromís, entre l’ajustament de la mostra i la prevenció d’una influència excessiva de determinats casos.

    En resum

    Amb tot això, cal insistir que les ponderacions són una eina important en les enquestes d’opinió pública per garantir que els resultats reflecteixin la realitat de la població. Sovint resulta imprescindible utilitzar-les, i ens ajuden a compensar possibles diferències entre la mostra i la població. En tot cas, la decisió de si cal emprar ponderacions i quines cal prendre-la en funció del disseny mostral, de la mostra finalment obtinguda, de l’objectiu de l’estudi i de la informació poblacional disponible.

    Finalment, cal dir que des del CEO apostem per la transparència en tot el procés de realització de les enquestes, des del mostreig fins a la publicació de les dades. I això inclou, també, el càlcul de les ponderacions. Per això al repositori del GitHub hi ha disponible el codi que s’usa per calcular les ponderacions en cada estudi que publiquem, així com les dades poblacionals utilitzades.

    Forquilles i decimals

    Si seguiu les nostres enquestes, potser haureu notat que, des de fa un any, el CEO presenta els resultats sense decimals (quan es tracta de percentatges) o amb un sol decimal (quan es tracta de mitjanes).

    I, segurament, us haureu fixat que, quan presentem estimacions electorals, tant d’intenció de vot com d’escons, emprem unes forquilles més àmplies de les habituals. De fet, moltes cases d’enquestes i mitjans de comunicació opten per no donar forquilles i presentar un valor concret, de vegades, fins i tot, amb diversos decimals en la intenció de vot.

    Nosaltres, al CEO, defugim conscientment aquesta pràctica perquè pensem que és la nostra responsabilitat ser transparents amb la incertesa que tenen les nostres estimacions, i evitar donar una imatge de falsa precisió que pot ser enganyosa. 

    Imatge decorativa

    Mostres i incertesa estadística

    Quan fem una enquesta, com és lògic, treballem amb una petita mostra de la població atès que no podem entrevistar tota la població d’interès. En el cas dels nostres baròmetres, la mostra és de 2000 persones al conjunt de Catalunya.

    A partir de l’anàlisi d’aquesta mostra, mirem de treure conclusions sobre el conjunt de l’electorat català. És el que coneixem com a inferència estadística. El fet que haguem emprat procediments aleatoris per seleccionar la mostra ens permet treure’n conclusions respecte el conjunt de la població d’interès. Però aquestes conclusions són, necessàriament, incertes i imprecises.

    Per fer un paral·lelisme, el fet de treballar amb una mostra és semblant a fer una fotografia de baixa resolució d’un paisatge. Ens permet fer-nos una idea general, però no ens podem acostar prou als petits detalls. Amb les enquestes passa una cosa semblant. Totes les estimacions basades en mostres porten associat un marge d’error, que és una estimació de la incertesa estadística associada a les nostres dades.

    La majoria de les enquestes van acompanyades d’una fitxa tècnica que informa, entre d’altres coses, del marge d’error amb què treballen. En una altra entrada explicarem amb més detall què és i com es calcula aquest marge d’error. Generalment, el marge d’error que es publica acostuma a ser el que tindria una variable amb màxima variació, en un mostreig aleatori simple. Però, per cada estimació que fem amb les nostres dades, podem tenir una mesura específica de la incertesa del paràmetre que ens interessa.

    En tot cas, aquest marge d’error ens dona una idea general de la incertesa que acompanya les nostres estimacions. Quan estimem uns percentatges d’intenció de vot, hi hem d’incorporar aquesta incertesa. No fer-ho implica donar una imatge de falsa precisió. Per comunicar la incertesa, nosaltres optem per presentar el que es coneix com a “intervals de confiança”, que són les forquilles entre les quals podem dir, amb un nivell de confiança raonable (generalment, el 95%), que es troba la dada que volem mesurar.

    El repartiment d’escons

    En el cas dels càlculs d’escons, la qüestió de la incertesa és encara una mica més complicada perquè, a més de la incertesa associada a l’estimació de vot, cal tenir en compte els efectes del sistema electoral.

    Primer, cal que tinguem present que els escons es reparteixen en cada circumscripció. Això fa que haguem d’estimar la intenció de vot en cada província, a partir de les dades del conjunt de Catalunya.

    I, segon, per traduir la intenció de vot en una estimació d’escons cal emprar la regla d’Hondt, que és la que es fa servir a les eleccions. Tanmateix, l’aplicació d’aquesta regla sovint fa que alguns escons s’assignin per pocs vots de diferència. Per això, nosaltres el que fem és el següent: emprant l’estimació d’intenció de vot -i la seva incertesa associada-, simulem uns quants milers de vegades el repartiment d’escons en cada circumscripció. De totes aquestes simulacions, que varien una mica entre elles, en descartem el 5% més baix i el 5% més alt per cada partit, i presentem la forquilla de les que queden. D’aquesta manera, excloem els casos més extrems que es podrien donar, i ens quedem amb els que són més probables.

    El resultat de tot això són forquilles de resultats una mica més àmplies del que són habituals. Entenem que pot ser una mica decebedor per qui està acostumat a “prediccions” més precises. Tot i això, des del nostre punt de vista, és més transparent i honest fer-ho d’aquesta manera perquè les enquestes són útils per veure les tendències generals però, com sabem, no tenen prou precisió per fer estimacions tan detallades com les que es presenten de vegades. De fet, considerem que fer veure que tenim un nivell de precisió superior al que realment tenim amb les nostres mostres és una mala praxi en la comunicació de les dades, i per això, des d’un centre públic com el CEO, en volem defugir.

    Les mostres del CEO

    Com triem les persones que enquestem en les enquestes presencials?

    Quan fem enquestes presencials, els enquestadors que contractem van a visitar persones a les seves llars per fer-los l’enquesta. El procediment de selecció de les llars que visitem és fonamental per obtenir una mostra representativa de la població catalana. Per això, hi posem molta cura. En aquesta entrada del blog descriurem de manera detallada i accessible el procés que seguim al CEO per seleccionar aquestes mostres.

    Selecció dels punts de mostreig

    El primer que hem de fer és seleccionar els punts de mostreig: és a dir, els llocs de Catalunya als quals enviarem les persones enquestadores a picar a les portes. Per raons de cost, no podem enviar persones a 2.000 punts diferents del país a fer-hi una enquesta i, per això, seleccionem (aproximadament) uns 200 punts de mostreig on s’hi realitzaran unes 10 enquestes. Això permet aprofitar els viatges i les jornades de treball de les persones enquestadores.

    Aquests 200 punts de mostreig són seccions censals, que és la unitat de territori més petita sobre la que tenim informació. Corresponen, generalment, a una o dues meses electorals. A Catalunya, hi ha unes 5084 seccions censals. Per triar-ne 200 fem servir un procediment aleatori (de sorteig), però amb alguna particularitat.

    La primera és que dividim les seccions en sis grups (o clústers) de seccions que són semblants entre elles des del punt de vista electoral. Tenim seccions més abstencionistes i menys, amb més vot a partits independentistes i menys, etc. Aquests sis grups de seccions els construïm a partir dels resultats de les darreres eleccions al Parlament, emprant l’algoritme k-means per fer els clústers.

    Calculem quina proporció de l’electorat viu a cadascun d’aquests sis grups i determinem, proporcionalment, quantes seccions de cada grup hem de triar. Un cop hem fet això, les seleccionem aleatòriament dins de cada grup, però ho fem de manera proporcional a la mida de la secció: com que hi ha seccions més poblades i d’altres menys, i el que volem és representar la població, fem el sorteig de tal manera que la probabilitat que tenen les seccions de ser escollides és proporcional a la població.

    Aquest procediment, el qual és aleatori i automàtic, ens permet generar moltes mostres diferents. Per triar-ne una, les comparem amb els resultats de les darreres eleccions (totes s’hi ajusten molt bé) però també amb altres característiques sociodemogràfiques del país, com l’estructura d’edat, origen de la població, etc. Finalment, tenim en compte també criteris logístics i de cost: la quantitat de municipis a visitar, els kilòmetres que cal fer i el temps de desplaçament. Emprant tots aquests criteris, seleccionem una mostra de seccions censals que lliurarem a l’empresa.

    Finalment, també escollim les seccions substitutes, les quals s’utilitzaran en cas que en la secció escollida no es puguin completar les 10 enquestes. El criteri per escollir les substitutes és la proximitat geogràfica (prioritzem les seccions adjacents) i la similitud sociopolítica. Cal remarcar que la gran majoria d’enquestes es realitzen dins de les seccions.

    És important mencionar que tot aquest procediment de selecció de mostra és totalment automàtic i públic: al nostre repositori de Github hi publiquem el codi detallat que fem servir per seleccionar punts de mostreig.

    Selecció de persones

    Dins de cada secció censal, cal seleccionar les (aproximadament) 10 persones a entrevistar. Això ho fan les persones enquestadores sobre el terreny, emprant rutes aleatòries dins la secció. Es seleccionen les llars, a les quals es demana col·laboració, de manera aleatòria.

    Per acabar, triem els individus a enquestar en funció de quotes creuades de sexe, edat i lloc de naixement. Aquestes quotes ens permeten garantir que mostra sigui equilibrada amb la població en aquestes tres variables.

    Resultats

    Tot aquest procediment de mostreig acaba generant mostres de persones que volen representar el conjunt de la societat catalana. Per avaluar la representativitat d’una mostra, el que podem fer és comparar les seves característiques amb les de la població de referència en aquelles variables que ens siguin conegudes. Aquest exercici el fem amb cada enquesta, i l’incorporem als informes de resultats. Per exemple, en el darrer baròmetre de 2022, vam obtenir aquests resultats, pel que fa al nivell d’estudis i la llengua. Com es pot veure, les nostres dades no es desvien significativament dels valors poblacionals en aquestes dues variables.

    Evidentment, la representativitat de les mostres és una qüestió complexa, i pot estar amenaçada per diversos factors que estan fora del nostre control. Un de fonamental és la no-resposta a les enquestes: les persones que decideixen no col·laborar amb nosaltres poden tenir un perfil diferent de les que sí que ho fan, i això, lògicament, pot afectar els resultats. Quan tenim la informació necessària, podem corregir les distorsions mitjançant l’ús de les ponderacions. Però això ho explicarem amb detall en una altra entrada.

    El record de vot

    Gràfica decorativa

    És relativament freqüent que hi hagi qui es fixi en la correspondència, o falta de correspondència, entre el record de vot de les enquestes i els resultats reals de les darreres eleccions. És lògic que sigui així: qui no s’hi dedica professionalment pot sorprendre’s si en una enquesta hi ha més o menys persones que declaren haver votat una opció de les que ho va haver en realitat. Hom podria pensar que la mostra no ha estat ben seleccionada, o que aquests desajusts invaliden, d’alguna manera, les conclusions que puguem treure de l’enquesta pel que fa a la intenció de vot.  

    Tanmateix, aquests desajusts són molt freqüents i ben coneguts per qui treballa amb enquestes. Se n’han estudiat molt les causes, les conseqüències i les possibles estratègies per mitigar-les. De fet, només cal fer una cerca per constatar que hi ha molta recerca sobre el tema. Recentment, el CSIC ha publicat un llibre de Jaime Balaguer sobre la qüestió. 

    En aquest post intentarem explicar de manera clara: 1/ per què observem aquestes desviacions entre el record de vot recollit a les enquestes i el vot real a les eleccions anteriors; 2/ com intentem minimitzar-les al CEO i, sobretot; 3/ com les corregim perquè no afectin les nostres estimacions de resultats. 

    Per què el record de vot de l’enquesta no coincideix sempre amb els resultats electorals? 

    Quan elaborem les mostres per les nostres enquestes, intentem assegurar al màxim la representativitat de les mateixes. Per fer-ho, emprem la selecció aleatòria de punts de mostreig i de rutes, i també quotes de sexe, edat i lloc de naixement. En un altre post explicarem els detalls d’aquesta selecció, i els indicadors de qualitat que fem servir per avaluar les nostres mostres. Tot i això ens trobem sovint amb discrepàncies entre el record de vot i els resultats de les eleccions anteriors. Per què es donen? Bàsicament, hi ha tres explicacions principals:  

    1. La no-resposta 

    La primera té a veure amb la no-resposta a les enquestes. Quan contactem les persones seleccionades per participar, n’hi ha moltes que opten per no respondre. Bé perquè no tenen temps o disponibilitat, o bé, simplement, perquè no volen. I en tenen tot el dret, no cal dir-ho. De fet, la llei del CEO estableix clarament que, a diferència de l’estadística oficial (que és de declaració obligatòria), la resposta a les nostres enquestes és voluntària. És per això, que els enquestadors sempre informen tothom del caràcter voluntari de les enquestes. El problema pel record de vot apareix quan el perfil de les persones que no responen a l’enquesta és diferent al de les persones que sí que responen. Si els votants d’un determinat partit tenen més tendència a rebutjar ser enquestats, això provocarà una distorsió en els resultats del record de vot. 

    2. Memòria i projecció 

    Però més enllà de la no-resposta, hi ha altres raons per la discrepància. El record de vot no és una variable fàcil de mesurar. Quan demanem a la gent què va votar fa un any, o dos, sovint no ho recorda. Especialment la gent que no està gaire interessada en política, i la que canvia de partit, tendeix a no recordar amb precisió què va votar en cada elecció concreta.  

    Aquests buits de memòria fan que hi hagi un percentatge de gent que ens indica que no sap què va votar o que no respon la pregunta. Però també hi ha gent que “omple” aquests buits de memòria amb el que es coneix com a biaix de projecció: algunes persones ens indiquen que van votar, en el passat, l’opció que votarien ara si hi hagués eleccions. Per això, sovint solem veure com, quan un partit creix en intenció de vot, també ho fa “màgicament” en record de vot. És habitual que els partits que estan al govern aglutinin més record de vot que els de l’oposició (per l’efecte conegut com a “cavall guanyador”). I, fins i tot, hem vist com quan apareixien nous partits, hi havia votants que “recordaven” haver-los votat abans que existissin! 

    En general, com més temps fa d’unes eleccions, més distorsions trobarem en el record de vot. I, com més moviment hi hagi en l’escenari polític, també trobarem més discrepàncies entre el que ens diuen els enquestats que van fer en el passat i els resultats reals.. 

    3. L’ocultació de l’abstenció 

    La qüestió de l’abstenció mereix un comentari a banda perquè sol ser la principal font de discrepàncies entre el record de vot de les enquestes i els resultats reals. Hi ha la idea, socialment força estesa, que votar no és només un dret sinó també un deure de ciutadania. Per això, una part de les persones que es van abstenir acostumen a contestar que sí van votar: prefereixen mentir que reconèixer el seu comportament abstencionista. És el que coneixem com a biaix de desitjabilitat social. Les enquestes sempre infraestimen l’abstenció. I, aquests abstencionistes que ens diuen que van votar, generalment indiquen que van votar l’opció que haurien triat si haguessin votat. 

    Per tant, la combinació de la no-resposta a l’enquesta, la no-resposta a la pregunta del record de vot (el “NS/NC”) i els problemes de memòria i/o projecció són els responsables de les discrepàncies que hi sol haver entre el record de vot a les enquestes i els resultats reals. 

    Com intentem minimitzar les discrepàncies? 

    El record de vot no és una variable que puguem emprar com a criteri de selecció de les persones a entrevistar, ja que, com és obvi, no la coneixem amb anterioritat. A més, preguntem pel que recorda haver votat al final de l’enquesta, atès que hi ha força evidència que resulta més fàcil per als enquestats respondre preguntes de l’àmbit “privat” quan ja fa una estona que interactuen amb els enquestadors i enquestadores.  

    Per tant, no podem dissenyar mostres que ajustin el record de vot de manera automàtica amb quotes com sí que ho fem amb altres variables més fàcils d’observar i mesurar, com el sexe o l’edat. 

    El que fem és emprar estratègies indirectes per intentar reduir les discrepàncies. D’una banda, quan dissenyem les mostres, ens assegurem que els resultats electorals les seccions censals on farem les enquestes s’ajustin als que hi va haver a les darreres eleccions de tal manera que no hi hagi, a priori, cap biaix en la selecció inicial de les persones enquestades. 

    Formulació de les preguntes

    D’una altra banda, també hem introduït diverses millores en la forma de fer la pregunta. Primer, afegim context a la formulació pregunta per ajudar els enquestats a fer memòria: els recordem, per exemple, que ens referim a les eleccions de 2021 que es van celebrar enmig de la pandèmia i separem el record d’haver votat o no del record de quina opció es va votar. La formulació emprada en el darrer Baròmetre de 2022 va ser aquesta:  

    – Per acabar, parlem de les darreres eleccions al Parlament de Catalunya que es van celebrar fa una mica més d’un any, enmig de la pandèmia, el 14 de febrer de 2021.   

    – Quan hi ha eleccions hi ha moltes persones que no poden votar per qualsevol motiu o que prefereixen no fer-ho. Vostè, en aquelles eleccions…   

    – I em podria dir a quin partit o coalició va votar en les darreres eleccions al Parlament de Catalunya, que es van celebrar fa una mica més d’un any, enmig de la pandèmia? 

    Administració 

    Finalment, des de fa dues onades també hem optat per fer que les preguntes sobre record i intenció de vot al Baròmetre, entre d’altres, siguin autoadministrades: en lloc de preguntar-les de viva veu, els enquestadors donen la tauleta a les persones enquestades perquè les responguin en privat. Tenim evidència, com comentarem en una altra publicació, que aquesta estratègia afavoreix la sinceritat en les respostes. 

    Com corregim les discrepàncies perquè no afectin les nostres estimacions? 

    Tot i aquestes estratègies, seguim trobant diferències entre el record de vot expressat a l’enquesta i els resultats reals. Això passa sempre i, en funció del context polític, les diferències van en una direcció o una altra. Per tant, si volem elaborar estimacions de resultats electorals, hem de tenir en compte aquestes discrepàncies. Especialment les que provenen de la no-resposta a l’enquesta, i a la pregunta.  

    En els nostres models d’estimació electoral, que explicarem en una altra publicació però que podeu trobar ben detallats en aquest document, fem dues coses per a corregir-les. La primera és mirar d’estimar, amb un model predictiu, el comportament que van tenir en el passat les persones que ens diuen que no recorden què van votar, o que no responen la pregunta. Això ho fem mitjançant models d’aprenentatge automàtic, que utilitzen les respostes a les altres preguntes de l’enquesta per mirar de “predir” el comportament passat. Això ens permet imputar el comportament més probable a les persones que no responen. 

    Ponderació 

    L’altra estratègia, i principal, és la ponderació per record de vot. No és una estratègia exempta de riscos, però en els casos en què hi ha discrepàncies importants, resulta imprescindible per a elaborar estimacions electorals creïbles. Bàsicament, el que fem és donar més pes en les nostres estimacions a aquells enquestats que van votar opcions infrarepresentades a l’enquesta, i treure pes a aquelles que pertanyen a grups sobrerepresentats.  

    D’aquesta manera, la mostra sobre la que fem les estimacions està **totalment** ajustada en record de vot als resultats de les darreres eleccions. Aquesta correcció és fàcil de realitzar i ens permet treballar amb mostres ben ajustades. Nosaltres, per fer les ponderacions, emprem el record de vot juntament amb altres variables com la llengua, per evitar que la ponderació desajusti la mostra en altres aspectes. A la taula, hi podeu veure la comparació entre el resultat de les eleccions de 2021, el record de vot en brut i el record de vot ponderat, que és el que emprem per fer les estimacions. De fet, aquesta correcció és el que explica, en bona mesura, les diferències entre la intenció directa de vot i l’estimació, que sempre publiquem als informes de resultats. 

     Eleccions 2021 Record directe 2022 Record ponderat 2022 
    Abstenció CER + Blanc + Nul 48,74 34,2 48,7 
    PSC-PSOE 11,64 13,85 11,6 
    ERC 10,77 20,69 10,8 
    JUNTS 10,14 10,12 10,2 
    VOX 3,88 2,04 3,9 
    ECP 3,47 6,61 3,5 
    CUP 3,38 5,2 3,4 
    Altres 3,21 2,88 3,2 
    CS 2,82 2,37 2,8 
    PP 1,95 2,04 1,9 

    Amb aquesta ponderació si hi ha algun risc és el de “sobrecorregir” les discrepàncies. D’alguna manera, estem assumint que les respostes que ens donen els enquestats són fidedignes i corregim la sobrerepresentació o infrarepresentació de determinats col·lectius. No és la solució òptima. Idealment, voldríem poder preguntar a la gent el record de vot immediatament després de les eleccions i conservar aquesta informació per al futur, com explica aquesta publicació de l’empresa Yougov. Però això, de moment, al CEO no ho podem fer perquè no tenim un panel que segueixi les mateixes persones al llarg del temps. 

    En resum: les discrepàncies en record de vot són habituals, i ben conegudes. Tot i que les intentem minimitzar amb la manera de fer l’enquesta, quan apareixen tenim estratègies per corregir-les i poder fer estimacions que ho tinguin en compte. Per tant, podem dir que les discrepàncies en el record de vot no afecten els resultats de les nostres estimacions.