Experiments Conjoint en les enquestes del CEO

Durant l’Enquesta Sociopolítica de 2022, el CEO va realitzar un experiment denominat Conjoint que consistia en l’elecció de parelles per a una hipotètica adopció, havent de comparar diferents característiques. En aquest article, explicarem en què consisteixen aquests tipus d’experiments i els resultats del realitzat en la nostra enquesta.

Què és un experiment Conjoint?

El terme, que prové originalment de la psicologia matemàtica, fa referència a aquells experiments que mesuren les preferències dels enquestats a partir d’una avaluació i comparació de perfils segons diferents característiques, les quals s’aleatoritzen i presenten en una taula. Aquest mètode de recerca permet estudiar tòpics amb un alt risc de desitjabilitat social, és a dir, que les persones responguin segons el que creuen que la societat opinaria de la seva resposta i no segons el que realment pensen. Es presenten als enquestats diferents característiques de dos o més perfils simultàniament, per tal que no sentin que els enquestadors busquen conduir la seva opinió a un lloc específic.

Experiment sobre l’adopció

En el cas de l’experiment realitzat pel CEO, aquest es basava en l’adopció i amb una hipòtesi, registrada a l’EGAP, que buscava estudiar si existeix homofòbia amagada en la societat catalana. Tenint en compte l’objecte d’estudi, es va considerar aquest mètode experimental el més apropiat a l’ésser un tòpic sensible i en sofrir el risc de desitjabilitat social, com succeeix en el cas de les hipòtesi de discriminació a minories. A causa de la necessitat d’aleatoritzar les característiques de les parelles a comparar, l’experiment es va realitzar només a les persones que van respondre l’enquesta Sociopolítica en línia i no a través del qüestionari en paper. La pregunta es presentava a les persones enquestades amb una taula similar a la següent en la qual s’incloïen les diferents característiques:

CaracterístiquesParella 1Parella 2
Noms  
Tipus de parella  
Edat  
Nivell educatiu  
Valors familiars  
Raó per a adoptar  
  • Noms: representaven l’orientació sexual de les parelles en variar aleatòriament entre parelles heterosexuals i homosexuals (d’homes i dones)
  • Tipus de parella: podia ser oberta, que pot tenir relacions sexuals amb altres persones, o tancada, que té relacions sexuals només amb la seva parella.
  • Edat: variava aleatòriament entre parelles de menor o major edat, i amb menor o major diferència entre els membres.
  • Nivell educatiu: podien tenir estudis primaris, secundaris o universitaris.
  • Valors familiars: podien ser permissius o estrictes.
  • Raó per a adoptar: podia tractar-se d’una parella que no podia tenir fills biològicament o que podia però preferia adoptar.

Un cop feta la comparació, les persones enquestades podien triar entre una parella o l’altra segons les seves preferències, encara que la resposta no era obligatòria.

Resultats

Per representar els resultats s’utilitzen mitjanes marginals, que representen el resultat mitjà de cada característica (si s’ha triat la parella amb elles o no) en cadascuna de les seves aparicions, fent una mitjana d’entre la resta. És a dir, permet visualitzar en quina mesura les persones enquestades triaven parelles que incloïen les diferents característiques. Si la mitjana marginal és menor a 0.5, l’efecte d’aquesta característica en l’elecció de la parella és negatiu, i viceversa si és major a 0.5. Mentre més llunyana estigui la mitjana marginal del 0.5, major és l’efecte, sigui positiu o negatiu.

Així, per exemple, en el cas de l’orientació sexual dels membres de la parella, les persones enquestades preferien en major mesura parelles heterosexuals i, en menor mesura, parelles homosexuals d’homes. D’altra banda, l’efecte del tipus de relació és encara major: les parelles tancades són significativament més preferides que les parelles obertes.

La característica més important per a les persones enquestades a l’hora de triar una opció o l’altra és la raó per a adoptar. Les respostes es decanten principalment per les parelles que no poden tenir fills biològics en detriment de les quals sí que poden. També es pot observar una menor proporció de persones enquestades que prefereixen parelles amb major diferència d’edat, amb estudis primaris i amb valors familiars estrictes.

En resum

Com s’esmenta a l’inici, els experiments Conjoint són eines molt útils per les ciències socials a l’hora d’investigar temes sensibles o evitar opinions esbiaixades com a conseqüència de la desitjabilitat social en una simple pregunta, i és així com l’experiment sobre adopció realitzat en l’Enquesta Sociopolítica de 2022 permet observar actituds dins de la societat catalana que no s’havien pogut percebre en altres enquestes o no s’havien preguntat abans.

En el cas de la hipòtesi en la qual es va basar l’experiment per detectar homofòbia amagada en la societat catalana, la monografia del CEO Els valors dels catalans. Àmbits, perfils i perspectiva comparada (2021) remarcava una majoritària acceptació de l’adopció per part de parelles homosexuals, no obstant això, aquest experiment permet veure que els catalans es decanten per les parelles heterosexuals en detriment de les homosexuals per a adoptar. Així doncs, d’alguna manera es demostra la presència d’una certa homofòbia, la qual no es veu reflectida en preguntes tradicionals sobre el tòpic. D’aquesta manera, la utilització d’experiments Conjoint per a temes sensibles com l’adopció o la diversitat sexual permet observar resultats interessants que no s’observen en altres estudis.

També permet detectar prejudicis no mesurats anteriorment cap a les parelles obertes o les parelles amb major diferència d’edat, a més de preferències en l’adopció per parelles amb major nivell educatiu, valors familiars permissius i que no poden tenir fills de manera biològica. No obstant això, els resultats seran explotats en major mesura en el paper de treball d’Agustín Blanco i Alberto López: Not sota sexually modern after all: a Conjoint experiment on adoption candidates.

En conclusió, els experiments Conjoint obren un ventall de possibilitats per a la recerca en les ciències socials, podent mesurar actituds de la societat que no són fàcilment perceptibles en enquestes més tradicionals i, gràcies al canvi metodologia d’enquesta que està portant a terme el CEO amb el desenvolupament del Panel Ciutadà, es podran estudiar més aspectes interessants de la societat catalana.

Les ponderacions al CEO

En aquesta entrada us expliquem què són les ponderacions que fem servir en algunes enquestes del CEO, per què són necessàries i com les calculem.

Per què cal ponderar les mostres?

Les ponderacions són una tècnica estadística que es fa servir per corregir les diferències que hi pugui haver entre les característiques d’una mostra i les de la població que volem estudiar. La mostra és el conjunt de persones que seleccionem per enquestar, mentre que la població és el grup de referència que estem investigant. És important tenir sempre en compte que, quan fem enquestes, estudiem una mostra però el que ens interessa conèixer, en realitat, és la població.

Si la mostra no té les mateixes característiques que la població (en variables rellevants per al que volem estudiar com el sexe, edat, el nivell d’estudis, etc.), diem que és una mostra no-representativa. I si treballem amb mostres no-representatives podem extreure conclusions errònies sobre la població. En aquest sentit, les ponderacions són una eina útil per corregir les diferències entre la mostra i la població.

Per entendre-ho millor, suposem que volem realitzar una enquesta sobre la intenció de vot per a les pròximes eleccions al Parlament de Catalunya. Si la nostra mostra està formada majoritàriament (o desproporcionadament) per persones d’edat avançada, o d’un mateix sector social, els resultats de l’enquesta seran, amb tota probabilitat, esbiaixats i no reflectiran la realitat de l’electorat català, que és la nostra població d’interès en les enquestes electorals. En casos com aquest, les ponderacions ens poden ajudar a compensar les diferències i obtenir resultats més ajustats a les característiques vertaderes de la població.

Hem de ponderar les mostres sempre que hi hagi diferències entre les característiques rellevants de la mostra i les de la població. Aquestes diferències es poden produir per dues raons, principalment. La primera és que el disseny mostral sobrerepresenti (expressament) determinats territoris o grups de població. Això pot ser necessari per poder fer anàlisis separades d’aquests grups o, de vegades, per raons logístiques. L’altra font potencial de diferències entre la mostra i la població no té a veure amb el disseny mostral sinó amb l’administració del qüestionari: si la no-resposta es concentra més en determinats col·lectius que en d’altres, aquests poden acabar infrarepresentats a la mostra.

No obstant això, és important destacar que les ponderacions no sempre són necessàries. Si el disseny mostral és equilibrat i no hi ha problemes especials de no-resposta, pot ser que ja hi hagi un ajust adequat entre la mostra i la població. De vegades, emprem quotes en el disseny mostral que prevenen aquestes desviacions, tot i que les quotes poden obrir la porta a altres tipus de problemes dels quals en parlarem en un altre moment.

Com es calculen les ponderacions?

La idea de les ponderacions és relativament senzilla d’entendre: a grans trets, es tracta de donar més pes a aquells perfils que estan infrarepresentats en la mostra, i donar-ne menys als que estan sobrerepresentats. Així, si tenim la meitat de persones d’un determinat territori de les que hauríem de tindre, doncs en els càlculs finals cadascuna d’aquestes persones hauria de comptar doble. I, per contra, si en tenim massa, els haurem de treure pes (multiplicar per un valor entre 0 i 1).

Per calcular les ponderacions, hem de seguir quatre passos:

1. El primer que cal fer és definir quina és la població d’estudi. Sovint al CEO estudiem les persones residents a Catalunya de 16 anys i més (que estan inscrites al padró), o en el cas dels estudis electorals, les persones amb ciutadania espanyola de 18 anys i més (persones que tenen dret a vot a les eleccions al Parlament).

    2. En segona instància, cal triar les variables que emprarem per comparar la mostra amb la població i, si s’escau, calcular les ponderacions. Aquestes variables han de complir dues condicions: la primera és que han de ser importants pel que volem estudiar en l’enquesta. I la segona, i imprescindible, és que les dades poblacionals han d’estar disponibles.

    Les principals fonts de dades poblacionals provenen d’operacions d’estadística oficial realitzades per l’Institut d’Estadística de Catalunya (IDESCAT) o, en alguns casos, l’Institut Nacional d’Estadística espanyol (INE) o Eurostat. En general, es pondera per dades sociodemogràfiques (el sexe, l’edat, el nivell d’estudis, la llengua primera, la similitud electoral, etc.) però això dependrà de l’objectiu principal de l’estudi.

    Aquestes dades han de ser properes en el temps a l’enquesta i han de ser de màxima qualitat. És important remarcar que si les dades de referència no estan ben recollides, fer-les servir per calcular ponderacions pot induir-nos a resultats incorrectes.

    3. En tercer lloc, cal decidir quin tipus de distribució de cada variable farem servir. Es pot utilitzar la distribució marginal (distribució de cada variable per separat) o una distribució conjunta en la qual es té en compte com les variables es relacionen entre si, en cas que l’estadística oficial ens permeti conèixer la distribució conjunta. Si es considera que dues variables tenen relació entre elles, és millor treballar amb la distribució conjunta per tal de no perdre informació i obtenir resultats més precisos i fiables.

    4. Finalment, en funció del nombre i tipus de distribució de les variables, cal triar el mètode que farem servir per calcular les ponderacions. No hi entrarem a fons, però en aquesta entrada del blog del Pew Research Institute expliquen, de manera didàctica, els principals mètodes de ponderació.

    En el cas del CEO emprem, generalment, el mètode de l’ajustament iteratiu proporcional, més conegut com a raking (rastellatge). El raking és el mètode de ponderació més habitual en enquestes d’opinió pública, i està implementat a la funció rake del paquet d’R survey. El raking és un mètode popular perquè ens permet ponderar per diverses variables alhora, i no requereix, necessàriament, que en coneguem la distribució conjunta, el podem fer servir només amb les distribucions marginals.

    El funcionament del raking és relativament senzill d’entendre: donem a l’algoritme les distribucions poblacionals de les variables que volem emprar per ponderar. Per exemple, edat, nivell d’estudis i lloc de naixement. L’algoritme calcula els pesos per ajustar la mostra a la distribució poblacional d’edats. Un cop fet això, compara la mostra ponderada amb la distribució poblacional d’estudis, i recalcula els pesos per ajustar al nivell d’estudis, i després fa el mateix amb el lloc de naixement. Amb aquests pesos, torna a comparar la distribució d’edats de la mostra amb la de la població, i si els pesos d’estudis i lloc de naixement l’han desajustat, els arregla per quadrar la distribució d’edats. L’algoritme va repetint aquesta operació de manera iterativa fins que els pesos deixen de canviar.

    De vegades, si hi ha un grup molt infrarepresentat o molt sobrerepresentat a la mostra, l’algoritme pot donar a determinats individus uns pesos molt petits o molt elevats. Això pot ser problemàtic perquè si donem un pes molt gran (o molt petit) a uns pocs individus, les característiques singulars d’aquestes persones ens poden afectar molt els resultats. Per això és habitual delimitar el valor màxim i el mínim dels pesos. Al CEO retallem els pesos amb la funció trimWeights  del paquet survey, que ens permet evitar una influència excessiva dels valors extrems. Per retallar els pesos, trimWeights força que la suma dels pesos sigui igual a la mida de la mostra que s’està ponderant. Per complir aquesta restricció, els pesos més petits es fan grans, i els pesos més grans es redueixen. El resultat d’aquesta operació és un equilibri, o compromís, entre l’ajustament de la mostra i la prevenció d’una influència excessiva de determinats casos.

    En resum

    Amb tot això, cal insistir que les ponderacions són una eina important en les enquestes d’opinió pública per garantir que els resultats reflecteixin la realitat de la població. Sovint resulta imprescindible utilitzar-les, i ens ajuden a compensar possibles diferències entre la mostra i la població. En tot cas, la decisió de si cal emprar ponderacions i quines cal prendre-la en funció del disseny mostral, de la mostra finalment obtinguda, de l’objectiu de l’estudi i de la informació poblacional disponible.

    Finalment, cal dir que des del CEO apostem per la transparència en tot el procés de realització de les enquestes, des del mostreig fins a la publicació de les dades. I això inclou, també, el càlcul de les ponderacions. Per això al repositori del GitHub hi ha disponible el codi que s’usa per calcular les ponderacions en cada estudi que publiquem, així com les dades poblacionals utilitzades.

    Les noves enquestes del CEO

    imatge decorativa

    Al llarg del darrer any hem estat treballant en un canvi metodològic important al CEO: hem començat a treballar amb enquestes autoadministrades gestionades internament. Bàsicament, es tracta de convidar, per correu postal, a una mostra aleatòria de la població de Catalunya a respondre (en línia o en paper) a les nostres enquestes des de casa seva.

    De moment, aquestes enquestes conviuen amb les enquestes domiciliàries que el CEO ha fet habitualment en els darrers anys, però ens plantegem un procés progressiu de canvi metodològic. Es tracta d’una transició que es planteja en molts altres països. En alguns casos, la pandèmia va accelerar el canvi i en d’altres ja venia d’enrere. Al Regne Unit, el Centre for Social Survey Transformation treballa en aquests processos de transició, i l’American Association for Public Opinion Research ha publicat una guia detallada sobre aquestes transicions.

    Per la nostra banda, hem estudiat amb deteniment diverses experiències, com el Norwegian Citizen Panel, el Swedish Citizen Panel o la darrera onada de l’Enquesta Social Europea a Espanya.

    Entre el desembre de 2022 i el gener de 2023 vam realitzar la primera prova d’aquest  mètode. Concretament, vam fer el treball de camp de l’Enquesta sociopolítica. 2022 i de l’Enquesta de valoració del Govern i les polítiques públiques. 2022 emprant aquesta metodologia.

    En aquest apunt volem explicar amb detall com hem fet aquesta primera prova, així com les raons que ens han portat a fer-ho així. Actualment, estem treballant en una avaluació a fons d’aquesta prova, que realitzem juntament amb el RECSM de la Universitat Pompeu Fabra. Quan estigui enllestit l’informe, el publicarem al web del CEO i en parlarem en aquest blog.

    Com ho hem fet?


    Per començar el nostre projecte, hem establert un rigorós procés de selecció de persones que convidarem a respondre l’enquesta. Per fer-ho, treballem amb una extracció de dades del Registre de Població de Catalunya que ens facilita l’Institut d’Estadística de Catalunya (IDESCAT).

    Per tal de garantir la representativitat, la mostra s’extreu de forma aleatòria. Dit d’una altra manera: fem un “sorteig” entre totes les persones de 16 i més anys empadronades a Catalunya per triar les que convidarem a respondre. El mostreig que utilitzem és estratificat per la tipologia de seccions censals que emprem per les nostres mostres presencials, com expliquem aquí.

    Amb aquest procediment, han sigut seleccionades 40.000 persones residents a Catalunya de 16 anys o més per participar en el projecte. Aquestes 40.000 persones han rebut una carta física amb un enllaç i un codi QR des del qual han pogut accedir al qüestionari en línia, tot garantint l’accés de forma anònima i sense necessitat de descàrregues ni instal·lacions de cap tipus de programari. Això ha permès que hagin respost les preguntes de manera privada, tot garantint una major confidencialitat per a les persones participants.  

    Per augmentar la taxa de resposta, s’ha enviat una segona carta de recordatori per aquelles persones que encara no havien contestat l’enquesta, donant una nova oportunitat per participar en el projecte. Després d’un temps adequat, les persones que encara no havien contestat en línia han rebut una tercera carta amb el qüestionari imprès en paper, que han pogut retornar omplert al CEO amb el franqueig pagat. Aquesta opció és molt important, ja que permet que les persones que no se senten còmodes contestant en línia, o que no volen contestar les enquestes a través d’Internet, també puguin participar en l’enquesta. Al voltant d’una de cada cinc respostes que hem rebut ha sigut en paper.

    Els resultats

    Actualment estem en procés d’avaluació d’aquesta primera experiència amb aquesta metodologia. Tanmateix, podem dir ja que hem obtingut una taxa de resposta del voltant del 28% de les cartes enviades, amb un predomini de les respostes en línia (80%) però amb una important presència del paper també. Es tracta d’una taxa de resposta comparativament elevada.

    Pel que fa a la representativitat de la mostra obtinguda, observem un molt bon ajustament en variables com el sexe o l’edat, i algunes desviacions pel que fa al nivell d’estudis o al lloc de naixement. Tanmateix, el fet de treballar amb mostres grans ens permet utilitzar les ponderacions per corregir aquestes desviacions i obtenir una mostra final ponderada plenament representativa de la població pel que fa a aquestes variables.

    Per què hem fet aquest canvi?

    Com dèiem, el procés de transformació és comú en altres països. Els canvis socials, culturals i tecnològics ens empenyen en aquesta direcció. Per nosaltres, aquesta nova metodologia té quatre avantatges principals respecte les altres opcions, com la telefònica:


    1. Ens permet realitzar un procediment de mostreig nominal i aleatori. Podem conèixer perfectament la probabilitat de cada persona de ser inclosa a la mostra. 
    2. Representa un estalvi de costos unitaris important respecte a altres opcions com la presencial. Per tant, amb els mateixos recursos podem realitzar moltes més enquestes. Això ens ha de permetre fer més estudis, fer estudis més grans i estudiar subgrups de la població (territorials, generacionals, etc.).
    3. Podem internalitzar bona part de la recollida de dades, cosa que ens dona un control més gran sobre tot el procés, singularment sobre la programació dels qüestionaris (que realitzem mitjançant la plataforma Qualtrics).
    4. El fet de fer enquestes autoadministrades ens permet superar els biaixos que pot introduir la presència de persones en el moment de respondre, que són els coneguts efectes d’entrevistador.

    En properes entrades del blog anirem desgranant alguns elements addicionals d’aquest nou projecte i dels resultats que hem anat obtenint.

    Forquilles i decimals

    Si seguiu les nostres enquestes, potser haureu notat que, des de fa un any, el CEO presenta els resultats sense decimals (quan es tracta de percentatges) o amb un sol decimal (quan es tracta de mitjanes).

    I, segurament, us haureu fixat que, quan presentem estimacions electorals, tant d’intenció de vot com d’escons, emprem unes forquilles més àmplies de les habituals. De fet, moltes cases d’enquestes i mitjans de comunicació opten per no donar forquilles i presentar un valor concret, de vegades, fins i tot, amb diversos decimals en la intenció de vot.

    Nosaltres, al CEO, defugim conscientment aquesta pràctica perquè pensem que és la nostra responsabilitat ser transparents amb la incertesa que tenen les nostres estimacions, i evitar donar una imatge de falsa precisió que pot ser enganyosa. 

    Imatge decorativa

    Mostres i incertesa estadística

    Quan fem una enquesta, com és lògic, treballem amb una petita mostra de la població atès que no podem entrevistar tota la població d’interès. En el cas dels nostres baròmetres, la mostra és de 2000 persones al conjunt de Catalunya.

    A partir de l’anàlisi d’aquesta mostra, mirem de treure conclusions sobre el conjunt de l’electorat català. És el que coneixem com a inferència estadística. El fet que haguem emprat procediments aleatoris per seleccionar la mostra ens permet treure’n conclusions respecte el conjunt de la població d’interès. Però aquestes conclusions són, necessàriament, incertes i imprecises.

    Per fer un paral·lelisme, el fet de treballar amb una mostra és semblant a fer una fotografia de baixa resolució d’un paisatge. Ens permet fer-nos una idea general, però no ens podem acostar prou als petits detalls. Amb les enquestes passa una cosa semblant. Totes les estimacions basades en mostres porten associat un marge d’error, que és una estimació de la incertesa estadística associada a les nostres dades.

    La majoria de les enquestes van acompanyades d’una fitxa tècnica que informa, entre d’altres coses, del marge d’error amb què treballen. En una altra entrada explicarem amb més detall què és i com es calcula aquest marge d’error. Generalment, el marge d’error que es publica acostuma a ser el que tindria una variable amb màxima variació, en un mostreig aleatori simple. Però, per cada estimació que fem amb les nostres dades, podem tenir una mesura específica de la incertesa del paràmetre que ens interessa.

    En tot cas, aquest marge d’error ens dona una idea general de la incertesa que acompanya les nostres estimacions. Quan estimem uns percentatges d’intenció de vot, hi hem d’incorporar aquesta incertesa. No fer-ho implica donar una imatge de falsa precisió. Per comunicar la incertesa, nosaltres optem per presentar el que es coneix com a “intervals de confiança”, que són les forquilles entre les quals podem dir, amb un nivell de confiança raonable (generalment, el 95%), que es troba la dada que volem mesurar.

    El repartiment d’escons

    En el cas dels càlculs d’escons, la qüestió de la incertesa és encara una mica més complicada perquè, a més de la incertesa associada a l’estimació de vot, cal tenir en compte els efectes del sistema electoral.

    Primer, cal que tinguem present que els escons es reparteixen en cada circumscripció. Això fa que haguem d’estimar la intenció de vot en cada província, a partir de les dades del conjunt de Catalunya.

    I, segon, per traduir la intenció de vot en una estimació d’escons cal emprar la regla d’Hondt, que és la que es fa servir a les eleccions. Tanmateix, l’aplicació d’aquesta regla sovint fa que alguns escons s’assignin per pocs vots de diferència. Per això, nosaltres el que fem és el següent: emprant l’estimació d’intenció de vot -i la seva incertesa associada-, simulem uns quants milers de vegades el repartiment d’escons en cada circumscripció. De totes aquestes simulacions, que varien una mica entre elles, en descartem el 5% més baix i el 5% més alt per cada partit, i presentem la forquilla de les que queden. D’aquesta manera, excloem els casos més extrems que es podrien donar, i ens quedem amb els que són més probables.

    El resultat de tot això són forquilles de resultats una mica més àmplies del que són habituals. Entenem que pot ser una mica decebedor per qui està acostumat a “prediccions” més precises. Tot i això, des del nostre punt de vista, és més transparent i honest fer-ho d’aquesta manera perquè les enquestes són útils per veure les tendències generals però, com sabem, no tenen prou precisió per fer estimacions tan detallades com les que es presenten de vegades. De fet, considerem que fer veure que tenim un nivell de precisió superior al que realment tenim amb les nostres mostres és una mala praxi en la comunicació de les dades, i per això, des d’un centre públic com el CEO, en volem defugir.

    Les mostres del CEO

    Com triem les persones que enquestem en les enquestes presencials?

    Quan fem enquestes presencials, els enquestadors que contractem van a visitar persones a les seves llars per fer-los l’enquesta. El procediment de selecció de les llars que visitem és fonamental per obtenir una mostra representativa de la població catalana. Per això, hi posem molta cura. En aquesta entrada del blog descriurem de manera detallada i accessible el procés que seguim al CEO per seleccionar aquestes mostres.

    Selecció dels punts de mostreig

    El primer que hem de fer és seleccionar els punts de mostreig: és a dir, els llocs de Catalunya als quals enviarem les persones enquestadores a picar a les portes. Per raons de cost, no podem enviar persones a 2.000 punts diferents del país a fer-hi una enquesta i, per això, seleccionem (aproximadament) uns 200 punts de mostreig on s’hi realitzaran unes 10 enquestes. Això permet aprofitar els viatges i les jornades de treball de les persones enquestadores.

    Aquests 200 punts de mostreig són seccions censals, que és la unitat de territori més petita sobre la que tenim informació. Corresponen, generalment, a una o dues meses electorals. A Catalunya, hi ha unes 5084 seccions censals. Per triar-ne 200 fem servir un procediment aleatori (de sorteig), però amb alguna particularitat.

    La primera és que dividim les seccions en sis grups (o clústers) de seccions que són semblants entre elles des del punt de vista electoral. Tenim seccions més abstencionistes i menys, amb més vot a partits independentistes i menys, etc. Aquests sis grups de seccions els construïm a partir dels resultats de les darreres eleccions al Parlament, emprant l’algoritme k-means per fer els clústers.

    Calculem quina proporció de l’electorat viu a cadascun d’aquests sis grups i determinem, proporcionalment, quantes seccions de cada grup hem de triar. Un cop hem fet això, les seleccionem aleatòriament dins de cada grup, però ho fem de manera proporcional a la mida de la secció: com que hi ha seccions més poblades i d’altres menys, i el que volem és representar la població, fem el sorteig de tal manera que la probabilitat que tenen les seccions de ser escollides és proporcional a la població.

    Aquest procediment, el qual és aleatori i automàtic, ens permet generar moltes mostres diferents. Per triar-ne una, les comparem amb els resultats de les darreres eleccions (totes s’hi ajusten molt bé) però també amb altres característiques sociodemogràfiques del país, com l’estructura d’edat, origen de la població, etc. Finalment, tenim en compte també criteris logístics i de cost: la quantitat de municipis a visitar, els kilòmetres que cal fer i el temps de desplaçament. Emprant tots aquests criteris, seleccionem una mostra de seccions censals que lliurarem a l’empresa.

    Finalment, també escollim les seccions substitutes, les quals s’utilitzaran en cas que en la secció escollida no es puguin completar les 10 enquestes. El criteri per escollir les substitutes és la proximitat geogràfica (prioritzem les seccions adjacents) i la similitud sociopolítica. Cal remarcar que la gran majoria d’enquestes es realitzen dins de les seccions.

    És important mencionar que tot aquest procediment de selecció de mostra és totalment automàtic i públic: al nostre repositori de Github hi publiquem el codi detallat que fem servir per seleccionar punts de mostreig.

    Selecció de persones

    Dins de cada secció censal, cal seleccionar les (aproximadament) 10 persones a entrevistar. Això ho fan les persones enquestadores sobre el terreny, emprant rutes aleatòries dins la secció. Es seleccionen les llars, a les quals es demana col·laboració, de manera aleatòria.

    Per acabar, triem els individus a enquestar en funció de quotes creuades de sexe, edat i lloc de naixement. Aquestes quotes ens permeten garantir que mostra sigui equilibrada amb la població en aquestes tres variables.

    Resultats

    Tot aquest procediment de mostreig acaba generant mostres de persones que volen representar el conjunt de la societat catalana. Per avaluar la representativitat d’una mostra, el que podem fer és comparar les seves característiques amb les de la població de referència en aquelles variables que ens siguin conegudes. Aquest exercici el fem amb cada enquesta, i l’incorporem als informes de resultats. Per exemple, en el darrer baròmetre de 2022, vam obtenir aquests resultats, pel que fa al nivell d’estudis i la llengua. Com es pot veure, les nostres dades no es desvien significativament dels valors poblacionals en aquestes dues variables.

    Evidentment, la representativitat de les mostres és una qüestió complexa, i pot estar amenaçada per diversos factors que estan fora del nostre control. Un de fonamental és la no-resposta a les enquestes: les persones que decideixen no col·laborar amb nosaltres poden tenir un perfil diferent de les que sí que ho fan, i això, lògicament, pot afectar els resultats. Quan tenim la informació necessària, podem corregir les distorsions mitjançant l’ús de les ponderacions. Però això ho explicarem amb detall en una altra entrada.

    El record de vot

    Gràfica decorativa

    És relativament freqüent que hi hagi qui es fixi en la correspondència, o falta de correspondència, entre el record de vot de les enquestes i els resultats reals de les darreres eleccions. És lògic que sigui així: qui no s’hi dedica professionalment pot sorprendre’s si en una enquesta hi ha més o menys persones que declaren haver votat una opció de les que ho va haver en realitat. Hom podria pensar que la mostra no ha estat ben seleccionada, o que aquests desajusts invaliden, d’alguna manera, les conclusions que puguem treure de l’enquesta pel que fa a la intenció de vot.  

    Tanmateix, aquests desajusts són molt freqüents i ben coneguts per qui treballa amb enquestes. Se n’han estudiat molt les causes, les conseqüències i les possibles estratègies per mitigar-les. De fet, només cal fer una cerca per constatar que hi ha molta recerca sobre el tema. Recentment, el CSIC ha publicat un llibre de Jaime Balaguer sobre la qüestió. 

    En aquest post intentarem explicar de manera clara: 1/ per què observem aquestes desviacions entre el record de vot recollit a les enquestes i el vot real a les eleccions anteriors; 2/ com intentem minimitzar-les al CEO i, sobretot; 3/ com les corregim perquè no afectin les nostres estimacions de resultats. 

    Per què el record de vot de l’enquesta no coincideix sempre amb els resultats electorals? 

    Quan elaborem les mostres per les nostres enquestes, intentem assegurar al màxim la representativitat de les mateixes. Per fer-ho, emprem la selecció aleatòria de punts de mostreig i de rutes, i també quotes de sexe, edat i lloc de naixement. En un altre post explicarem els detalls d’aquesta selecció, i els indicadors de qualitat que fem servir per avaluar les nostres mostres. Tot i això ens trobem sovint amb discrepàncies entre el record de vot i els resultats de les eleccions anteriors. Per què es donen? Bàsicament, hi ha tres explicacions principals:  

    1. La no-resposta 

    La primera té a veure amb la no-resposta a les enquestes. Quan contactem les persones seleccionades per participar, n’hi ha moltes que opten per no respondre. Bé perquè no tenen temps o disponibilitat, o bé, simplement, perquè no volen. I en tenen tot el dret, no cal dir-ho. De fet, la llei del CEO estableix clarament que, a diferència de l’estadística oficial (que és de declaració obligatòria), la resposta a les nostres enquestes és voluntària. És per això, que els enquestadors sempre informen tothom del caràcter voluntari de les enquestes. El problema pel record de vot apareix quan el perfil de les persones que no responen a l’enquesta és diferent al de les persones que sí que responen. Si els votants d’un determinat partit tenen més tendència a rebutjar ser enquestats, això provocarà una distorsió en els resultats del record de vot. 

    2. Memòria i projecció 

    Però més enllà de la no-resposta, hi ha altres raons per la discrepància. El record de vot no és una variable fàcil de mesurar. Quan demanem a la gent què va votar fa un any, o dos, sovint no ho recorda. Especialment la gent que no està gaire interessada en política, i la que canvia de partit, tendeix a no recordar amb precisió què va votar en cada elecció concreta.  

    Aquests buits de memòria fan que hi hagi un percentatge de gent que ens indica que no sap què va votar o que no respon la pregunta. Però també hi ha gent que “omple” aquests buits de memòria amb el que es coneix com a biaix de projecció: algunes persones ens indiquen que van votar, en el passat, l’opció que votarien ara si hi hagués eleccions. Per això, sovint solem veure com, quan un partit creix en intenció de vot, també ho fa “màgicament” en record de vot. És habitual que els partits que estan al govern aglutinin més record de vot que els de l’oposició (per l’efecte conegut com a “cavall guanyador”). I, fins i tot, hem vist com quan apareixien nous partits, hi havia votants que “recordaven” haver-los votat abans que existissin! 

    En general, com més temps fa d’unes eleccions, més distorsions trobarem en el record de vot. I, com més moviment hi hagi en l’escenari polític, també trobarem més discrepàncies entre el que ens diuen els enquestats que van fer en el passat i els resultats reals.. 

    3. L’ocultació de l’abstenció 

    La qüestió de l’abstenció mereix un comentari a banda perquè sol ser la principal font de discrepàncies entre el record de vot de les enquestes i els resultats reals. Hi ha la idea, socialment força estesa, que votar no és només un dret sinó també un deure de ciutadania. Per això, una part de les persones que es van abstenir acostumen a contestar que sí van votar: prefereixen mentir que reconèixer el seu comportament abstencionista. És el que coneixem com a biaix de desitjabilitat social. Les enquestes sempre infraestimen l’abstenció. I, aquests abstencionistes que ens diuen que van votar, generalment indiquen que van votar l’opció que haurien triat si haguessin votat. 

    Per tant, la combinació de la no-resposta a l’enquesta, la no-resposta a la pregunta del record de vot (el “NS/NC”) i els problemes de memòria i/o projecció són els responsables de les discrepàncies que hi sol haver entre el record de vot a les enquestes i els resultats reals. 

    Com intentem minimitzar les discrepàncies? 

    El record de vot no és una variable que puguem emprar com a criteri de selecció de les persones a entrevistar, ja que, com és obvi, no la coneixem amb anterioritat. A més, preguntem pel que recorda haver votat al final de l’enquesta, atès que hi ha força evidència que resulta més fàcil per als enquestats respondre preguntes de l’àmbit “privat” quan ja fa una estona que interactuen amb els enquestadors i enquestadores.  

    Per tant, no podem dissenyar mostres que ajustin el record de vot de manera automàtica amb quotes com sí que ho fem amb altres variables més fàcils d’observar i mesurar, com el sexe o l’edat. 

    El que fem és emprar estratègies indirectes per intentar reduir les discrepàncies. D’una banda, quan dissenyem les mostres, ens assegurem que els resultats electorals les seccions censals on farem les enquestes s’ajustin als que hi va haver a les darreres eleccions de tal manera que no hi hagi, a priori, cap biaix en la selecció inicial de les persones enquestades. 

    Formulació de les preguntes

    D’una altra banda, també hem introduït diverses millores en la forma de fer la pregunta. Primer, afegim context a la formulació pregunta per ajudar els enquestats a fer memòria: els recordem, per exemple, que ens referim a les eleccions de 2021 que es van celebrar enmig de la pandèmia i separem el record d’haver votat o no del record de quina opció es va votar. La formulació emprada en el darrer Baròmetre de 2022 va ser aquesta:  

    – Per acabar, parlem de les darreres eleccions al Parlament de Catalunya que es van celebrar fa una mica més d’un any, enmig de la pandèmia, el 14 de febrer de 2021.   

    – Quan hi ha eleccions hi ha moltes persones que no poden votar per qualsevol motiu o que prefereixen no fer-ho. Vostè, en aquelles eleccions…   

    – I em podria dir a quin partit o coalició va votar en les darreres eleccions al Parlament de Catalunya, que es van celebrar fa una mica més d’un any, enmig de la pandèmia? 

    Administració 

    Finalment, des de fa dues onades també hem optat per fer que les preguntes sobre record i intenció de vot al Baròmetre, entre d’altres, siguin autoadministrades: en lloc de preguntar-les de viva veu, els enquestadors donen la tauleta a les persones enquestades perquè les responguin en privat. Tenim evidència, com comentarem en una altra publicació, que aquesta estratègia afavoreix la sinceritat en les respostes. 

    Com corregim les discrepàncies perquè no afectin les nostres estimacions? 

    Tot i aquestes estratègies, seguim trobant diferències entre el record de vot expressat a l’enquesta i els resultats reals. Això passa sempre i, en funció del context polític, les diferències van en una direcció o una altra. Per tant, si volem elaborar estimacions de resultats electorals, hem de tenir en compte aquestes discrepàncies. Especialment les que provenen de la no-resposta a l’enquesta, i a la pregunta.  

    En els nostres models d’estimació electoral, que explicarem en una altra publicació però que podeu trobar ben detallats en aquest document, fem dues coses per a corregir-les. La primera és mirar d’estimar, amb un model predictiu, el comportament que van tenir en el passat les persones que ens diuen que no recorden què van votar, o que no responen la pregunta. Això ho fem mitjançant models d’aprenentatge automàtic, que utilitzen les respostes a les altres preguntes de l’enquesta per mirar de “predir” el comportament passat. Això ens permet imputar el comportament més probable a les persones que no responen. 

    Ponderació 

    L’altra estratègia, i principal, és la ponderació per record de vot. No és una estratègia exempta de riscos, però en els casos en què hi ha discrepàncies importants, resulta imprescindible per a elaborar estimacions electorals creïbles. Bàsicament, el que fem és donar més pes en les nostres estimacions a aquells enquestats que van votar opcions infrarepresentades a l’enquesta, i treure pes a aquelles que pertanyen a grups sobrerepresentats.  

    D’aquesta manera, la mostra sobre la que fem les estimacions està **totalment** ajustada en record de vot als resultats de les darreres eleccions. Aquesta correcció és fàcil de realitzar i ens permet treballar amb mostres ben ajustades. Nosaltres, per fer les ponderacions, emprem el record de vot juntament amb altres variables com la llengua, per evitar que la ponderació desajusti la mostra en altres aspectes. A la taula, hi podeu veure la comparació entre el resultat de les eleccions de 2021, el record de vot en brut i el record de vot ponderat, que és el que emprem per fer les estimacions. De fet, aquesta correcció és el que explica, en bona mesura, les diferències entre la intenció directa de vot i l’estimació, que sempre publiquem als informes de resultats. 

     Eleccions 2021 Record directe 2022 Record ponderat 2022 
    Abstenció CER + Blanc + Nul 48,74 34,2 48,7 
    PSC-PSOE 11,64 13,85 11,6 
    ERC 10,77 20,69 10,8 
    JUNTS 10,14 10,12 10,2 
    VOX 3,88 2,04 3,9 
    ECP 3,47 6,61 3,5 
    CUP 3,38 5,2 3,4 
    Altres 3,21 2,88 3,2 
    CS 2,82 2,37 2,8 
    PP 1,95 2,04 1,9 

    Amb aquesta ponderació si hi ha algun risc és el de “sobrecorregir” les discrepàncies. D’alguna manera, estem assumint que les respostes que ens donen els enquestats són fidedignes i corregim la sobrerepresentació o infrarepresentació de determinats col·lectius. No és la solució òptima. Idealment, voldríem poder preguntar a la gent el record de vot immediatament després de les eleccions i conservar aquesta informació per al futur, com explica aquesta publicació de l’empresa Yougov. Però això, de moment, al CEO no ho podem fer perquè no tenim un panel que segueixi les mateixes persones al llarg del temps. 

    En resum: les discrepàncies en record de vot són habituals, i ben conegudes. Tot i que les intentem minimitzar amb la manera de fer l’enquesta, quan apareixen tenim estratègies per corregir-les i poder fer estimacions que ho tinguin en compte. Per tant, podem dir que les discrepàncies en el record de vot no afecten els resultats de les nostres estimacions.