Les mostres del CEO

Com triem les persones que enquestem en les enquestes presencials?

Quan fem enquestes presencials, els enquestadors que contractem van a visitar persones a les seves llars per fer-los l’enquesta. El procediment de selecció de les llars que visitem és fonamental per obtenir una mostra representativa de la població catalana. Per això, hi posem molta cura. En aquesta entrada del blog descriurem de manera detallada i accessible el procés que seguim al CEO per seleccionar aquestes mostres.

Selecció dels punts de mostreig

El primer que hem de fer és seleccionar els punts de mostreig: és a dir, els llocs de Catalunya als quals enviarem les persones enquestadores a picar a les portes. Per raons de cost, no podem enviar persones a 2.000 punts diferents del país a fer-hi una enquesta i, per això, seleccionem (aproximadament) uns 200 punts de mostreig on s’hi realitzaran unes 10 enquestes. Això permet aprofitar els viatges i les jornades de treball de les persones enquestadores.

Aquests 200 punts de mostreig són seccions censals, que és la unitat de territori més petita sobre la que tenim informació. Corresponen, generalment, a una o dues meses electorals. A Catalunya, hi ha unes 5084 seccions censals. Per triar-ne 200 fem servir un procediment aleatori (de sorteig), però amb alguna particularitat.

La primera és que dividim les seccions en sis grups (o clústers) de seccions que són semblants entre elles des del punt de vista electoral. Tenim seccions més abstencionistes i menys, amb més vot a partits independentistes i menys, etc. Aquests sis grups de seccions els construïm a partir dels resultats de les darreres eleccions al Parlament, emprant l’algoritme k-means per fer els clústers.

Calculem quina proporció de l’electorat viu a cadascun d’aquests sis grups i determinem, proporcionalment, quantes seccions de cada grup hem de triar. Un cop hem fet això, les seleccionem aleatòriament dins de cada grup, però ho fem de manera proporcional a la mida de la secció: com que hi ha seccions més poblades i d’altres menys, i el que volem és representar la població, fem el sorteig de tal manera que la probabilitat que tenen les seccions de ser escollides és proporcional a la població.

Aquest procediment, el qual és aleatori i automàtic, ens permet generar moltes mostres diferents. Per triar-ne una, les comparem amb els resultats de les darreres eleccions (totes s’hi ajusten molt bé) però també amb altres característiques sociodemogràfiques del país, com l’estructura d’edat, origen de la població, etc. Finalment, tenim en compte també criteris logístics i de cost: la quantitat de municipis a visitar, els kilòmetres que cal fer i el temps de desplaçament. Emprant tots aquests criteris, seleccionem una mostra de seccions censals que lliurarem a l’empresa.

Finalment, també escollim les seccions substitutes, les quals s’utilitzaran en cas que en la secció escollida no es puguin completar les 10 enquestes. El criteri per escollir les substitutes és la proximitat geogràfica (prioritzem les seccions adjacents) i la similitud sociopolítica. Cal remarcar que la gran majoria d’enquestes es realitzen dins de les seccions.

És important mencionar que tot aquest procediment de selecció de mostra és totalment automàtic i públic: al nostre repositori de Github hi publiquem el codi detallat que fem servir per seleccionar punts de mostreig.

Selecció de persones

Dins de cada secció censal, cal seleccionar les (aproximadament) 10 persones a entrevistar. Això ho fan les persones enquestadores sobre el terreny, emprant rutes aleatòries dins la secció. Es seleccionen les llars, a les quals es demana col·laboració, de manera aleatòria.

Per acabar, triem els individus a enquestar en funció de quotes creuades de sexe, edat i lloc de naixement. Aquestes quotes ens permeten garantir que mostra sigui equilibrada amb la població en aquestes tres variables.

Resultats

Tot aquest procediment de mostreig acaba generant mostres de persones que volen representar el conjunt de la societat catalana. Per avaluar la representativitat d’una mostra, el que podem fer és comparar les seves característiques amb les de la població de referència en aquelles variables que ens siguin conegudes. Aquest exercici el fem amb cada enquesta, i l’incorporem als informes de resultats. Per exemple, en el darrer baròmetre de 2022, vam obtenir aquests resultats, pel que fa al nivell d’estudis i la llengua. Com es pot veure, les nostres dades no es desvien significativament dels valors poblacionals en aquestes dues variables.

Evidentment, la representativitat de les mostres és una qüestió complexa, i pot estar amenaçada per diversos factors que estan fora del nostre control. Un de fonamental és la no-resposta a les enquestes: les persones que decideixen no col·laborar amb nosaltres poden tenir un perfil diferent de les que sí que ho fan, i això, lògicament, pot afectar els resultats. Quan tenim la informació necessària, podem corregir les distorsions mitjançant l’ús de les ponderacions. Però això ho explicarem amb detall en una altra entrada.