Las encuestas y los encuestadores
El director de ODC explica algunas claves de los sondeos ante la cercanía de unas nuevas elecciones
Cada vez que hay elecciones, y acabamos de tener unas y pronto tendremos otras, los medios de comunicación y organismos públicos se lanzan a publicar encuestas. Aunque los expertos suelen decir, que en ningún caso una encuesta es una predicción, sino una foto de la opinión pública tomada en un momento dado, es inevitable su lectura como predicción de un punto en el espacio de los posibles resultados electorales. Obviamente esa lectura estará tanto más justificada cuanto más próxima esté la fecha de las elecciones a la fecha de la encuesta.
Las fuentes de error que amenazan los resultados publicados son de dos tipos, técnicos y políticos. Las encuestas no publicadas, como sabe cualquier insider, solamente sufren el primer tipo de error, salvo en el caso de clientes idiotas, que también los hay, que prefieren que se haga 'como' si les hubieran engañado, con tal de ver gráficos que reflejen sus propias ensoñaciones o bien si la encuesta se va a usar en guerras internas, por ejemplo, para determinar quién va de primero en una lista.
En cambio, las encuestas publicadas, sufren de ambos tipos de error, técnicos y políticos. Y precisamente porque los sufren es por lo que resulta de tan escasa utilidad los cálculos de promedios de predicciones sobre encuestas publicadas, sin descontar correctamente el sesgo político si lo hubiera. Para poder descontar ese sesgo, será necesario conocerlo. Algunos han creído poder descontarlo simplemente teniendo en cuenta los aciertos pasados. Pero como sabe cualquier operador de mercado, aciertos pasados no predicen aciertos futuros, lo cual es especialmente cierto en el mercado electoral, donde en un cierto período de tiempo todo parece ir en una dirección para poco después ir en la contraria. Evidentemente, si existe un sesgo político en las predicciones, es más posible que se acierte cuando el sesgo va a favor de la ola del momento que si va en contra. El problema con el sesgo político es que resulta más fácil de atribuir que de probar, porque al no conocer en detalle las fuentes de error técnico, es imposible descontarlas del error total.
El error técnico puede venir de múltiples fuentes, entre las cuales la más importantes es el propio muestreo. En la teoría estadística, el universo de votantes está correctamente representado si cualquier votante tiene la misma probabilidad de aparecer en nuestra muestra que cualquier otro. Para aproximar esa representación lo más posible es conveniente "ayudar a la probabilidad" incluyendo cuotas de sexo, edad y distribución geográfica. Pero, aun así, hay ciertas fuentes de error que siguen sin controlar.
Y esas fuentes de error, lejos de disminuir, han aumentado con el abandono de las entrevistas personales en favor de las telefónicas a móviles y las entrevistas online. En efecto, a diferencia de las encuestas personales, cuyas muestras maestras se construían a partir de datos censales, y las telefónicas a fijos de los cuales se disponía de un censo por calle, las encuestas que podemos hacer ahora se basan en directorios de teléfonos proporcionados por empresas privadas o construidos por uno mismo a partir de llamadas aleatorias, que tienen sus propios sesgos, imposibles de estimar en la práctica.
La segunda fuente importante de error, procede de los propios entrevistados, cuando estos dicen que votaran por una opción y después o votan por otra o no votan. Esto sucede tanto porque los entrevistados se engañan a sí mismos, porque deciden engañar al entrevistador o porque cambian de opinión. La última fuente de error, procede de los entrevistados que simplemente no quieren hablar con nosotros, o por mejor decir, no quieren compartir con el entrevistador a que opción van a votar. Al fin y al cabo, el voto es secreto.
En una sola encuesta, con muy pocas preguntas, es bien difícil detectar las fuentes de error relacionadas con los entrevistados. Si bien hay métodos relativamente fiables para descontar estos factores, se requieren preguntas suplementarias, aparte del recuerdo de voto y la intención de voto. También hay otras técnicas de realización de encuestas, incluidas en trackings continuos y/o paneles, pero, dado su coste, nunca o casi nunca los medios que van a publicar los resultados, que viven del momento, están en condiciones de financiarlos.
Y las instituciones públicas que se dedican a la demoscopia, que igualmente viven en el momento (y más veces que menos en el momento pasado), tampoco muestran interés alguno por mejorar las herramientas con las que trabajan. Ciertamente los llamados "barómetros" del tipo de los que hace el CIS, no cuentan entre esas herramientas dado que, en absoluto desprecio de lo que la psicología cognitiva ha probado hasta el aburrimiento, de un cuestionario a otro, cambian el contexto que precede a las preguntas de intención de voto.
El sesgo político, cuando existe, es susceptible de ser camuflado bajo la forma de error del modelo de calculo utilizado para imputar la intención de voto de las personas que no nos dicen a quién votarán. Dado que esos modelos son secretos, podemos inferir de los resultados, pero no probar más allá de toda duda, que los sesgos políticos existen.
Para simplificar el análisis, vamos a asumir que los errores de muestreo afectan por igual a todas las enseñas que realizan entrevistas, de modo que las diferencias en las estimaciones, de encontrar alguna pauta, se puedan atribuir a sesgos políticos.
Asumiremos por tanto que todos los sesgos si son sistemáticos -i.e. una firma encuestadora siempre yerra en la misma dirección- son políticos. Y asumiremos que los sesgos son políticos, incluso cuando se ocultan bajo supuestos modelos de estimación, como por ejemplo el llamado, por ellos mismos, modelo Tezanos-Alaminos (o al revés).
Las teorías de la eficacia performativa de las encuestas pueden ser completamente opuestas. Ciertamente no existe evidencia empírica sobre que las encuestas por si solas tengan un determinado tipo de eficacia performativa universal, pues un mismo sesgo en dos momentos diferentes, dependiendo de la "movilización" del electorado, puede tener un efecto completamente diferente. Por tanto, la teoría performativa a la que sirven esos sesgos políticos es harto discutible y sus efectos, si los hay, variables en cada momento, pues el resultado de una encuesta tanto puede tener efecto movilizador del voto como de la abstención, de propios y enemigos, inducir exceso de confianza y falta de ella, incluso sobre propios, en un sentido distinto al pretendido. Así pongamos por caso, predicar que el enemigo tiene una alta expectativa de voto, puede conducir a la movilización del propio electorado o a su desánimo, dependiendo del momento.
Por tanto, dado que la ciencia política no cuenta con una teoría universal, válida en todo momento y circunstancia, de la eficacia performativa de las encuestas, solamente podemos hacer hipótesis informadas sobre que pretende cada casa entrevistadora y cada medio que publica si encontramos aparentes sesgos.
Y sesgos si parece que han existido en las predicciones de las elecciones municipales y autonómicas de mayo del 2023, como se muestran en las tablas que siguen. La columna etiquetada como Total representa el número de encuestas realizadas y los que aparecen debajo de cada partido representa en cuantas de esas encuestas se ha sobreestimado la intención de voto de ese partido.
En la tabla referida a las ciudades se aprecia el total sesgo del Cis hacia el PSOE. De las 8 predicciones que realiza en las 8 sobreestima la intención de voto del PSOE. Los mismo sucede con 40db, de las 6 que realiza en las 6 sobreestima al PSOE.
En las elecciones autonómicas, la foto es algo más complicada. Gad realiza 7 predicciones y en las 7 sobreestima al PSOE y a Podemos. Simple Lógica realiza 7 predicciones y en las 7 sobreestima a Podemos y en 5 al PSOE. El CIS realiza 12 y en 11 sobreestima a Podemos y en 9 al PSOE. NC Report realiza 12 y en 10 sobreestima a Podemos. En conjunto los partidos más sobreestimados han sido, en orden, PSOE, Podemos y Ciudadanos.
Tomados en su conjunto, parece con bastante claridad que el CIS ha sobreestimado sistemáticamente el voto del PSOE y sobre todo de Podemos. También parece haber incurrido en el mismo tipo de sesgo Simple Lógica y 40db. Y en el caso de las autonómicas -no así en las municipales-, Gad3 también ha incurrido en el mismo tipo de sesgo. En conjunto los partidos más sobreestimados han sido Podemos y PSOE.
Adicionalmente podemos preguntarnos como de severo es el sesgo, es decir, en que porciento se desvía cada enseña en el sesgo. Si el número es superior a 1 indica que la intención de voto de ese partido ha sido sobreestimada; si es inferior a 1, indica que la intención de voto a ese partido ha sido subestimada. Si bien todas las desviaciones son más severas en el caso de Podemos, la desviación es especialmente severa en el caso del CIS: del orden de un 70% de sobreestimación promedio, seguido de cerca por 40db (63%) y Simple Lógica (45%).
Asumiendo, como hemos dicho, que los sesgos encontrados no son simples errores sino sesgos, al menos en parte, deliberados, cada una de las casas encuestadoras, pero especialmente el CIS, debería explicar qué, quién, cómo y para qué hacen las predicciones que hacen.
Evidentemente los sesgos no son inevitables. Muy modestamente, en encuestas que nosotros hemos realizado para este diario, no hemos mostrado tales sesgos. Si el editor del medio no siente la tentación de condicionar el mensaje y quien produce la encuesta no tiene agenda oculta, es posible hacer predicciones libres de sesgos sistemáticos. Las predicciones pueden no ser del todo exactas, pues, al fin y al cabo, estamos trabajando con probabilidades, pero si libres de voluntad deliberada de condicionar a los lectores.