Receta para el cálculo estadístico del voto fraudulento y de calidad del censo

Introducción

Este post va a explicar muy someramente una metodología para realizar un cálculo de probabilidad de voto fraudulento utilizando métodos estadísticos de inferencia bayesiana. Este es un documento informativo muy básico con un enfoque práctico, por lo que no entra a valorar cuales son los diferentes tipos de algoritmos aplicables (ni los parámetros de configuración de dichos algoritmos).

El cálculo estadístico que aquí se propone permite realizar una afirmación como:

La probabilidad de que más del 5% del censo sea fraudulento es menor o igual al 4%

Este procedimiento es aplicable a un censo, pero puede contextualizarse en una votación. Si por ejemplo tenemos una votación con una única candidatura ganadora, y la diferencia en votos entre la candidatura ganadora y la candidatura perdedora que más votos obtuvo es mayor al 5%, entonces podría realizarse la siguiente afirmación:

La probabilidad de que el voto fraudulento haya afectado al resultado es menor o igual al 4%

Nota: en una afirmación como la anterior se está asumiendo que cada votante sólo puede emitir 1 punto/voto y que el sistema de votación se comporta predeciblemente. Dicha afirmación habría que corregirla convenientemente en el caso de que se utilice un sistema de votación en el que dicha suposición no se de, como por ejemplo en el Borda tradicional (donde el votante tiene más de un punto para repartir) o en sistemas como por ejemplo VUT donde los resultados pueden variar con un sólo voto de forma bastante difícil de predicir a priori.

Contexto y ámbito de aplicación

El análisis estadístico como método de auditoría es utilizado en votaciones oficiales en todo el mundo, por ejemplo en Estados Unidos [6], país en el que se aplica en algunos estados ya de forma habitual. En USA se llegó a poner en cuestión la presidencia de Estados Unidos por fallos en el recuento de votos en un proceso electoral. Aprender de la experiencia de otros es muchas veces difícil, pero nunca está de más utilizarlo de forma ejemplarizante. La verificación de los resultados y en general aplicar técnicas de limitación de riesgos son prácticas altamente recomendables en procesos electorales donde se deciden materias importantes, ya sean en procesos de voto en papel o electrónico.

Este tipo de análisis en la terminología académica se suele conocer como “risk-limiting audit” o “auditoría de limitación de riesgo” y hay muchas publicaciones al respecto en la red. En este documento se explica un método para analizar un censo de votantes, sin embargo tradicionalmente el análisis en votaciones en papel se realiza sobretodo para verificar el recuento. Esto es debido a que a diferencia de lo que ocurre en el voto electrónico, los recuentos manuales son costosos en tiempo y recursos, y precisamente lo que un análisis estadístico permite es tener cierto grado de certeza sin llegar a hacer un costoso segundo recuento completo.

Limitaciones

La variable que más limita a la hora de poder tener certeza sobre la probabilidad de que el fraude haya afectado al resultado de una votación es el llamado margen de votos, es decir la diferencia entre cualesquiera dos candidaturas si al menos una de ellas es ganadora. Por tanto, en general cuantos más votos y menos candidaturas haya, más fácil es que la diferencia de votos entre candidaturas sea mayor, pero incluso en ese caso puede que haya sólo dos candidaturas y el margen de diferencia en votos sea ajustado.

El peor de los casos que sin embargo es típico en partidos políticos es la confección de listas electorales mediante primarias, porque hay muchas opciones, muchos puestos ganadores y por tanto una alta probabilidad no ya sólo de que la diferencia en votos de dos candidaturas con posibilidades de ganar sea bajo, sino incluso de que haya empates en votos.

Este tipo de análisis matemático estadístico presupone el peor de los casos, lo cual le permite ser a la par cautoloso y riguroso en los datos que arroja. En contrapartida, si un único voto (o un número de votos pequeño) puede alterar el resultado de una votación porque la diferencia en votos entre dos candidaturas es de muy pocos votos), si se quiere tener una probabilidad de que el voto fraudulento haya afectado al resultado baja, implica contactar con prácticamente todo el censo de votantes.

No obstante, incluso en el peor de los casos también hay que poner en valor otra cuestión, y es que incluso a pesar de que un único voto pueda afectar a uno de los puestos ganadores, un análisis estadístico permite limitar cuánto podrían bailar los resultados en el peor de los casos, y además también es de rigor apuntar que a priori es difícil adivinar cuales son las candidaturas que van a estar empatadas. Si por ejemplo de 200 candidaturas sólo hay un caso de dos candidaturas donde la diferencia de votos entre ellas es de un voto, habría que analizar cual es la probabilidad de que un atacante acierte a escoger una de esas 2 candidaturas para alterar el resultado. Ese análisis no se tiene en cuenta en el modelo simplificado que aquí se propone.

Por último, ha de remarcarse que este tipo de análisis estadístico es un método de seguridad enmarcado en el ámbito de la detección y obtención de información, pero no de la prevención ni de la actuación: permite averiguar información y poder sacar conclusiones acerca de la validez de un censo, pero no está pensado para mejorar la calidad del censo ni permite prevenir problemas en él.

Procedimiento

Es recomendable realizar el análisis del censo con la mayor antelación y previsión, una vez exista dicho censo. La razón es que toma tiempo, y que además el tiempo exacto que pueda tomar no se conoce completamente a priori, y concretamente depende de tres variables:

  1. el volumen de fraude que se vaya encontrando (desconocido a priori)
  2. el tamaño del censo (conocido a priori si es censo cerrado, e incluso si es censo abierto se puede tener una estimación)
  3. margen de error aceptable (desconocido a priori aunque se puede tener una estimación a priori)

Como hemos dicho anteriormente, con estas variables, y con la información que nos proporciona el análisis, al final el dato que se obtiene es una afirmación tan sencilla como la que sigue:

La probabilidad de que más del 5% del censo sea fraudulento es menor o igual al 4%

En el peor de los casos, se termina haciendo un análisis de todo el censo, por lo que la estimación de la cantidad de tiempo/recursos necesarios puede dimensionarse teniendo ese caso como límite superior.

Si existe un censo previo, se puede realizar un análisis de ese censo incluso antes de comenzar la votación. De hecho, puede que ese análisis se haya realizado previamente si lo hacemos a menudo. En el caso de que el censo esté abierto pero exista un censo previo, es recomendable comenzar con ese trabajo hecho, y luego seguir haciendo comprobaciones censales durante la votación sobre los nuevos elementos del censo.

El cálculo estadístico se puede ir realizando en cualquier momento y en tiempo real a medida que se van conociendo más datos. Por poner un ejemplo, si la votación no ha empezado aun, no se sabrá con certeza cual es el margen de error aceptable, porque ese dato depende de cuan ajustados sean los resultados, pero sí se puede tener una estimación. De igual manera, se puede ir actualizando el tamaño de la muestra estadística y el número de casos donde se ha detectado fraude.

El procedimiento es el siguiente:

1. Establecer un porcentaje de fraude aceptable

Por ejemplo un 5%. Si vamos a hacer unas primarias, si estimamos que vamos a tener alrededor de 2000 votos y creemos que es razonable pensar que los resultados no van a verse afectados si menos de 100 votos son fraudulentos, entonces el margen de error aceptable es de 100/2000 = 0.05 (es decir, un 5%). Por supuesto, si ya conocemos los resultados, ese dato ya no tendrá porqué ser una estimación, y podrá calcularse en base a los resultados reales.

2. Establecer el límite de la probabilidad que consideramos aceptable de que ese porcentaje anterior sea fraudulento

Por ejemplo, podemos establecer que “la probabilidad de que más del 5% del censo sea fraudulento no debe superar el 5%”.

3. Escoger una muestra del censo que se pretende analizar

Es muy importante hacerse de forma aleatoria, ya que el modelo estadístico asume un muestreo aleatorio. Se puede tener numerado el censo y generar números aleatorios con un generador de números aleatorios, como por ejemplo un dado o la web https://www.random.org/

NOTAS:

  • Cuanto menor sea el tamaño del censo más representativo será el muestreo para una muestra de igual tamaño. Por tanto usar como censo al conjunto de votantes, y no el censo de electores que siempre será mayor.
  • Los seres humanos somos MUY malas fuentes de aleatoriedad y en ningún caso se recomienda generar esos números “de cabeza”.
  • Si se está haciendo el análisis de forma iterativa a medida que va cambiando el censo, garantizar que la suma de los muestreos equivale a un muestreo aleatorio es más complicado de lo que parece y por ello en principio no vamos a analizar ese caso en este documento.

4. Verificar el fraude en la muestra elegida

Para verificar el fraude debe establecese previamente una forma muy concreta de actuación y valoración. En concreto, si por ejemplo se tiene el teléfono de la persona, se propone llamar a esta persona, informarle que se está verificando el censo y que nos diga sus datos censales y si ha participado en la votación. Es muy importante que sea la persona la que aporte los datos censales y no el verificador, porque de otra forma se adulteraría el resultado. Al final de la llamada, que deben ser cortas y al grano para ser eficientes y para eso lo recomendable es ir con un “script” de antemano, el verificador debe de clasificar a la persona como fraude o no-fraude, a efectos de luego realizar el cómputo de cuantos elementos fraudulentos hay. Si se quiere, podría afinarse más asignando una probabilidad de fraude con valores intermedios entre 0 y 1.

5. Calcular la probabilidad de fraude con los datos anteriormente obtenidos

Para eso se propone utilizar el formulario de [0]. Una vez introducidos los datos, la calculadora ofrece una frase de este estilo:

The probability that more than 3.00% of the votes/census are fraudulent is less or equal than 5.15%, according to a bayesian inference done using a sample size of 300 and having 4 invalid elements.

Si el censo ya está cerrado (porque era cerrado o porque la votación ha terminado y por tanto el censo de votantes está cerrado) y la probabilidad de fraude es menor al límite previamente marcado en el punto 2, entonces el análisis ha terminado exitosamente. Si esto ocurre cuando el censo no está cerrado, cuando varíe sustancialmente el censo (por ejemplo, si varía más de X votos o Y% porcentaje, o bien cada X días) se puede realizar de nuevo el procedimiento, a modo iterativo.

Si el porcentaje de fraude es superior al admisible según el punto 2, entonces debemos de aumentar el tamaño del muestreo con el objetivo de hacerlo más representativo y así reducir la probabilidad de que sea simplemente un error de muestreo. Debido a que el cálculo de la probabilidad de fraude se hace en tiempo real, se puede iterar todo este proceso de forma muy ágil, de manera que por ejemplo cada vez que se hace un muestreo de 50 personas elegidas aleatoriamente del censo se recalcula la probabilidad de fraude y se decide si seguir o no analizando.

Referencias

El formulario para calcular la probabilidad de fraude:

[0] http://jsfiddle.net/op1r411L/37/

Queda fuera del ámbito, eminentemente práctico de este documento, explicar la lógica matemática que sustenta la metodología aplicada. No obstante, sí que queremos referenciar material donde se explica en más detalle:

[1] https://blog.agoravoting.org/index.php/2014/06/04/voter-fraud-and-bayesian-inference/

[2] https://blog.agoravoting.org/index.php/2014/06/04/voter-fraud-and-bayesian-inference-part-2/

[3] http://www.cs.cmu.edu/~10701/lecture/technote2_betabinomial.pdf

[4] http://projecteuclid.org/download/pdf_1/euclid.ss/1009213286

Nuestra propuesta es utilizar el método bayesiano beta-binomial porque lo consideramos quizás el más adecuado, pero existen otros métodos estadísticos que en realidad al final dan resultados bastante parecidos. Algunos de ellos pueden verse aquí:

[5] http://epitools.ausvet.com.au/content.php?page=CIProportion

Existe una página hecha por expertos en la materia y bastante instructiva que contiene una numerosa cantidad de utilidades e información sobre cómo se debe realizar auditorías de limitación de riesgo, que como hemos explicado no es exactamente lo mismo que lo que estamos intentando hacer aquí pero la metodología es parecida:

[6] http://arstechnica.com/tech-policy/2012/07/saving-american-elections-with-10-sided-dice-one-stats-profs-quest/2/

[7] http://www.stat.berkeley.edu/~stark/Vote/auditTools.htm