Las elecciones estadounidenses de 2016 fueron la segunda vez que las encuestas estadounidenses no lograron predecir. Los fracasos anteriores se debieron a un muestreo sesgado. Es lógico que esta vez no cometamos el mismo error, pero ¿por qué la desviación es tan grande?
Una explicación es que los votantes que apoyan a Trump no están dispuestos a expresar sus verdaderos pensamientos; de lo contrario, serán reprimidos por extraños que apoyan a Hillary, lo que conducirá al fraude de los sujetos.
¿Qué pasa con el uso de datos de comportamiento como muestreo? Por ejemplo, usar Twitter para mencionar los nombres de dos candidatos y palabras emocionales como características. Después de todo, si expresas tus opiniones en Twitter, como mucho te regañarán y, en general, no hay un gran problema de seguridad personal. La IA que hizo predicciones precisas predijo la victoria de Trump el 90% de las veces, y otras IA que hicieron predicciones precisas tuvieron tasas de éxito similares. Pero la IA que no pudo predecir también creía que Hillary sería elegida hasta por un 90%, como Microsoft y Facebook.
De hecho, existen grandes problemas con la probabilidad y definición de las predicciones anteriores. Las elecciones en Estados Unidos se refieren al número de estados que ganarán primero, más que al referéndum en sí, Trump obtuvo una gran victoria desde este punto de vista. Pero si se calcula en base al voto popular, Hillary tiene una ligera victoria sobre Trump, cercana al 50:50. Esto no es lo que predicen actualmente ninguna encuesta ni ninguna organización profesional.
Las encuestas estadounidenses ya no sólo realizan un muestreo una vez, sino que realizan estadísticas una vez al mes, especialmente en las próximas tres rondas de debates presidenciales. Tomemos como ejemplo la agencia de análisis 538 que predijo con éxito la elección de Obama dos veces antes:
Como se muestra en la figura, la línea naranja pertenece a la predicción de 538 sobre la tasa de victoria de Hillary. Encontrará que los resultados son muy volátiles. Esta es la razón por la que las instituciones de investigación son tan divergentes.
De hecho, en la ventana de observación, cuanto mayor es la volatilidad de la probabilidad de predicción de los datos de dos opciones, más cerca está el resultado de la predicción final de 50:50. Al igual que la línea azul (actualización rigurosa). ) en la imagen, solo se puede decir en el último momento. Averigua quién gana.
Cambiando al escenario de investigación y análisis de datos, si los indicadores monitoreados pertenecen a la distribución binomial (como juzgar si un usuario es leal), la volatilidad de la ventana de observación es demasiado grande y no es apropiado utilizarlo para la toma de decisiones.