martes, 18 de noviembre de 2014

Markov, la Entropía y el Metro

Ayer el Metro falló nuevamente. Esta vez fue la Línea 4 Express y la causa computacional. Aunque todas estas explicaciones pueden ser completamente ciertas, me llamó la atención cómo el Gerente de Operaciones inmediatamente separó este incidente del gran colapso del viernes pasado.

Bueno, ¿es cierto que son incidentes independientes? Para mala suerte de nosotros, probablemente no. La matemática apunta a que no son independientes, que nuestro Metro está enfermo y yo les voy a explicar por qué.



Platón, Bernoulli y Markov


Platón—esta explicación no es tan larga, no se preocupen—hablaba de cómo el mundo se distanciaba de lo ideal y sus formas y figuras abstractas. Y como consecuencia, por ejemplo, un círculo no existiría en la realidad y solamente lo haría en el mundo de las ideas.

Esta visión incierta del mundo fue la que gobernó por siglos y siglos, hasta que un matemático holandés, llamado Daniel Bernoulli, postuló que el mundo real sí podía presentar patrones ideales cuando los horizontes de tiempo—o número de repeticiones—eran muy grandes.

Tomemos un vaso con 50 bolitas blancas y 50 bolitas rojas. ¿Cuán probable es que saquemos una bolita blanca? Bueno, si repetimos este proceso muchas veces, nos daremos cuenta que la proporción de bolitas blancas a rojas tenderá a ser 1:1, lo que implica una probabilidad del 50%.




Esta simple y revolucionaria idea permitió que el mundo real tuviese acceso al elegante mundo de las ideas, gobernado por leyes matemáticas, e inició el desarrolló de la estadística que aprendimos en la universidad, modelos de gestión, predicción, etc. Pero esta idea estaba incompleta.

Más de 100 años después, un matemático petersburgués de la Belle Époque, llamado Andrey Markov, se molestaría bastante—literalmente—con las limitaciones auto impuestas por Bernoulli a sus propias conclusiones. Según Bernoulli, su análisis no se mantenía si los sucesos no eran independientes. Un juego de ruleta arreglado, en el que el croupier afecta el desenlace según los resultados anteriores, no podía mostrar estos patrones probabilísticos y por lo tanto no podía ser analizado de la misma forma. Esto dejaba fuera del tapete a gran parte de la realidad, en la que los sucesos no son independientes de sucesos anteriores. Y Markov, fiel a su época, propuso un simple experimento para demostrar que eso no era cierto.

Volvamos a nuestro juego de las bolitas, pero ahora separemos estas bolitas en dos vasos, manteniendo la misma proporción total de bolitas blancas vs. rojas, y distribuyendolas de forma asimétrica.

  • Vaso 1: 50 blancas y 25 rojas
  • Vaso 2: 50 blancas y 75 rojas
  • Totales: 100 blancas y 100 rojas

Nuestro juego ahora parte en el vaso 1: si es que saco una bolita roja, la siguiente vez saco una bolita del vaso 2, pero si la bolita es blanca, me quedo en el vaso 1; lo mismo aplica para el vaso 2. Como consecuencia, si ahora sacamos una bolita roja, la siguiente bolita tiene más probabilidades de ser roja que blanca; si sacamos una bolita blanca, la siguiente tiene mejores chances de ser blanca que roja. En otras palablras, el juego está arreglado.




¿Qué pasa si repetimos este juego un sin fin de veces? ¿Emergen patrones subyacentes? ¡Efectivamente! Luego de varias iteraciones del juego observamos que la proporción de bolitas blancas vs. rojas tiende a mantenerse en la siguiente:

  • Blancas: 54%
  • Rojas: 46%

Lo importante de esto


Con este simple juego Markov demostró que sistemas dependientes también tienen patrones ideales subyacentes. Es más, moviendo un poco las cantidades de bolitas blancas y rojas en nuestros vasos podemos llegar a una razón 50:50, tal como en el juego anterior. Pero lo importante es que este sistema, aunque muestre patrones subyacentes similares, tiene características drásticamente distintas en su comportamiento. ¡Y eso es lo que está matando a nuestro metro!



El Metro y la entropía

 

La entropía es una forma de medir la complejidad de un sistema en términos de la información que necesitamos para poder predecir sus resultados. Es más fácil entenderla como una forma de medir el nivel de incertidumbre.

Supongamos que nuestro juego de un vaso es ahora la ruleta de un casino. Un apostador puede verse tentado a pensar que, luego de que sale negro 20 veces seguidas, lo mejor es apostarle al rojo. La realidad es que eso no es así, ya que la probabilidad de que salga negro y rojo sigue siendo la misma—por lo menos si el croupier disfruta su libertad.

Sin embargo, asumamos que sí hay una dependencia y que, tal como en el juego de los dos vasos, las cosas cambian dependiendo del color que ya ha salido. ¿Es este sistema menos incierto? ¡Claro que sí! Ahora sabemos que si salen muchos negros, es cada vez más probable que salga rojo. Esto no necesariamente afectará la proporción de negros vs. rojos que salen durante el día, pero sí podemos esperar ver muchos apostadores esperando una racha de negros para luego apostarle al rojo y ganarle consistentemente al casino. ¡El sistema está arreglado y su menor incertidumbre—entropía—lo delata! Y esto también pasa en el metro.


Les propongo el siguiente experimento para analizar el Metro:

  • Tendremos dos juegos en los que habrán días OK y días con FALLO
  • Digamos que FALLO implica que el metro quedó parado, tal como ayer o el viernes.
  • Juego 1
    • La probabilidad de fallo de un día cualquiera es 1%
    • Esto equivale a un vaso con 99 bolitas OK y 1 que dice FALLO
  • Juego 2 (juego arreglado)
    • La probabilidad de fallo, si no hubo fallo el día anterior, es 1%
    • La probabilidad de fallo, si hubo fallo el día anterior, es 5%
    • Esto equivale a dos vasos
      • Estado 1: 99 bolitas OK y 1 que dice FALLO
      • Estado 2: 95 bolitas OK y 5 que dicen FALLO



Hice un pequeña simulación para el metro bajo estas condiciones, considerando 1500 días—más menos 4 años. Compatriotas, los resultados son evidentes.

Los gráficos de más abajo—hagan click para agrandar—muestran las dos características de las que hemos estado hablando. La primera, representada por los gráficos de la izquierda, muestra la proporción de días con fallos vs. días sin fallos, medida en "fallos por mes". La segunda, representada por los gráficos de la derecha,  muestra el nivel de incertidumbre del sistema, medido como "la cantidad de días seguidos sin accidentes".

En breve, el Juego 1 y Juego 2 muestran ambos la misma tasa de fallo, pero el Juego 2 tiene una probabilidad considerablemente menor de pasar 30 días sin fallas.

O sea que aunque las cosas fallen en promedio lo mismo—o por lo menos no de forma significativamente distinta—todo lo malo va a venir de una. ¿No suena esto un poco familiar?






El Metro y su falla sistémica

 

El Metro de Santiago está presentando un escenario cada vez menos entrópico. Como santiaguinos, vemos esto reflejado en una caida constante de nuestra confianza en el servicio y ya ni nos imaginamos ese metro que duraba meses sin fallar.

La demanda de uso puede ser alta, pero es alta desde la implementación del transantiago. El problema del metro es sistémico y el comportamiento de las fallas apunta a eso. Ya que la tecnología no me parece obsoleta, el único otro factor relevante en la organización es que la gente no esté a la altura. Y aunque no representa evidencia objetiva a favor o en contra, adivinen qué gerencias cambiaron en el metro durante de los primeros 6 meses de gobierno, según su propia página web. Recursos Humanos y Mantenciones.


Qué debiésemos exigirle al Metro



El Metro debiese tener un cartel de "días sin fallas", tal como las fábricas, para ayudarles a detectar problemas sistémicos. Ese cartel debiese ser la única preocupación del metro. El empleado que diariamente cambia el número debiera sentirse orgulloso de sumar y sumar; y cuando el cartel vuelve a cero, todo el metro tendría que ponerse a pensar en qué es lo que hicieron mal. En cambio, yo veo un Metro que se ha convertido en una organización política, cada día más hábil en dar excusas.















3 comentarios:

  1. No entiendo cómo se pasa de la cadena de Markov hacia la sección de conclusiones sobre las fallas sistémicas del metro.

    ResponderEliminar
  2. Hola! Lo que intenta mostrar la sección de la cadena de markov es que una falla sistémica, caracterizada por tener escenarios distintos con probabilidades de eventos distintas, y una falla completamente aleatoria y con probabilidades constantes e independientes, no se ven diferentes necesariamente en las tasas de fallo. Donde sí se ven diferentes es en la variabilidad de los fallos, ya que cuando el sistema entra en modo "falla" es mucho más fácil que una falla se repita.

    Habiendo mostrado eso, la aplicación en el metro es la siguiente. Las autoridades del metro salen a defender su eficiencia diciendo que las fallas se deben a un "aumento en el uso" y nada más. Uno podría pensar que misma tasa*mayor flujo = más fallas. Pero el comportamiento de las fallas no es uniforme en el tiempo. Dado que hay una falla es más fácil que venga otra, eso delata que están en "modo fallo" y por lo tanto no es solamente "una aumento en la demanda", sino que hay un problema del sistema, de sus procedimientos y sus capacidades de gestión.

    Hazte la siguiente pregunta: ¿te acuerdas cuándo fue la última vez que el metro tuvo 6 fallas fuertes—una catastrófica—en 1 año? ¿Cuánto crees que tendría que haber aumentado la demanda para que algo que pasaba poco sea normal? Además, de esas 6 fallas, 4 pasaron en 4 meses. ¡Una por mes!

    Bueno, a qué voy con todo esto. Si tú vas a una fábrica la mayoría tiene un catastro de todos los accidentes que han tenido y todos lo conocen. ¿Por qué? Porque si se empiezan a dar muchos errores pegados, saben que es un problema del sistema y que tienen que hacer algo al respecto. El metro, en vez, le echa la culpa a los usuarios. Y por eso escribí este artículo.

    Espero haber dejado más claro eso. Slds! A.

    ResponderEliminar
  3. Hola! Lo que intenta mostrar la sección de la cadena de markov es que una falla sistémica, caracterizada por tener escenarios distintos con probabilidades de eventos distintas, y una falla completamente aleatoria y con probabilidades constantes e independientes, no se ven diferentes necesariamente en las tasas de fallo. Donde sí se ven diferentes es en la variabilidad de los fallos, ya que cuando el sistema entra en modo "falla" es mucho más fácil que una falla se repita.

    Habiendo mostrado eso, la aplicación en el metro es la siguiente. Las autoridades del metro salen a defender su eficiencia diciendo que las fallas se deben a un "aumento en el uso" y nada más. Uno podría pensar que misma tasa*mayor flujo = más fallas. Pero el comportamiento de las fallas no es uniforme en el tiempo. Dado que hay una falla es más fácil que venga otra, eso delata que están en "modo fallo" y por lo tanto no es solamente "una aumento en la demanda", sino que hay un problema del sistema, de sus procedimientos y sus capacidades de gestión.

    Hazte la siguiente pregunta: ¿te acuerdas cuándo fue la última vez que el metro tuvo 6 fallas fuertes—una catastrófica—en 1 año? ¿Cuánto crees que tendría que haber aumentado la demanda para que algo que pasaba poco sea normal? Además, de esas 6 fallas, 4 pasaron en 4 meses. ¡Una por mes!

    Bueno, a qué voy con todo esto. Si tú vas a una fábrica la mayoría tiene un catastro de todos los accidentes que han tenido y todos lo conocen. ¿Por qué? Porque si se empiezan a dar muchos errores pegados, saben que es un problema del sistema y que tienen que hacer algo al respecto. El metro, en vez, le echa la culpa a los usuarios. Y por eso escribí este artículo.

    Espero haber dejado más claro eso. Slds! A.

    ResponderEliminar