Problemas de plataforma
Incident Report for Khipu
Postmortem

La mayor parte de la infraestructura para la operación de Khipu está alojada en centros de procesamiento de datos internacionales del más alto nivel. Sin embargo, una parte de esta infraestructura, que es la que usa más recursos de red en los procesos de pago, se aloja en un datacenter nacional, con un proveedor de primera línea internacional. Sin embargo, la operación de ese datacenter tuvo un problema en su configuración de red que afectó nuestro ambiente de producción. No sabemos si afectó a otros clientes y nuestro propio ambiente de certificación siguió operando con normalidad.

Algunos servicios de aplicaciones (Kubernetes) comenzaron a fallar en la madrugada de hoy. Durante la mañana diagnosticamos problemas en el funcionamiento de la red y nos pusimos en contacto con el proveedor, escalando rápidamente en el nivel de soporte asignado. En paralelo, ejecutamos nuestro procedimiento de recuperación ante desastres y levantamos una copia del servicio, sin embargo, antes de comenzar a operar con ella, el proveedor pudo arreglar el problema. A las 14:35 horas la situación quedó superada

Si bien es lamentable que esto haya afectado a nuestros clientes y sus usuarios, creemos importante analizar la situación con altura de miras. El tiempo de recuperación fue rápido para la envergadura del problema, el comité de crisis actuó según lo indicado en los procesos de desastre, los clientes fueron informados oportunamente a través de correo y mediante la página https://status.khipu.com, que son los canales comprometidos, no hubo pérdida de información y la copia de la infraestructura ya puede atender a nuestros clientes y sus usuarios sin que alguno de estos tenga que cambiar algo en sus sistemas.

Creemos que el tiempo de recuperación puede ser menor y trabajaremos en las mejoras pertinentes al proceso de recuperación ante desastres, de modo que en la eventualidad de otro incidente así de grave, podamos restaurar nuestros servicios mucho más rápido. En Chile teníamos un único datacenter de esta naturaleza, porque hasta hace muy poco no había más proveedores de clase mundial que ofrecieran un servicio de Kubernetes operado en Chile, pero ahora estamos en condiciones de dividir la operación en 2 proveedores activos, de modo que uno pueda absorber la operación del otro en caso de contingencia. Trabajaremos para dejar esto operativo la primera quincena de junio.

Posted May 23, 2023 - 16:23 GMT-04:00

Resolved
This incident has been resolved.
Posted May 23, 2023 - 15:02 GMT-04:00
Identified
El problema ya está diagnosticado y estamos trabajando en resolverlo. Se trata de un error en la configuración de red del servicio de un proveedor estratégico.
Posted May 23, 2023 - 13:17 GMT-04:00
Investigating
Estamos presentando problemas en estos momentos. Estamos investigando
Posted May 23, 2023 - 09:31 GMT-04:00
This incident affected: Iniciación de pagos (Khipu Web).