http://www.netmedia.mx/actualidad/glosario-sobre-disponibilidad-y-transformacion-digital-que-todo-cio-deberia-manejar/
Actualidad

Glosario sobre disponibilidad y transformación digital que todo CIO debería manejar

La disponibilidad del servicio es un tema cada vez más prioritario para los negocios.  Se calcula que, en promedio, solo una hora de downtime cuesta a las empresas en torno a $300,000 mil dólares, y con la dependencia cada vez mayor que las organizaciones tienen respecto a la infraestructura informática, este no es un problema que vaya en retirada.

Según los analistas de Veeam, empresa especializada en administración de información y disaster recovery, estos son, al menos, 28 términos relacionados con disponibilidad y transfomación digital que todo CIO debería manejar:

  1. Always-on Enterprise: la empresa permanentemente activa es aquella que está siempre conectada y que cuenta con una infraestructura de IT tal que satisface, e incluso excede, las exigencias de las áreas de negocio en relación a disponibilidad y el cumplimiento de los acuerdos de niveles de servicio.
  2. Alta disponibilidad: habilidad de mantener funcionando de manera continua los servicios y operaciones de la empresa. Este término no sólo se relaciona con la disponibilidad de los servicios, sino también con una alta capacidad de recuperación.
  3. Business Impact Analysis (BIA): el análisis de impacto de negocios es una actividad de la gestión de continuidad de negocios que identifica las funciones vitales del negocio y sus dependencias, las cuales pueden incluir gente, proveedores, procesos de negocio, etcétera. El BIA define los requerimientos de recuperación, tales como RTO, RPO y los objetivos de niveles de servicio, para cada servicio de IT.
  4. Brecha de disponibilidad: diferencia entre los niveles de servicio que esperan las unidades de negocio, y la capacidad real del área de IT para entregar las aplicaciones e información que los usuarios requieren. Una disponibilidad insuficiente puede redundar en retrasos en las iniciativas de transformación digital.
  5. Brecha de protección: nivel de tolerancia que tiene una organización a datos perdidos de forma excesiva, por la falta de habilidad de los departamentos de IT para protegerlos con la frecuencia suficiente. Este tipo de brechas, junto con las brechas de disponibilidad, genera a las empresas un costo financiero directo de 21.8 millones de dólares (promedio).
  6. Caída: eventualidad en la que uno o varios elementos de configuración (sean servidores, aplicaciones o demás, de la infraestructura en servicios de IT) se encuentra no-disponible. Su impacto varía en función de la criticidad de los servicios asociados y el tiempo de indisponibilidad.
  7. Component Failure Impact Analysis (CFIA): el análisis de impacto por falla de componentes es una metodología que ayuda a identificar el impacto de fallas en elementos de configuración (servidores, aplicaciones y todo lo que componga la infraestructura) en servicios de IT.
  8. Confiabilidad: medida del tiempo en que un elemento de configuración se desempeña sin interrupciones. La confiabilidad determina qué tan factible es que un proceso, función y demás, entregue los resultados exigidos. Su nivel se define mediante el tiempo medido entre errores.
  9. Continuidad del negocio: conjunto de procesos y procedimientos que una organización pone en marcha para garantizar que las funciones esenciales puedan continuar, aun durante y después de un desastre.
  10. De-duplicación de datos: técnica especializada de compresión de datos para eliminar copias duplicadas de datos repetidos. Es ideal en términos de respaldo, pues elimina los datos redundantes almacenados guardando una única copia idéntica de los datos y reemplazando las copias redundantes por indicadores que apuntan a esa única copia.
  11. Disponibilidad: nivel en el que los elementos de configuración y servicios de IT desempeñan la función acordada cuando es requerido. La disponibilidad es determinada por la confiabilidad, mantenimiento, funcionalidad, desempeño y seguridad, y usualmente se calcula en porcentaje, utilizando los nueves, con base en el tiempo de servicio/tiempo de inactividad acordado. Mientras más nueves haya (ej. 99.999%), mayor disponibilidad se tiene garantizada.
  12. Disaster Recovery Plan (DRP): el plan de recuperación ante desastres es un proceso o conjunto de procesos documentado para recuperar y proteger la infraestructura de IT de una empresa en caso de desastre, sea natural o provocado de forma voluntaria o involuntaria, que impida la normal continuidad del negocio.
  13. Métrica de disponibilidad: porcentaje de tiempo que los elementos de configuración o servicios de IT son capaces de realizar las funciones para las que fueron diseñados. La fórmula que calcula estos niveles es: (Tiempo transcurrido total – suma de tiempo de inactividad)/tiempo transcurrido total = porcentaje de disponibilidad.
  14. Media Time Between Failures (MTBF): el tiempo medio entre errores es el intervalo de tiempo promedio, normalmente expresado en miles o decenas de miles de horas, que transcurre hasta que se produce un error en un elemento de configuración. Su cálculo se hace mediante la siguiente ecuación: (Tiempo transcurrido total – suma de tiempo de inactividad)/número de errores = MTBF.
  15. Plan de disponibilidad: plan que asegura que requerimientos de disponibilidad para servicios de IT existentes y futuros pueden proveerse de una forma costo-efectiva.
  16. Recuperación: actividad de devolver un servicio de IT o elemento de configuración a su estado de trabajo. La recuperación de un servicio de IT usualmente incluye llevar los datos a un estado conocido consistente. Después de la recuperación, aún se requiere dar determinados pasos antes de que el servicio pueda estar disponible para los usuarios (restauración).
  17. Redundancia: duplicación de componentes de hardware y sus configuraciones con la intención de solucionar problemas de protección y confiabilidad, a través de la realización de copias de seguridad a prueba de fallas. Los conceptos de redundancia y alta disponibilidad comprenden, juntos, la capacidad de detectar errores en la infraestructura de la manera más rápida posible y la habilidad de recuperarse del problema de forma eficiente y efectiva, afectando lo menos posible el servicio.
  18. Regla 3-2-1: precepto que muestra de manera concisa la mejor forma de respaldar de manera segura y efectiva. La regla recomienda mantener tres copias (una primaria y dos respaldos adicionales) de todos los archivos importantes, guardar la información en dos diferentes tipos de medios (como un disco duro y un medio óptico) para protegerse contra cualquier eventualidad y tener una copia almacenada en un medio externo (o al menos offline).
  19. Replicación: actividad (en línea o programada) de mantener varias copias de los datos de un sistema sin necesidad de que estén sincronizados instantáneamente e implicando, por lo común, distancia (sea física o lógica) de los datos replicados entre sí.
  20. Respaldo: actividad de copiar datos periódicamente, según las necesidades de la empresa, para protegerlos contra la pérdida de la integridad o disponibilidad de los originales. No suele implicar una distancia física.
  21. Respaldo automatizado: función que, sin intervención humana, permite proteger la información mediante la automatización del proceso de respaldo. Para activarla, es importante tener configurados los repositorios y contar con la configuración de red correcta, de manera que se permita la comunicación entre los clientes y el servidor de respaldo.
  22. Recovery Point Objective (RPO): el objetivo de punto de recuperación es la cantidad máxima de datos que puede perderse cuando el servicio se restaura después de una interrupción. Éste se expresa como la duración de tiempo antes de una falla. El RPO debe negociarse, acordarse y documentarse, para emplearse en requerimientos de diseño de servicios y planes de recuperación de IT.
  23. Recovery Time Objective (RTO): el objetivo de tiempo de recuperación se refiere al máximo tiempo permitido para que un servicio de IT se recupere después de una interrupción. Al igual que en el caso del RPO, el RTO debe ser negociado, acordado y documentado.
  24. Recovery Time/Point Objective (RTPO): se le llama así a la conjunción de las métricas RPO y RTO.
  25. Service-Level Agreements (SLA): el acuerdo de niveles de servicio es un acuerdo escrito entre un proveedor y su cliente donde se definen y fijan los compromisos de calidad con que se entregarán estos, de forma que ambas partes estén conscientes de lo que puede esperarse en aspectos como personal asignado, tiempos de respuesta, niveles de disponibilidad, etc…
  26. Single Point of Failure (SPOF): el punto único de falla es un elemento de la configuración que puede causar un incidente si falla, y para el cual no se ha implementado una contramedida. Además de infraestructura de IT, puede tratarse de una persona o un paso dentro de algún proceso o actividad.
  27. Tiempo de inactividad: tiempo que transcurre desde que, debido a una interrupción, un elemento de configuración o servicio de IT deja de estar disponible, hasta que pueda levantarse nuevamente.
  28. Tolerancia a errores: capacidad de un elemento de configuración o servicio de IT de continuar operando correctamente después de fallas en parte de los sistemas. Para lograr esta tolerancia, la cual incrementa la confiabilidad del entorno de IT, es preciso contar con un alto grado de redundancia.

Netmedia es mucha más que noticias. suscríbase y reciba lo mejor

Te recomendamos

Glosario sobre disponibilidad y transformación digital que todo CIO debería manejar