Comment mettre en place l'ingénierie du chaos pour améliorer la résilience de votre équipe d'intervention en cas d'incident?

By Devoxx · 2024-02-24

Découvrez comment l'ingénierie du chaos a permis d'améliorer la réactivité de l'équipe d'intervention en cas d'incident chez Before Exam pour AWS à Dublin. Des pratiques innovantes ont été mises en place pour renforcer la résilience de l'entreprise.

Le génie de l'ingénierie du chaos

  • Ted a évoqué dans son premier discours les dieux de l'informatique, mais il semblerait qu'il y ait aussi des dieux pour les démonstrations en direct et les présentations.

  • Chris, qui a travaillé avec Before Exam pour AWS à Dublin, partage une histoire sur la façon dont ils ont utilisé des pratiques développées pour améliorer la vie des gens.

  • Avant de présenter leur travail, Chris fait une brève introduction sur Exam, une entreprise de courtage en ligne avec plus de 5 millions de clients dans le monde et des bureaux dans plusieurs pays.

  • L'entreprise utilise plus de 60 applications dans Kubernetes et un large éventail de services AWS, ainsi que des outils tiers pour améliorer leurs processus.

  • Chris explique comment ils intègrent le chaos engineering dans leurs processus en suivant six étapes, ce qui leur a permis d'ajouter une politique de cycle de vie à l'ensemble de leur méthodologie.

  • L'objectif principal est d'utiliser les services et les ressources pour améliorer la vie des employés, mettant ainsi l'accent sur les gens plutôt que sur les processus.

Le génie de l'ingénierie du chaos
Le génie de l'ingénierie du chaos

Points clés de la présentation sur les cycles de vie et les expériences

  • Les points à retenir deviennent des points d'action pour la prochaine vague.

  • L'incorporation d'un cycle de vie dans nos processus principaux, tels que la conception de solutions, les évaluations de performances et parfois même les révisions d'applications, vise à éviter que quoi que ce soit ne passe à la trappe.

  • Plusieurs expériences ont été menées, notamment la simulation d'une défaillance de climatisation, la suppression de ports, la formation de demandes et le laboratoire du service d'assistance.

  • La simulation d'une défaillance de climatisation consiste à supprimer des nœuds spécifiques et à observer la création de nouveaux nœuds dans les bons systèmes de climatisation, suivant des politiques de rééquilibrage et de haute disponibilité.

  • La suppression de ports, qu'elle soit volontaire ou involontaire, a été simulée pour évaluer le temps nécessaire à l'automatisation pour réaliser cela, ce qui se fait en quelques secondes.

  • La formation de demandes vise à évaluer la capacité des applications à gérer le trafic en cas de pic, simulant ainsi des millions de demandes pour observer l'impact sur les systèmes dépendants.

  • Enfin, le laboratoire du service d'assistance vise à former les premiers intervenants aux incidents, en particulier pour les équipes travaillant en soirée et la nuit.

Points clés de la présentation sur les cycles de vie et les expériences
Points clés de la présentation sur les cycles de vie et les expériences

Mise en place d'un système de simulation d'alertes

  • Une demande a été formulée par le responsable du service pour simuler certaines alertes sans que les ingénieurs ou les agents ne le sachent.

  • Une solution a été mise en place en utilisant un programme d'appel API tel que Postman ou Red Node pour envoyer un appel à une passerelle API, connectée à une fonction Lambda déclenchant le simulateur d'injection de panne (FIS) d'AWS.

  • Ce service permet de simuler des pannes et est connecté à un agent de surveillance. Lorsque les services simulés tombent en panne, une alerte est déclenchée, et l'équipe d'intervention spécifique est chargée de suivre le processus prédéfini.

  • Des procédures spécifiques ont été mises en place pour que le service concerné traite ces alertes simulées comme des alertes réelles, mais en assurant d'abord leur légitimité avant d'intervenir.

Mise en place d'un système de simulation d'alertes
Mise en place d'un système de simulation d'alertes

Analyse approfondie de l'utilisation de l'API Gateway et des services cloud

  • L'utilisation de l'API Gateway a été bien contrôlée avec des politiques de ressources pour garantir la sécurité. L'authentification de l'utilisateur ainsi que son rôle SSO spécifique ont été mis en place pour garantir des autorisations adéquates.

  • La fonction Lambda a été restreinte pour répondre uniquement aux besoins spécifiques, en évitant les exceptions non gérées et en privilégiant un code propre. De plus, un service de simulation de l'injection de fautes a été utilisé pour répondre efficacement aux besoins.

  • Les ingénieurs ont constaté une accélération du processus d'intégration et une meilleure confiance dans l'utilisation des services cloud. Cela a conduit à une identification des lacunes dans les scénarios d'exécution, offrant ainsi la possibilité de revamps pour automatiser davantage les configurations.

Analyse approfondie de l'utilisation de l'API Gateway et des services cloud
Analyse approfondie de l'utilisation de l'API Gateway et des services cloud

Introduction à la résilience des systèmes informatiques

  • L'entreprise a mis en place une approche de tests de résilience, appelée l'ingénierie du chaos, qui vise à simuler des pannes et à observer comment les applications réagissent.

  • Le but est de permettre aux équipes informatiques de tester réellement la résilience de leurs systèmes, notamment en mettant en place des bases de données multi-zones ou des systèmes actifs-actifs.

  • Les exercices de simulation ont déjà porté leurs fruits lors de situations réelles, comme des attaques automatisées ou des pannes, où les équipes ont pu réagir rapidement grâce à l'entraînement reçu.

Introduction à la résilience des systèmes informatiques
Introduction à la résilience des systèmes informatiques

Conclusion:

En mettant en place des pratiques innovantes telles que l'ingénierie du chaos, Before Exam pour AWS à Dublin a réussi à renforcer la résilience de son équipe d'intervention en cas d'incident. Cette approche axée sur les individus a permis d'améliorer la réactivité et la qualité de vie des employés.

ingénierie du chaosrésilience des systèmes informatiquesincident response teamamélioration des processuspratiques innovanteséquipe technique réactive
Comment Numériser la Logistique des Marchandises: 5 Solutions IncontournablesQu'est-ce que les développeurs devraient apprendre pour 2024?

About HeiChat

Elevating customer service with advanced AI technology. We seamlessly integrate with your store, engaging customers and boosting sales efficiency.

Connect With Us

Join our community and stay updated with the latest AI trends in customer service.

© 2024 Heicarbook. All rights reserved.