21/09/2015 22:19

2015-09-21: Incident sur un routeur

L'un de nos routeur situé à Telehouse2 a planté ce 21/09/2015 à 20:43. Nous l'avons remonté peu de temps après.
Cela a impacté une partie des clients en routage statique, ainsi que certain de nos services entre 20h43 et 21h04.

22/02/2014 17:29

2014-02-22: Incident routage

Nous avons a eu un problème de routage ce 22/02/2014 entre 14:33:32 et a peu près 14:55:01.

Pour un raison inexpliquée la mac-address de l'interface d'un de nos routeurs core (core3 @th2) avec l'un de nos routeurs border (br1 @th2) a été écrasée par celle d'une autre interface (ce qui est en théorie impossible vu que les 2 ont une liaison directe).
Cela a provoqué l'arrêt de la session BGP entre les deux équipements (ce qui est le comportement attendu) mais l'ospf a maintenu le chemin entre ces deux équipements, le lien étant up et le traffic ospf pouvant toujours passer
dessus.

Résultat: le trafic allant du routeur br1 vers ce routeur core3 tombait dans un "trou noir". Cela n'a pas concerné tout le trafic mais une partie importante notament le trafic venant de Orange et Free.

Nous nous sommes aperçu quasi immédiatement du problème, avant même que le monitoring nous remonte des alertes mais nous avons mis du temps à remonter à la cause du problème.

Toutes nos excuses pour cet incident.

13/05/2013 10:02

2013-05-10: Incident électrique 10/05/2013 - 17h11-17h23

Un incident électrique a impacté une partie de notre infrastructure sur le Datacenter Telehouse 2 ce 10/05/2013 entre 17h11 et 17h23.

Une des alimentations électriques de l'équipement d'un de nos clients a "brulée" aux environs de 17h11 et a fait disjoncter la baie du client mais également l'une de nos deux arrivées électriques (la "B"), à la fois le coffret et le départ Tableau Général Basse Tension (TGBT).
La source du problème n'étant pas de prime abord évidement identifiable, nous avons pris un peu de temps sur place avec les équipes de Telehouse pour être sur que le ré-enclenchement de l'arrivée ne poserait pas de nouveaux
problèmes.
L'arrivée électrique à été rétablie vers 17h22 et les équipements mono-alimentés sur cette arrivée ont redémarrés à ce moment là.
Les équipement en double alimentation (notamment coeur de réseau) n'ont pas été impactés, les équipements alimentée sur l'arrivée "A" non plus, nis nos équipements situés dans le Datacenter Equinix.


Je vous présente nos excuses pour cet incident.

Nous avons demandé au propriétaire de l'équipement concerné d'investiguer avec son fournisseur pour déterminer la raison de l'impact de ce problème.

11/04/2012 11:12

2012-04-11: Incident électrique sur le 1er TH2

Une coupure électrique a eu lieu ce matin vers 10h sur une zone du 1er etage de Telehouse2.

Etant situé au 2ème étage nous n'avons pas été directement impactés (à part notre standard téléphonique dont l'opérateur est situé dans la zone en question). Nos équipements ont continué a tourner et à être joignables.

Par contre de nombreux opérateurs semblent l'avoir été, plus ou moins fortement.

19/12/2011 12:18

2011-12-19: Coupure Fibres entre Telehouse2 et Equinix (PA2/PA3)

D'après nos informations un faisceau de 432 fibres optiques aurait été coupé entre les datacenter Telehouse 2 (Paris) et Equinix PA2/PA3 (Saint-Denis) vers 9h45 ce matin.
Nos 2 fibres entre ces datacenters n'ont pas été impactées.
Par contre il semblerait que certains abonnés Bouygues Télécom soient impactés et ne puissent par exemple plus joindre notre réseau (à priori problème de résolution DNS et non de connection proprement dit). D'après des informations (indirectes), le délais de réparation de ce faisceau en service serait de l'ordre de 3 à 4h.

16/12/2011 17:47

2011-12-16: Incident sur un serveur

Celui ci a été inaccessible pendant une 20aine des minutes à partir de 12h10 environ.
La cause est une attaque d'un serveur allemand à la recherches de failles sur les serveurs web hébergés.
L'attaque n'a pas réussie mais plusieurs sites web ayant une gestion particulières des pages non trouvées, cela a engendré une très forte charge jusqu'à rendre le serveur incapable de répondre aux requêtes, du fait du grand nombre de requêtes émises par l'attaquant.
La même attaque à également pris pour cibles d'autres serveurs mais ceux-ci non pas été autant impactés, seul un léger ralentissement à pu avoir lieu.

Nous avons mis un place un mécanisme de blocage automatique qui se déclenche lors d'un trop grand nombre de requêtes de ce style afin d'éviter que le problème ne se reproduise.

23/02/2011 18:56

2011-02-23: Problème sur les services de courrier

Entre 14h27 et 15h05 l'un de nosserveur de mail a été l'objet d'une attaque qui a généré une surcharge et rendu difficile voir impossible la réception et/ou l'envoi de mail pour certains.
L'attaquant a été bloqué et nous venons de mettre en place un système de détection de ce genre d'attaque qui bloque automatiquement l'assaillant dans les secondes suivants ses tentatives.

05/03/2010 16:31

2010-03-05: Interruption de l'alimentation electrique au 1er etage de Telehouse2

Une coupure électrique de 27mn à eu lieu aujourd'hui au 1er étage de telehouse 2, aproximativement entre 13h40 et 14h13.
Une 2ème vient d'avoir lieu semble-til entre 16h01 et 16h26.

Oxymium n'a pas été impacté.

21/12/2009 11:28

2009-12-19: Problème sur les appels entrants

Un problème sur les équipement de l'un de nos fournisseurs de téléphonie s'est produit vendredi 19/12 entre 9h05 et 14h52.
Le problème est, semble-t-il, lié aux firmwares des équipements.
Les appels entrant ont été perturbés entre 9h05 et 12h56 puis entre 13h29 et 14h52.
Les appels sortants n'ont pas été impactés: ils ont été routé automatiquement vers un 2eme fournisseur (ce que nous ne pouvons hélas pas faire pour les appels entrants).

24/07/2009 19:34

2009-07-23: Incident electrique dans notre salle à Telehouse 2

Un électricien de Telehouse venant faire une mesure de consommation électrique dans notre salle à Telehouse 2 a commis une erreur de manipulation et coupé 2 disjoncteurs vers 16h39.
L'interruption a durée quelques secondes.
Les équipements de baies concernées n'ont pas tous été impactés. Notre équipe asuivi l'incident avec les clients concernés.

Nous nous sommes entretenu avec la direction de Telehouse afin d'avoir les assurances qu'une telle erreur ne se reproduise pas et que leurs procédures soient revues afin d'améliorer leur efficacités en cas d'incident.

Les rapports complets d'incident ont été transmis aux clients impactés

23/07/2009 16:28

2009-07-23: Peering PaNAP a nouveau Opérationnel

Notre lien PaNAP qui était down depuis plusieurs semaines vient d'être réactivé, après recablage de la fibre et changement d'un SFP au niveau du routeur PaNAP.

06/07/2009 17:04

2009-07-06: Problemes de pertes de packets

Un probleme indeterminé à commencé à engendrer des pertes de packets sur 3 liaisons clients et 1 liaison de transit probablement vendredi 03/07 matin vers 8h.
Ce probleme n'arrivait que par intermitance sur un nombre de ports restreint d'un switch et s'est aggravé au fur et à mesure du temps.

A partir de la nuit de samedi à dimanche le problème a commencer à générer quelques alertes et nous avons travaillé toute la journée de dimanche à rechercher l'origine du probleme et le ou les équipements et/ou liaisons fautifs/ves.

Nous avons mis à jour le firmware d'un switch et rédamarré un routeur le 05/07 vers 12h30 et 20h, déconnecté certaines liaisons non prioritaires mais cela n'a apporté aucune amélioration ni élement sur la nature du problème.

Nous avons donc décidé de déplacer ce lundi 06/07 au matin les connections du switch étant à l'origine la plus probable du dysfonctionnement. Le probleme impactant uniquemen une faible partie des clients nous avons choisi de différer de quelques heures cette intervention afin de la préparer au mieux et de ne pas risquer d'entrainer des problèmes plus conséquents. Les clients impactés on été prévenu dimanche soir.

La situation est redevnue normale pour les clients à 10h03 et nous avons réabli le 2eme transit à 10h33.

Les clients impactés vont être contacté individuellement afin de leur proposer une remise.

Nous allons analyser dans les prochains jour le problème afin de:
- mettre en place des alertes supplémentaires
- étudier les amélioration à apporter à l'architecture réseau pour faire face à ce genre de probleme.

23/06/2009 12:37

2009-06-23: Redemarrage d'un switch

csw-1 a redemarré automatiquement suite à un bug logiciel à 9h26. Cela a engendré une coupure de 30s sur certains liens client.

2009-06-23: Incident cogent

Le remplacement d'une carte dans le routeur principal Cogent à Telehouse Paris à provoqué un court-circuit qui a endommagé le châssis du routeur ce matin vers 6h20.

Consequence: notre transit Cogent est coupé

Impact: Aucun, notre autre transit achemine le traffic.

Ils remplacent le chassis et notre lien devrait remonter vers 13h

02/06/2009 20:23

2009-06-02: Problemes SMTP, POP et IMAP

Nous avons des problemes intermittant au niveau de l'authentification des connections SMTP, POP et IMAP ce 02/06 entre 6h13 et 8h53.
Le problème est venu d'un des serveurs ldap qui ne repondait plus à toutes les requêtes sans pour autant être totalement mort.
Nous avons identifié la cause du problème et cela ne devrait plus se reproduire

21/05/2009 19:59

2009-05-21: Redemarrage serveur d'admin

Nous avons du redemarrer physiquement l'un de nos serveurs d'administration (uadm1) suite à un problème de mémoire non corrigé par l'ECC.
L'interface de gestion des comptes a été indisponibles et les graphes de bande-passante ont été impactés.

15/05/2009 16:18

2009-05-15 Redemarrage serveur Web

Suite a des problemes de gestion des logs et de connections FTP nous avons redemarré un serveur web à 11h35. Rétablissement total à 11h43

19/02/2009 18:02

2009-02-19: Incident PoP Pastourelle de France Telecom

Depuis 11h30 environ il semble qu'il y ait un incident sur le PoP Pastourelle de France Telecom.
Certaines IP du reseau France Telecom sont joignables avec une forte latence:
...
4 193.252.159.166 48 msec 48 msec 48 msec
5 193.251.128.117 52 msec 48 msec 64 msec
6 193.251.128.118 256 msec 260 msec 252 msec
...

16/02/2009 19:27

2009-02-16: Probleme de routage

Entre 17h24 et 18h et quelque, certaines destinations ont pu être injoignables.

La cause est une mauvaise configuration (as-path trop long) d'un opérateur en République tchèque, mauvaise configuration qui s'est propagé a plusieurs opérateurs au niveau mondial.

Nous n'avons pas été directement impacté mais plusieurs autres réseaux oui.

Plus d'informations:
Ahh, The Ease of Introducing Global Routing Instability
Reckless Driving on the Internet


10/01/2009 18:57

2009-01-10 Redemarrage d'un serveur web

Suite au plantage inopiné d'un serveur web nous avons du procéder à son redemarrage.