🌻 Góc nhỏ chia sẻ những câu chuyện dở khóc dở cười mà tuôi gặp phải trong ngành IT 🌻

Mấy bạn hay nói mình là làm công ty IT nhưng không bao giờ thấy bạn Taiyang chia sẻ gì cả. Vậy nên mình tạo album này để thi thoảng sẽ viết bài kể về những "tình huống dở khóc dở cười" hay đó còn là những "case study" mà mình từng kinh qua trong hành trình làm IT.

📌 Câu chuyện hôm nay: "LỖI Ở ĐÂU?"

Sau một tuần cả team làm việc không nghỉ ngơi, làm việc thâu đêm suốt sáng thì cuối cùng cũng nhận được cái gật đầu từ khách sau khi khách test ổn áp trên môi trường Staging.

Thế là cả team xúng xính chuẩn bị pull request, checklist,.. để dì loi tính năng đó lên production.

Cả team lẫn khách đều nghĩ là "Khách test trên staging mấy dặm rồi team fix đi fix lại thêm mấy dặm nữa mà chắc chắn tỉ lệ phát sinh bug gần như là 0%", phải tự tin thế ấy ấy chứ ^^.

Nhưng hông nhaaaa, đúng 5 phút sau khi release thì anh khách đã ra tín hiệu 🚨

 

🚨 Khách báo lỗi gấp! 🚨

システムが突然めちゃくちゃ遅くなり、ユーザーはログインできず、一部の機能がクラッシュ…。

すぐ対応してください!💥

(Hệ thống đột nhiên chậm kinh khủng, user không login được, đã vậy một số chức năng còn bị crash... hãy fix ngay cho tao!!!)

 

Thế là cả team được dịp cuống cuồng 1 phen^^

Nói chung là tuôi không biết đọc code đâu, nhưng lúc này việc đầu tiên tuôi làm sẽ là yêu cầu team dev xuất file log của server production.

Kết quả:

✅ File log không xuất hiện lỗi
✅ Server vẫn chạy bình thường
✅ Kiểm tra config của prod thì thấy cũng không khác gì staging

Ủa rồi vấn đề ở đâuuuuuu???

 

Lúc này, tôi sẽ tạo một link meeting rồi gọi cả team vào để cùng nhau "hội bàn đào", xem rốt cuộc vấn đề nằm ở đâu.

💡 Dev A: Chắc do query SQL chưa được tối ưu? → Check lại, không có vấn đề gì.

💡 Dev B: Có khi nào merge thiếu code? → Kiểm tra lại, code đã đầy đủ.

💡 Tester: Hay API bị timeout? → Không, vẫn chạy bình thường.

💡 Tôi: Thôi thí mịa rồi… Sáng nay khách còn khen mình "素早い人 / Người làm việc nhanh nhẹn", mà giờ phát sinh issue thì biết làm sao đây… 😭

 

Cả team toát mồ hôi lục tung hệ thống kiểm tra... cuối cùng phát hiện:

🔴 Một dev quên tắt debug mode trên production, log bị spam liên tục, khiến hệ thống chạy chậm như rùa 🐢

 

Thực ra ban đầu team dev nghĩ chắc chắn là do phát sinh rò rỉ lỗi hệ thống nên lo đi điều tra chỗ này chỗ kia, chứ không nghĩ là quên tắt debug mode đâu.

Nhưng sau khi tìm được nguyên nhân thì đứa đứng giữa cũng phải lo nhanh chóng soạn bài để gửi "report bug" cho khách hàng nè.

Dưới đây là đoạn tin nhắn report của tuôi

大変お待たせいたしました。

本日リリースした新機能に関しまして、「レスポンスが遅い」「一部の機能がクラッシュする」とのご報告をいただきました。

社内で調査した結果、一部のログ設定が通常環境と異なっており、想定よりも多くのログが出力される状態になっていたことが判明いたしました。
これにより、処理負荷が増加し、パフォーマンスに影響を及ぼしていた可能性がございます。

現在、該当設定を適切に修正し、パフォーマンスが通常通り回復していることを確認しております。
また、追加のモニタリングを実施し、引き続き動作状況を注視してまいります。

この度はご不便をおかけし、誠に申し訳ございません。
今後、同様の事象が発生しないよう、環境設定の管理体制を強化するとともに、事前検証のプロセスを見直してまいります。

何かご不明点がございましたら、お気軽にお問い合わせください。

 

Câu chuyện tới đây là hết.

Nếu mấy bạn thấy thích đọc những chuyện như thế này thì tuôi sẽ chăm chỉ chia sẻ, nhưng nhớ để lại comment cho tuôi biết với nhé :P.