Skip to main content

วิธีแก้ไขปัญหาจอฟ้า บน Windows กรณี CrowdStrike update

By 22 กรกฎาคม 2024Good Articles

ในศุกร์(19-07-2024)ที่ผ่านมา มีรายงานว่าระบบปฏิบัติการ Windows ของหลายองค์กรทั่วโลกเกิดปัญหา “จอฟ้า” หรือ Blue Screen of Death (BSOD) อย่างกว้างขวาง สาเหตุหลักมาจากการอัปเดตซอฟต์แวร์ CrowdStrike ที่ติดตั้งอยู่ในระบบ

CrowdStrike ซึ่งเป็นบริษัทด้านความมั่นคงปลอดภัยไซเบอร์ ได้ระบุว่าปัญหานี้เกิดจากข้อบกพร่องในการอัปเดตเนื้อหา (content update) ไม่ใช่เหตุการณ์การโจมตีทางไซเบอร์แต่อย่างใด ทางบริษัทได้ดำเนินการแก้ไขปัญหาดังกล่าวแล้ว และแนะนำวิธีแก้ไข[2] เบื้องต้นสำหรับผู้ใช้งานที่ยังประสบปัญหา ดังนี้:

  1. บูตเข้าสู่ Safe Mode โดยให้ระบบบูตและ crash หลายครั้ง จนกระทั่งเมนู “Choose an Option” ปรากฏขึ้น
  2. เลือก “Troubleshoot” > “Advanced Options” > “Command Prompt”
  3. หากระบบมีการป้องกันด้วย BitLocker ให้ป้อนรหัสการกู้คืน BitLocker
  4. เข้าไปยังไดเรกทอรี “C:\Windows\System32\drivers\CrowdStrike” และลบไฟล์ “C-00000291*.sys”
  5. รีบูทเครื่องอีกครั้ง

ทั้งนี้ หากยังพบปัญหาหลังจากดำเนินการตามขั้นตอนข้างต้นแล้ว ควรติดต่อทีมงานของ CrowdStrike เพื่อขอความช่วยเหลือเพิ่มเติม

ประเด็นท้าทาย

  1. เนื่องจากปัญหาข้างต้น กระทบกับเครื่อง Windows จำนวนมาก ซึ่งแนวทางแก้ไขที่มีแล้วในปัญจุบัน คือต้องแก้ไขเป็นรายเครื่อง เราจะแก้ไขเครื่องจำนวนมากในเวลาสั้นที่สุดอย่างไร? แนวทางสร้าง USB recovery โดย Microsoft [3]
  2. บริษัท ที่ทำ  IT Services Pooling ที่ต่างประเทศจะแก้ไข อย่างไร โดยไม่ให้เกิด Data breach
  3. Server บน Cloud ของฉันจะทำอย่างไร
  4. จุดอ่อนของ Windows ในลักษณะนี้ จะเกิดจาก  Software อื่นได้อีกหรือไม่
  5. เราสามารถป้องกันปัญหานี้ใน อนาคตได้อย่างไร

วิเคราะห์ปัญหา

จากลักษณะของปัญหาข้างต้น หากแยกองค์ประกอบจะพบว่า

  1. ระดับชั้นของการทำงานของ Crowdstrike [1] – เนื่องจาก Software ทำงานในระดับ Driver (สังเกตุจาก Folder) ที่โดยปกติระดับนี้จะติดต่อกับ Kernel อันมีผลกับ การทำงานระหว่าง Software(OS) กับ Hardware ซึ่งเป็นจุดที่ทำให้เกิด BSOD ได้อยู่แล้ว โดยปัญหา BSOD โดยทั่วไปก็เกิดขึ้นจาก เช่น Hardware มีปัญหา, Driver ไม่ถูกต้องหรือมีปัญหา แต่กรณี Crowdstrike เป็นปัญหาใหญ่เพราะอะไร
  2. Crowdstrike มี Command and Control center – หาก BSOD เกิดจาก Hardware มีปัญหา ก็จะเป็นประเด็นเฉพาะเจาะจงกับเครื่องเป็นรายๆไป แต่หากเกิดจาก การ Update Software อย่าง Driver ก็จะเป็นปัญหาวงกว้างได้  เราจึงพบว่า การ Update Patch หรือ Driver ของระบบปฎิบัติการ ขององค์กรใหญ่ จะต้องมี กระบวนการในการทดสอบ อย่าง Staging และการทำ Deployment Plan แบบค่อยเป็นค่อยไปเพื่อจำกัดผลกระทบ แต่รูปแบบการทำงานของ Crowdstrike นั้น Software ทำ Auto Update ในวงกว้าง โดยผู้ใช้ไม่สามารถกำหนด แผนรับมือล่วงหน้าได้
  3. จุดอ่อนที่น่าสนใจ –  กรณีประเด็นปัญหานี้ เผยให้เห็นจุดอ่อนที่น่าสนใจ ของระบบปฎิบัติการ เพราะเพียงสั่งการ Update ซึ่งทุกระบบรักษาความปลอดภัยก็จะทำอยู่เป็นประจำอยู่แล้ว ก็สามารถหยุดการทำงานของระบบ โดยไม่สามารถย้อนกลับได้ ในลักษณะที่ควบคุมได้จากส่วนกลาง

แนวทางป้องกัน

เราในฐานะผู้ใช้งาน คงไม่สามารถเข้าไปปรับเปลี่ยนหรือเพิ่มประสิทธิภาพของโปรแกรมได้มากมายนัก แต่เรายังสามารถกำหนดแนวทางปฎิบัติเพื่อลดผลกระทบหากเกิดปัญหาในลักษณะเดียวกันนี้อีก

  1. การสำรองข้อมูลนั้นจำเป็น Backup is the must – แม้กรณีนี้จะไม่ได้ทำให้ข้อมูลเสียหายหรือหายไปถาวร แต่การใช้งานข้อมูลไม่ได้ก็คือการเสียข้อมูลเป็นระยะเวลาหนึ่ง ซึ่งหากเกินค่า RPO  นั่นก็แปลว่าเราเสียข้อมูลไปแล้ว หากเรามีการสำรองข้อมูลที่ดี เราสามารถย้อนเวลากลับไปก่อนเกิดปัญหา ก่อนที่แนวทางแก้ไขอย่างเป็นทางการจะถูกกำหนดออกมาด้วยซ้ำ นอกจากนี้ Recovery Solution ยังมีแนวทางทำ Remote Restore ให้เราสามารถจัดการช่วยเหลือเครื่องที่ไม่มีเจ้าหน้าที่ไอทีดูแล ได้ง่ายขึ้น
  2. อย่ายึดมั่นกับโซลูชั่นเดียว Always Plan B – หากคุณทำงานไอที มาซักระยะ คุณจะพบว่านี่ไม่ใช่ครั้งแรกและแน่นอนว่า จะไม่ใช่ครั้งสุดท้าย ที่เกิดปัญหาในลักษณะนี้ ฉะนั้นอย่าวางใจ ฝากชีวิตไว้กลับ โซลูชั่นใด โซลูชั่นหนึ่ง เพียงลำพัง คุณควรจะสามารถมีแนวทางปฎิบัติเมื่อแนวทางปกติไม่สามารถดำเนินการได้เสมอ ใช่แล้ว คุณต้องมี Plan B ไว้ ในทุกงานสำคัญ
  3. มีแผนรับมือภัยพิบัติ Disaster Recovery Plan –  แผนรับมือภัยพิบัติ ใช้ได้เสมอกับกรณีอย่างนี้ ซึ่งรองรับถึงกรณีเกิด Cyber Attack เลยด้วยซ้ำ เพราะหากเรามี Air gap ระหว่าง Production กับ Site สำรอง เราก็มั่นใจได้ว่าเรายังจะสามารถดำเนินกิจการได้อย่างไม่สะดุดในระหว่างที่ คนอื่นกำลังวุ่นวายจัดการปัญหา

สุดท้ายนี้ เราได้เรียนรู้และบทเรียนจากปัญหาข้างต้น เพื่อไม่ให้เราประมาทกับการใช้งานระบบ จะเห็นว่าโซลูชั่นที่คิดว่าดีที่สุด(จากประวัติศาสตร์ เหตุการณ์แบบนี้เกิดกับผู้นำตลาดทุกครั้ง)ก็ไม่เคยมี มีแต่แนวทางปฎิบัติที่ถูกต้องจะนำพาทางออกที่เหมาะสมให้แก่เรา เพราะสุดท้ายไม่มีใครสามารถรับผิดชอบอะไร แทนเราได้ทั้งหมดนอกจากตัวเราเอง เท่านั้น…

Reference :-

[1] – CrowdStrike IT Outage Explained by a Windows Developer

[2] – Technical Details: Falcon Content Update for Windows Hosts

[3] – Using-the-Microsoft-Recovery-Tool-for-Automated-Host-Remediation