Chi tiết về lỗ hổng Rowhammer trên GPU GDDR6

Đăng bởi: Ngày: 04/04/2026

Rowhammer từ lâu đã được coi là một “lời nguyền” đối với bộ nhớ DRAM của CPU. Tuy nhiên, những nghiên cứu đột phá mới nhất vào cuối năm 2025 và đầu năm 2026 đã chứng minh một sự thật kinh hoàng: các bộ xử lý đồ họa (GPU) hiện đại sử dụng bộ nhớ GDDR6 cũng không hề miễn nhiễm. Thậm chí, việc khai thác Rowhammer trên GPU còn cho phép kẻ tấn công vượt qua mọi cơ chế cô lập để chiếm quyền truy cập root cao nhất trên hệ thống vật chủ. Bài viết này sẽ đi sâu vào cơ chế kỹ thuật, quy trình tấn công và những hệ lụy nghiêm trọng của các biến thể Rowhammer trên GPU như GPUHammer, GDDRHammerGeForge.

Rowhammer là gì và tại sao nó lại xuất hiện trên GPU?

Rowhammer là một lỗi phần cứng phát sinh từ mật độ tế bào nhớ ngày càng cao trong các chip DRAM hiện đại. Khi một hàng bộ nhớ (Aggressor row) được truy cập (kích hoạt và đóng lại) liên tục với tốc độ cực cao, nó tạo ra nhiễu điện từ làm rò rỉ điện tích ở các hàng lân cận (Victim rows). Nếu điện tích rò rỉ đủ lớn trước khi chu kỳ làm tươi (refresh) diễn ra, một bit dữ liệu sẽ bị lật (0 thành 1 hoặc ngược lại) mà không cần sự cho phép của hệ thống.

Trước đây, giới chuyên gia tin rằng bộ nhớ đồ họa (GDDR) an toàn hơn DRAM thông thường do có độ trễ cao và tốc độ làm tươi nhanh hơn. Tuy nhiên, nghiên cứu về GPUHammer đã lật ngược giả thuyết này. Các GPU hiện đại có khả năng xử lý song song cực mạnh, cho phép thực hiện hàng trăm nghìn lệnh kích hoạt hàng bộ nhớ trong một khoảng thời gian cực ngắn, đủ để gây ra lỗi lật bit trên GDDR6.

Quy trình tấn công: Từ lật Bit đến quyền Root

Để biến một lỗi vật lý ngẫu nhiên thành một công cụ chiếm quyền root, các nhà nghiên cứu đã phát triển những kỹ thuật tinh vi sau:

Bước 1: Đảo Ngược Kỹ Thuật (Reverse Engineering) địa chỉ bộ nhớ

Thách thức lớn nhất trên GPU là kiến trúc sơ đồ bản đồ địa chỉ (memory mapping) thường được nhà sản xuất (NVIDIA) giữ bí mật. Để thực hiện Rowhammer chính xác, kẻ tấn công cần biết địa chỉ ảo nào tương ứng với các hàng vật lý nằm cạnh nhau trong chip nhớ. Kỹ thuật Page Anchoring đã được sử dụng để xác định chính xác các khung trang (page frames) vật lý thông qua việc đo lường độ trễ bộ nhớ đệm L2.

Bước 2: Kỹ thuật “Massaging” Bộ Nhớ (Memory Massaging)

Đây là bước then chốt. Kẻ tấn công sẽ điều hướng các cấu trúc dữ liệu nhạy cảm của hệ thống — cụ thể là Bảng Trang (Page Tables) của GPU — vào đúng vị trí của những bit bộ nhớ dễ bị lật đã được xác định trước đó.Bằng cách sử dụng các hàm như cuMemMap(), kẻ tấn công có thể tạo ra hàng nghìn bảng trang “rỗng” để lấp đầy các vùng nhớ an toàn, buộc trình điều khiển (driver) phải đặt bảng trang mục tiêu vào vùng nhớ mà kẻ tấn công có thể “nện búa”.

Bước 3: Đánh tráo Bảng Trang để thâm nhập CPU

Khi một bit trong bảng trang của GPU bị lật thành công bởi Rowhammer, địa chỉ mà bảng trang đó trỏ tới sẽ thay đổi. Các cuộc tấn công như GeForgeGDDRHammer nhắm vào trường địa chỉ vật lý trong các mục bảng trang (PTE).

  • Kẻ tấn công có thể làm cho một bảng trang của GPU trỏ trực tiếp vào bộ nhớ vật lý của CPU vật chủ.

  • Vì GPU thường có quyền truy cập trực tiếp bộ nhớ (DMA) để tăng tốc hiệu năng, việc chiếm quyền kiểm soát bảng trang cho phép nhân (kernel) của kẻ tấn công đọc và ghi vào bất kỳ vùng nhớ nào của hệ thống.

Các thử nghiệm thực tế trên dòng card đồ họa phổ biến nhất hiện nay cho thấy quy mô nghiêm trọng của vấn đề:

  • RTX 3060 (Kiến trúc Ampere): Các nhà nghiên cứu đã ghi nhận tới 1.171 lần lật bit độc nhất trên 72 ngân nhớ (banks) khác nhau.

  • RTX A6000 (Dòng máy trạm): Ghi nhận hơn 202 lần lật bit.

  • Thời gian thực hiện: Trong một số kịch bản, kẻ tấn công chỉ mất trung bình 63,2 giây để thực hiện thành công việc lật bit và giành quyền đọc/ghi bộ nhớ CPU.

Đặc biệt, lỗi lật bit chủ yếu diễn ra theo hướng 0 thành 1 (chiếm hơn 80% trường hợp), cho thấy các tế bào nhớ GDDR6 hoạt động như những “anti-cells”.

Hệ Lụy: Root Shell và sự sụp đổ của hệ thống

Khi đã có quyền đọc/ghi bộ nhớ vật lý của CPU thông qua GPU, kẻ tấn công có thể thực hiện những hành vi sau:

  1. Chiếm quyền Root Shell: Ghi đè mã độc vào các thư viện dùng chung như libc.so.6. Khi một chương trình có quyền SUID (như newgrp) khởi chạy và gọi các hàm từ thư viện này, nó sẽ thực thi mã độc của kẻ tấn công với quyền root cao nhất.

  2. Đánh cắp mô hình AI: Truy cập trực tiếp vào các vùng nhớ lưu trữ tham số mô hình máy học (ML) nhạy cảm của các tiến trình khác chạy trên cùng GPU.

  3. Vượt qua cơ chế cô lập (Sandbox Escape): Phá vỡ ranh giới giữa các người dùng trong môi trường điện toán đám mây đa người dùng (multi-tenant).

NVIDIA và các nhà nghiên cứu đã đề xuất một số biện pháp bảo vệ, nhưng mỗi biện pháp đều có sự đánh đổi:

  • Kích hoạt ECC (Error Correcting Code): Bộ nhớ kiểm soát lỗi có thể phát hiện và sửa chữa các lỗi lật đơn bit. Tuy nhiên, nhiều GPU phổ thông (như RTX 3060) không hỗ trợ ECC. Với các dòng card cao cấp, việc bật ECC sẽ gây giảm hiệu năng từ 3-10% và mất khoảng 6.5% dung lượng VRAM. Hơn nữa, Rowhammer vẫn có thể lật nhiều bit cùng lúc để vượt qua cơ chế sửa lỗi của ECC.
  • Kích hoạt IOMMU (Input-Output Memory Management Unit): IOMMU thiết lập một rào cản ảo giữa các thiết bị ngoại vi (GPU) và bộ nhớ CPU. Nếu IOMMU được cấu hình chặt chẽ, các bảng trang bị hỏng của GPU sẽ không thể trỏ sang bộ nhớ vật chủ. Tuy nhiên, IOMMU thường bị tắt theo mặc định trong BIOS của nhiều máy tính cá nhân để tránh các vấn đề tương thích. Ngoài ra, IOMMU cũng không ngăn được các cuộc tấn công nội bộ trong bộ nhớ GPU (GPU-local attacks).

Tin vui là NVIDIA đã tích hợp sẵn cơ chế On-die ECC (ECC tích hợp ngay trên chip nhớ) cho các dòng GPU đời mới như Blackwell (RTX 50 series) và Hopper (H100). Cơ chế này hoạt động tự động, không làm giảm hiệu năng và cung cấp khả năng bảo vệ tốt hơn đáng kể trước Rowhammer.

Việc Rowhammer có thể khai thác thành công trên GPU GDDR6 là một hồi chuông cảnh báo cho ngành công nghiệp máy tính. Nó chứng minh rằng những lỗ hổng ở tầng vật lý có thể xuyên thủng các lớp bảo mật phần mềm kiên cố nhất. Mặc dù rủi ro đối với người dùng cá nhân là thấp (vì cuộc tấn công đòi hỏi quyền thực thi mã cục bộ), nhưng đối với các trung tâm dữ liệu và môi trường đám mây AI, đây là một hiểm họa hiện hữu.