Program testing interaktif yang mendemonstrasikan bagaimana chip dari 3 generasi berbeda memproses instruksi — dari serial satu-per-satu hingga inferensi AI paralel masif.
Model AI seperti GPT melakukan triliunan perkalian matriks untuk setiap token yang digenerate.
Tensor Core melakukan semua operasi serentak paralel — bukan satu per satu.
Ukuran matriks:
MATRIKS A · Input Token
MATRIKS B · Bobot Model
HASIL OUTPUT · A × B
Pilih ukuran matriks lalu jalankan
Neural Network Forward Pass — Simulasi LLM Mini
Masukkan sebuah token/kata. Lihat bagaimana ia melewati layer-layer neural network sampai menjadi prediksi output.
Masukkan token lalu klik Forward Pass
Benchmark — Inferensi 100 Token
Berapa lama masing-masing chip membutuhkan waktu untuk menggenerate 100 token dari model AI?