Skip to content

Belajar llama.cpp: Jalankan AI di Laptop Tanpa Ribet

Yhotie
Published date:
Edit this post

Pendahuluan

Dulu, menjalankan AI seperti ChatGPT butuh:

Sekarang? Cukup laptop biasa.

Dengan llamacpp, kamu bisa menjalankan AI langsung di perangkat sendiri—offline, cepat, dan tanpa ribet.

llamacpp

Artikel ini akan membimbing kamu dari nol sampai bisa:


🧠 Apa Itu llamacpp?

llamacpp adalah tools open-source berbasis C/C++ untuk menjalankan model AI (LLM) secara lokal.

Sederhananya:

llamacpp = cara menjalankan AI tanpa cloud

Kenapa menarik?


Cara Kerja llamacpp

Agar lebih mudah dipahami, bayangkan alurnya seperti ini:

Model (.gguf) → llama.cpp → Output AI

Komponen Utama

1. Model (.gguf)

File model AI yang sudah dioptimasi.

2. Engine (llamacpp)

Yang menjalankan model tersebut.

3. Interface


Cara Menjalankan llamacpp (Praktik Nyata)

1. Jalankan di Terminal

./llama-cli -m model.gguf -p "Halo AI"

Jika ingin menjalankan server yang menyediakan endpoint API atau mode server, contoh menjalankan dengan tuning berikut:

./llama-server -m ../Llama-3.2-1B-Instruct-Q4_K_S.gguf --ctx-size 1024 -ngl 0

Atau untuk menjalankan CLI (non-server) dengan tuning konteks dan CPU mode:

./llama-cli -m ../Llama-3.2-1B-Instruct-Q4_K_S.gguf --ctx-size 1024 -ngl 0

Penjelasan singkat:

AI akan langsung memberikan respon di terminal (atau berjalan sebagai server bila didukung).


2. Jalankan dengan Podman

podman run -it --rm \
  -v $(pwd)/models:/models \
  ghcr.io/ggml-org/llama.cpp:light \
  -m /models/model.gguf \
  -p "Halo dari llamacpp"

Penjelasan:


Ubah llamacpp Jadi API Server

Ini bagian paling powerful

podman run -d \
  -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggml-org/llama.cpp:server \
  -m /models/model.gguf \
  --host 0.0.0.0

Contoh compose.yaml (llama.cpp API)

version: "3.9"

services:
  llama-api:
    image: ghcr.io/ggml-org/llama.cpp:server
    container_name: llama-api
    network_mode: host
    volumes:
      - ./models:/models:Z
    command: >
      -m /models/Llama-3.2-1B-Instruct-Q4_K_S.gguf
      --ctx-size 1024
      -ngl 0
    restart: unless-stopped

Penjelasan (biar kamu paham, bukan cuma copy)

ini penting banget di Podman rootless menggantikan -p 8080:8080

mount model ke container (SELinux safe)

-m /models/xxx.gguf —ctx-size 1024 -ngl 0

▶️ Cara menjalankan

  1. Jalankan
podman compose up -d

podman compose adalah wrapper ke tool compose (docs.podman.io)

  1. Cek container
podman ps
  1. Cek log
podman logs -f llama-api

Test API

curl http://localhost:8080/completion \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Halo AI",
    "n_predict": 50
  }'

Versi Lebih Advanced (Optional)

Kalau mau tuning performa:

command: >
  -m /models/Llama-3.2-1B-Instruct-Q4_K_S.gguf
  --ctx-size 1024
  -b 256
  -t 4
  -ngl 0

👉 Sekarang AI kamu bisa diakses lewat:

http://localhost:8080

Integrasi ke Node.js

Contoh penggunaan:

// server.js - Minimal Express server that forwards to local llama.cpp API
import express from 'express';
import axios from 'axios';

const app = express();
app.use(express.json());

app.post('/api/chat', async (req, res) => {
  const prompt = req.body.prompt ?? 'Halo AI';
  try {
    const resp = await axios.post('http://localhost:8080/completion', {
      prompt,
      n_predict: 128
    });
    res.json(resp.data);
  } catch (err) {
    res.status(500).json({ error: err.message });
  }
});

app.listen(3000, () => console.log('Listening on http://localhost:3000'));

Cara pakai singkat:

  1. Install deps
npm init -y && npm install express axios
  1. Jalankan server
node server.js
  1. Tes endpoint lokal
curl -X POST http://localhost:3000/api/chat \
  -H "Content-Type: application/json" \
  -d '{"prompt":"Halo AI"}'

Catatan: endpoint internal llama.cpp bisa berbeda (/completion atau /v1/chat/completions). Sesuaikan URL axios jika merasa perlu.

Ini artinya:


Contoh Use Case Nyata

1. IoT + ESP32

2. Chatbot Kampus

3. AI Lokal untuk Developer


⚡ Tips Optimasi llamacpp

Agar performa maksimal, gunakan parameter berikut:

Contoh:

-t 4 -ngl 0 -b 512

Dampaknya:


Kelebihan & Kekurangan

Kelebihan

Kekurangan


Insight Penting

Banyak tools populer sebenarnya menggunakan llamacpp di belakang layar.

Artinya:
👉 kalau kamu paham llamacpp, kamu paham “mesin inti” AI lokal.


FAQ

Apa itu llamacpp?

llamacpp adalah tools untuk menjalankan AI secara lokal tanpa GPU.


Apakah llamacpp bisa offline?

Ya, sepenuhnya offline.


Apakah bisa digunakan di Node.js?

Bisa, menggunakan API server.


Apakah cocok untuk pemula?

Sangat cocok, terutama untuk belajar AI tanpa biaya mahal.


Apakah bisa digunakan untuk IoT?

Bisa, misalnya dengan ESP32 untuk analisis data sensor.


Penutup

Dengan llamacpp, AI tidak lagi eksklusif untuk perusahaan besar.

Sekarang kamu bisa:

👉 Semua dari laptop kamu.

Next
Belajar LXD dari Nol sampai Bisa Menjalankan Server di Dalam Laptop