The Super Lab — Homelab Provisioning

Running local AI
on bare metal.

AMD Ryzen AI MAX+ 395 · 90 GB unified RAM · Radeon 8060S iGPU · 1.8 TB NVMe
One machine. Local LLMs. Real inference.

395
Ryzen AI MAX+
90 GB
Unified RAM
Vulkan
GPU Inference
1.8 TB
NVMe Storage

Hardware

ComponentSpecNotes
CPUAMD Ryzen AI MAX+ 39516 cores, Zen 5, NPU intégré
RAM90 GB LPDDR5X unifiedPartagée CPU + iGPU
GPURadeon 8060S (iGPU)Vulkan, ~40 GB VRAM partagée
Storage1.8 TB NVMeModels + data
OSUbuntu 24.04 LTSLinux 6.17 x86_64
Nodev24.14.0Runtime OpenClaw

LLM Inference Stack

Pas d'Ollama en prod. llama.cpp direct avec backend Vulkan — 64–71 t/s en génération sur la Radeon 8060S, vs ~43 t/s via Ollama.

Port 8081 — Nemotron Cascade 2

/home/iamsupersocks/llama.cpp/build/bin/llama-server \
  --model ~/.ollama/models/gguf/nemotron-cascade-2-30b-q5.gguf \
  --ctx-size 16384 \
  --n-gpu-layers 99 \     # all layers on Vulkan
  --port 8081 \
  --host 127.0.0.1 \
  --threads 16 \
  --reasoning-budget 600   # limits thinking for Telegram bots

Port 8083 — Qwen 3.5 9B

/home/iamsupersocks/llama.cpp/build/bin/llama-server \
  --model /usr/share/ollama/.ollama/models/blobs/sha256-dba64d... \
  --ctx-size 8192 \
  --n-gpu-layers 99 \
  --port 8083 \
  --alias qwen3.5-9b \
  --threads 8
Tip : Les blobs Ollama sont des GGUF standard. Tu peux les monter directement dans llama.cpp sans conversion. Repère le path avec ollama show --modelfile <model>.

Modèles disponibles

ModèleTailleFormatUsage
Nemotron Cascade 2 30B26 GBGGUF Q5Jarvis · Karen · x-analyzer
Qwen 3.5 9B5.3 GBGGUF Q4_K_Mx-analyzer léger
Qwen 3.5 Opus Distill21 GBGGUF Q4Available
DeepSeek R1 Qwen 32B19 GBOllamaReasoning
Gemma 3 27B16 GBOllamaAvailable
Hermes 4 14B9 GBOllamaFast assistant

Agents & Services

Jarvis
Bot Telegram @Iamsupersockslab_bot. Agent généraliste avec terminal, outils web, mémoire.
hermes-gateway.service · Nemotron 30B · port 8081
Karen
Bot Telegram @karen_supersocks_bot. Agent alternatif, même stack, modèle configurable.
hermes-opus.service · Nemotron 30B · port 8081
Clawd (Claude)
Agent principal via Telegram. Orchestrateur, accès machine, mémoire long-terme.
OpenClaw gateway · anthropic/claude-sonnet-4-6
x-analyzer
Analyse les tweets d'un compte X. Flask + SQLite + LLM local. Thèmes, style, insights.
Flask port 5555 · Qwen 3.5 9B · port 8083
Cogefox
Algo paris sportifs. 1600+ comptes trackés, Supabase, odds auto toutes les 15 min.
Render (cloud) · Supabase · n8n
AI Signal (veille)
Veille IA automatique. 100+ sources, génération HTML, GitHub Pages.
Python · GitHub Pages · cron

Lab Radars

Pages de tracking des employés des labs AI sur X — profils réels scrapés via clix0, déployées sur GitHub Pages.

LabProfilsListe XURL
🔥 Mistral AI72@llmgram/mistral-ai-peoplemistral-radar/
🔬 Anthropic79@llmgram/anthropic-peopleanthropic-radar/
🤖 OpenAI81@llmgram/openai-peopleopenai-radar/

Tooling

clix0

CLI non-officiel Twitter/X. Scraping de profils, tweets, gestion de listes — sans API payante. Authentification par cookies.

clix user --json <handle>        # profil complet
clix tweets --json --count 200 <handle>  # tweets récents
clix lists add-member <list_id> <handle>  # ajout liste

rembg

Suppression de fond d'image. Qualité excellente en local, zéro cloud.

Gemini Image Gen

Génération d'images via gemini-2.5-flash-image REST API. Meilleur rapport qualité/coût trouvé à ce jour.

Lessons learned

llama.cpp > Ollama pour Vulkan. Ollama passe par une couche d'abstraction qui coûte ~30% de perf. Monte directement les GGUF sur llama-server.
OLLAMA_KEEP_ALIVE à 10 min. Par défaut Ollama garde les modèles en RAM indéfiniment. Configure un drop-in systemd pour décharger après inactivité.
reasoning-budget 600 sur les bots Telegram. Sans ça, le modèle pense pendant 5 min et le gateway timeout.
Scraper X : endpoint x.com (pas twitter.com), Bearer token public, cookies auth_token + ct0 extraits du browser.