The Super Lab — iamsupersocks

Hardware

Component	Spec	Notes
CPU	AMD Ryzen AI MAX+ 395	16 cores, Zen 5, NPU intégré
RAM	90 GB LPDDR5X unified	Partagée CPU + iGPU
GPU	Radeon 8060S (iGPU)	Vulkan, ~40 GB VRAM partagée
Storage	1.8 TB NVMe	Models + data
OS	Ubuntu 24.04 LTS	Linux 6.17 x86_64
Node	v24.14.0	Runtime OpenClaw

LLM Inference Stack

Pas d'Ollama en prod. llama.cpp direct avec backend Vulkan — 64–71 t/s en génération sur la Radeon 8060S, vs ~43 t/s via Ollama.

Port 8081 — Nemotron Cascade 2

/home/iamsupersocks/llama.cpp/build/bin/llama-server \
  --model ~/.ollama/models/gguf/nemotron-cascade-2-30b-q5.gguf \
  --ctx-size 16384 \
  --n-gpu-layers 99 \     # all layers on Vulkan
  --port 8081 \
  --host 127.0.0.1 \
  --threads 16 \
  --reasoning-budget 600   # limits thinking for Telegram bots

Port 8083 — Qwen 3.5 9B

/home/iamsupersocks/llama.cpp/build/bin/llama-server \
  --model /usr/share/ollama/.ollama/models/blobs/sha256-dba64d... \
  --ctx-size 8192 \
  --n-gpu-layers 99 \
  --port 8083 \
  --alias qwen3.5-9b \
  --threads 8

Tip : Les blobs Ollama sont des GGUF standard. Tu peux les monter directement dans llama.cpp sans conversion. Repère le path avec ollama show --modelfile <model>.

Modèles disponibles

Modèle	Taille	Format	Usage
Nemotron Cascade 2 30B	26 GB	GGUF Q5	Jarvis · Karen · x-analyzer
Qwen 3.5 9B	5.3 GB	GGUF Q4_K_M	x-analyzer léger
Qwen 3.5 Opus Distill	21 GB	GGUF Q4	Available
DeepSeek R1 Qwen 32B	19 GB	Ollama	Reasoning
Gemma 3 27B	16 GB	Ollama	Available
Hermes 4 14B	9 GB	Ollama	Fast assistant

Agents & Services

Jarvis

Bot Telegram @Iamsupersockslab_bot. Agent généraliste avec terminal, outils web, mémoire.

hermes-gateway.service · Nemotron 30B · port 8081

Karen

Bot Telegram @karen_supersocks_bot. Agent alternatif, même stack, modèle configurable.

hermes-opus.service · Nemotron 30B · port 8081

Clawd (Claude)

Agent principal via Telegram. Orchestrateur, accès machine, mémoire long-terme.

OpenClaw gateway · anthropic/claude-sonnet-4-6

x-analyzer

Analyse les tweets d'un compte X. Flask + SQLite + LLM local. Thèmes, style, insights.

Flask port 5555 · Qwen 3.5 9B · port 8083

Cogefox

Algo paris sportifs. 1600+ comptes trackés, Supabase, odds auto toutes les 15 min.

Render (cloud) · Supabase · n8n

AI Signal (veille)

Veille IA automatique. 100+ sources, génération HTML, GitHub Pages.

Python · GitHub Pages · cron

Lab Radars

Pages de tracking des employés des labs AI sur X — profils réels scrapés via clix0, déployées sur GitHub Pages.

Lab	Profils	Liste X	URL
🔥 Mistral AI	72	@llmgram/mistral-ai-people	mistral-radar/
🔬 Anthropic	79	@llmgram/anthropic-people	anthropic-radar/
🤖 OpenAI	81	@llmgram/openai-people	openai-radar/

Tooling

clix0

CLI non-officiel Twitter/X. Scraping de profils, tweets, gestion de listes — sans API payante. Authentification par cookies.

clix user --json <handle>        # profil complet
clix tweets --json --count 200 <handle>  # tweets récents
clix lists add-member <list_id> <handle>  # ajout liste

rembg

Suppression de fond d'image. Qualité excellente en local, zéro cloud.

Gemini Image Gen

Génération d'images via gemini-2.5-flash-image REST API. Meilleur rapport qualité/coût trouvé à ce jour.

Lessons learned

llama.cpp > Ollama pour Vulkan. Ollama passe par une couche d'abstraction qui coûte ~30% de perf. Monte directement les GGUF sur llama-server.

OLLAMA_KEEP_ALIVE à 10 min. Par défaut Ollama garde les modèles en RAM indéfiniment. Configure un drop-in systemd pour décharger après inactivité.

reasoning-budget 600 sur les bots Telegram. Sans ça, le modèle pense pendant 5 min et le gateway timeout.

Scraper X : endpoint x.com (pas twitter.com), Bearer token public, cookies auth_token + ct0 extraits du browser.

Running local AIon bare metal.