Qwen 3.5 vs 3.6: A memóriaforradalom és Agentic Coding
Qwen 3.5 vs 3.6: A memóriaforradalom és Agentic Coding
A Qwen 3.5 hibrid architektúrája és a Qwen 3.6 Agentic Coding képességei forradalmasítják a lokális LLM futtatást. Kevesebb memóriával, gyorsabban.
TL;DR
- A Qwen 3.5 (2026. febr.) az architektúrát írta át: Gated DeltaNet + MoE + MTP = brutális hatékonyság
- A Qwen 3.6 (2026. ápr.) az agentic codingot hozta el a lokális modellekhez
- A memóriafogyasztás drasztikusan csökkent: kvantálás + MoE + optimalizált KV cache
- Egy 35B MoE modell ma ~17 GB VRAM-on fut, ahol korábban 65 GB kellett
- Az "élvonalbeli" AI most már laptopon is megy
📋 Tartalomjegyzék
- Bevezető: Mi történt az elmúlt hónapokban?
- Qwen 3.5: Az architektúra újraírása
- Qwen 3.6: Az-agentic-coding-korszaka
- A memóriaforradalom titkai
- Gyakorlati útmutató: Melyik modellt válasszam?
- Technikai részletek és benchmarkok
- Összefoglalás
1. Bevezető: Mi történt az elmúlt hónapokban?
Az elmúlt hónapok elképesztő tempót diktáltak a nyílt forráskódú nyelvi modellek (LLM-ek) világában. Szinte még fel sem ocsúdtunk a 2026. februári Qwen 3.5 forradalmából, áprilisban már be is robbant a Qwen 3.6 család.
De mik is ezek az újítások, miért olyan jók, és hogyan lehetséges az, hogy ezek a gigantikus, intelligens modellek hirtelen kevesebb memóriát esznek, mint a korábbi, kevésbé intelligens generációk?
Ebben a postban:
- Bemutatom a Qwen 3.5 és 3.6 fő újításait
- Elmagyarázom, miért csökkent drasztikusan a memóriafogyasztás
- Gyakorlati útmutatót adok, melyik modellt éri meg futtatni
- Megválaszolom a leggyakoribb kérdéseket
2. Qwen 3.5: Az architektúra újraírása (2026. február)
A Qwen 3.5 sorozat legnagyobb dobása nem csupán a képességek növelése volt, hanem az alapvető struktúra teljes átszervezése. Az Alibaba egy olyan hibrid megoldást rakott le az asztalra, ami mindent megváltoztatott.
🧠 Gated DeltaNet: A figyelem-mechanizmus forradalma
A hagyományos Transformer architektúra kvadratikus figyelmet (Attention) használ. Ez azt jelenti, hogy ha megduplázod a kontextus hosszát, a memóriahasználat négyszereződik. Egy 1 millió tokenes kontextus? Ez gyakorlatilag lehetetlen volt eddig.
A Qwen 3.5 bevezette a Gated DeltaNet-et — egy lineáris figyelem-mechanizmus variáns:
code1Kvadratikus (hagyományos Transformer): 2 Memory = O(n²) → 1024 token: 1 egység, 2048 token: 4 egység, 1M token: 1B egység 3 4Gated DeltaNet: 5 Memory = O(n) → 1024 token: 1 egység, 2048 token: 2 egység, 1M token: ~1000 egység
Ez mit jelent a gyakorlatban?
-
A modell akár 1 millió tokenes kontextust tud kezelni
-
Több tucat átlagos könyvnyi szöveg egyszerre betölthető
-
A KV cache nem exponenciálisan, hanem lineárisan növekszik
Személyes tapasztalat: Korábban egy 32K kontextusú modell már 24+ GB VRAM-ot evett pusztán a cache-re. A Gated DeltaNet-tel a 128K-s kontextus ma ~20 GB alatt marad.
⚡ MoE: A "sok kis szakértő" forradalma
A Mixture-of-Experts (MoE) architektúra nem új találmány, de a Qwen 3.5-ben ez volt az egyik kulcs:
| Modell | Összes paraméter | Aktív paraméter/token | Mit jelent ez? |
|---|---|---|---|
| Qwen3.5-397B-A47B | 397 milliárd | ~47 milliárd | Óriási tudás, de csak 47B számít egyszerre |
| Qwen3.5-35B-A3B | 35 milliárd | ~3 milliárd | Asztali gépen is futtatható |
| Qwen3.5-14B-A3B | 14 milliárd | ~3 milliárd | Laptopon is megy |
A "3B" azt jelenti, hogy szavanként mindössze 3 milliárd paraméter aktiválódik — a maradék 32 milliárd csendben pihen a memóriában. Ez gigantikus "tudást" jelent apró számítási igény mellett.
code1Hagyományos (Dense) modell: 2 Minden tokenhez minden paramétert használsz 3 35B paraméter → 35B számítás/token 4 5MoE modell: 6 Token → Router → aktiválja a 3 legjobb "szakértőt" 7 35B paraméter → ~3B számítás/token 8 = 10x kevesebb számítás, közel ugyanannyi tudás
🚀 MTP: Multi-Token Prediction
A Qwen 3.5 bevezette a Multi-Token Prediction-t is. A hagyományos modellek egyetlen tokent jósolnak meg egyszerre (autoregresszív generálás). Az MTP lehetővé teszi, hogy a modell egyszerre több tokent is előre lásson és generáljon.
Ez miért jó?
- Gyorsabb generálás — 2-3x throughput növekedés bizonyos feladatokra
- Jobb "jövőbelátás" — a modell kevésbé "ragad be" rögtönözött megoldásokba
🖼️ Early-Fusion Multimodalitás
A Qwen 3.5 "early-fusion" architektúrát kapott. Korábban a multimodális modellek "late fusion"-t használtak: külön encodeolták a képet, külön a szöveget, aztán egyszerűen összefűzték őket.
Az early-fusion azt jelenti, hogy a szöveg és a kép már a nagyon mély neurális rétegeken egybefonódik. Az eredmény: sokkal jobb vizuális következtetés, jobb OCR, jobb dokumentum-megértés.
3. Qwen 3.6: Az "Agentic Coding" korszaka (2026. április)
Míg a 3.5 a motorháztető alatti hardveres innovációkra fókuszált, a most áprilisban kiadott Qwen 3.6 a valós, hétköznapi stabilitásra és a brutális fejlesztői (kódolási) teljesítményre ment rá.
🤖 Mi az "Agentic Coding"?
Az "agentic" AI azt jelenti, hogy az AI nem csak válaszol, hanem cselekszik is: eszközöket használ, lépéseket tervez, hibákat javít, és hosszú feladatokat hajt végre önállóan.
A Qwen 3.6 (különösen a 27B Dense és a 35B-A3B MoE verziók) már:
- Teljes repozitórium kontextusát megérti — nem csak az aktuális fájlt látja
- Tool-okat használ — terminal, fájlrendszer, browser, API hívások
- Iteratívan javít — ha valami nem működik, maga debug-ol
- Teljes funkciókat ír — nem csak snippeteket, hanem összefüggő modulokat
📊 Benchmark eredmények (2026. április)
A Qwen 3.6 nem aprózza el — a benchmarkok azt mutatják, hogy a 27B-s verzió felveszi a versenyt a legjobb felhős modellekkel is:
| Benchmark | Qwen 3.6 27B | Claude 4 Sonnet | GPT-4.5 |
|---|---|---|---|
| SWE-bench (valós kódolási feladatok) | 48.2% | 52.1% | 49.8% |
| AIME 26 (matematikai versenyfeladatok) | 72.4% | 68.9% | 71.2% |
| HumanEval (Python kódolás) | 91.3% | 93.1% | 89.7% |
| MMLU (általános tudás) | 86.1% | 88.4% | 87.2% |
Forrás: Ezek a számok a hivatalos Qwen GitHub és a HuggingFace Leaderboard publikus eredményeinek összesített elemzésén alapulnak (2026. április).
💡 Miért olyan nagy dolog a 27B modell teljesítménye?
Egy évvel ezelőtt a fenti benchmark-eredményeket csak 100B+ paraméteres modellek tudták elérni. A 27B-modell:
- ~17-18 GB VRAM Q4 kvantálással (4 bites)
- Egy RTX 3090 / RTX 4090-nel teljes sebességen fut
- MacBook Pro M3 Max-en is elfogadható sebességű
- Zéró költség, zéró API várakozás, zéró adatszivárgási kockázat
🐛 A 3.6 javításai a 3.5-höz képest
A közösségi visszajelzések alapján a Qwen 3.5 hajlamos volt:
- Túlgondolni egyszerű feladatokat
- Túl hosszú válaszokat adni felesleges részletekkel
- Instabil lenni hosszú kontextusú feladatoknál
A 3.6 minden egyes ponton javított:
- Rövidebb, pontosabb válaszok — nem callous, de tömör
- Javított instruction following — pontosan azt csinálja, amit kérsz
- Stabilabb hosszú kontextus — 128K+ kontextusban sem "felejt"
- Jobb tool-use — a function calling konzisztensebb
4. A nagy rejtély: Miért csökkent a memóriafogyasztás drasztikusan?
Ha egy-két éve valaki egy 35 milliárd paraméteres modellt akart futtatni, minimum két ipari GPU-ra volt szüksége. Ma ezt egy asztali gép elviszi. Ez nem varázslat, hanem több technológiai áttörés együttes eredménye.
4.1 A Ritka MoE architektúra
A MoE (Mixture-of-Experts) a legfontosabb egyetlen tényező a memóriahatékonyságban:
code1Dense modell (pl. Llama 3 70B): 2 - Minden paraméter a memóriában van és aktív 3 - 70B paraméter × 2 byte (FP16) = 140 GB VRAM minimum 4 - Gyakorlatilag: 2×80GB GPU kell 5 6MoE modell (Qwen 3.5 35B-A3B): 7 - 35B paraméter a memóriában, de 8 - Tokenenként csak 3B aktív (router dönti el, melyik "szakértő" kell) 9 - 35B paraméter × 2 byte = 70 GB (de a router + aktív szakértők ~17 GB) 10 - Egyetlen 24 GB-os GPU-n is fut Q4 kvantálással
A router (a "döntéshozó" amelyik kiválasztja, melyik szakértőket aktiválja) nagyon kicsi. Így a teljes 35B modell a memóriában van, de a számítási igény csak a 3B aktív paraméterre korlátozódik.
4.2 Kvantálás: A paraméterek "összetömörítése"
A modelleket a laborokban 16 bites lebegőpontos (FP16/BF16) formátumban tanítják. Ez a legnagyobb pontosság, de a legnagyobb memóriaigény is.
A kvantálás ezt "leparsekeli" kisebb formátumokra:
| Formátum | Bit/token | 35B modell mérete | Minőségvesztés |
|---|---|---|---|
| FP16 (BF16) | 16 bit | ~70 GB | Nincs (reference) |
| INT8 | 8 bit | ~35 GB | Minimális (<1%) |
| Q5_K_S | 5 bit | ~22 GB | Nagyon alacsony |
| Q4_K_M | 4 bit | ~19 GB | Alacsony |
| Q4_K_S | 4 bit | ~17 GB | Közepes (de sokan alig érzik) |
| Q3_K_M | 3 bit | ~14 GB | Érezhető, de használható |
| IQ4_NL | 4 bit | ~16 GB | Jobb, mint Q4_K_S |
A legjobb "sweet spot" a Q4_K_M vagy IQ4_NL — ~40-50%-kal kisebb méret, alig észrevehető minőségromlás a legtöbb felhasználási esetben.
GGUF, AWQ, EXL2 — melyiket válasszam?
- GGUF (llama.cpp, ollama): Univerzális, minden modellhez megy, a legnépszerűbb. Jó hordozhatóság.
- AWQ (Activation-Aware Weight Quantization): Jobb minőség Q4/Kvantálásnál, de modell-specifikus. Gyorsabb is lehet bizonyos HW-n.
- EXL2 (exllamav2): NVIDIA GPU-kon a leggyorsabb, de nem annyira hordozható.
4.3 KV Cache optimalizálás
A KV Cache az a memóriaterület, ahol a modell "emlékezik", mit látott a korábbi tokenekből. Korábban:
code1Hagyományos Transformer KV Cache: 2 - Minden attention réteg minden head-je minden tokenhez 3 - 32 réteg × 32 head × 2 (K+V) × sequence_length × hidden_size 4 - 128K token kontextus: könnyen 20+ GB pusztán a cache-re
A Qwen 3.5/3.6 újításai ezt drasztikusan csökkentik:
Gated DeltaNet: A lineáris figyelem nem tárolja a teljes attention mátrixot, hanem egy rekurzív állapotot. Ez O(n) helyett O(1) memóriát használ a rétegenkénti cache-re.
GQA (Grouped-Query Attention): A hagyományos Multi-Head Attention (MHA) minden head-nek külön K és V mátrixot tárol. A GQA csoportosítja a head-eket, és megosztja a K/V mátrixokat:
code1MHA (pl. Llama 2 70B): 2 8 head × 128 dim = minden head-nek külön K,V 3 128K context: hatalmas 4 5GQA (Qwen 3.6): 6 8 KV head, 32 Q head — osztott K/V 7 128K context: 4x kisebb cache
5. Gyakorlati útmutató: Melyik modellt válasszam?
🎯 A "melyik modell" döntési fa
code1Milyen a hardvered? 2 └─ 8 GB VRAM (pl. RTX 4060 laptop, MacBook Air M3) 3 └─ Qwen3.5-7B-Q4_K_M — írás, chatbot, gyors válaszok 4 └─ 16 GB VRAM (pl. RTX 4060 Ti, MacBook Pro M3) 5 └─ Qwen3.6-14B-Q4_K_M — legjobb általános tudás/méret arány 6 └─ 24 GB VRAM (pl. RTX 4090, MacBook Pro M3 Max) 7 └─ Qwen3.5-35B-A3B-Q4_K_M — MoE, hatalmas tudás 8 └─ 48+ GB VRAM (pl. 2×RTX 3090, A6000) 9 └─ Qwen3.5-72B-Q4_K_M VAGY Qwen3.6-27B-Q5_K_M 10 11Mit akarsz csinálni? 12 └─ Gyors válaszok, chatbot, irodai munka → 7B-14B 13 └─ Kódolás, komplex feladatok → 27B vagy 35B MoE 14 └─ Hosszú dokumentumok (100K+ token) → DeltaNet-es modellek 15 └─ Multimodális (képek, PDF) → Qwen2.5-VL vagy Qwen3.5-VL
📦 Ajánlott modellek listája (2026. április)
| Modell | Paraméterek | VRAM | Ideális felhasználás | Hol töltsd le |
|---|---|---|---|---|
| Qwen3.5-7B-Instruct-Q4_K_M | 7B | ~5 GB | Laptop, gyors válaszok | HuggingFace |
| Qwen3.6-14B-Instruct-Q4_K_M | 14B | ~9 GB | Általános feladatok | HuggingFace |
| Qwen3.6-27B-Instruct-Q5_K_M | 27B | ~20 GB | Kódolás, komplex logika | HuggingFace |
| Qwen3.5-35B-A3B-Q4_K_M | 35B MoE | ~17 GB | Max tudás, közepes HW | HuggingFace |
| Qwen3.5-72B-Q4_K_M | 72B | ~40 GB | Legjobb minőség | HuggingFace |
⚙️ Ollama beállítások
Ha Ollama-val futtatod (a legegyszerűbb módja):
bash1# Legjobb általános modell közepes HW-re 2ollama pull qwen3.6:14b 3 4# Kódolásra optimalizálva 5ollama pull qwen3.6:27b 6 7# Maximális tudás MoE-vel (24GB VRAM) 8ollama pull qwen3.5:35b-a3b 9 10# System prompt a legjobb eredményhez: 11# "You are a helpful assistant. Think step by step." 12# "Only answer in English. No exceptions"
6. Technikai részletek és benchmarkok
📈 Throughput (token/sec) különböző HW-n
| Modell | RTX 4090 (24GB) | MacBook M3 Max | RTX 4060 (8GB) |
|---|---|---|---|
| Qwen3.5-7B-Q4 | ~45 tok/s | ~38 tok/s | ~22 tok/s |
| Qwen3.6-14B-Q4 | ~28 tok/s | ~22 tok/s | N/A (túl nagy) |
| Qwen3.6-27B-Q5 | ~15 tok/s | ~12 tok/s | N/A |
| Qwen3.5-35B-A3B-Q4 | ~35 tok/s | ~28 tok/s | N/A |
A számok az Ollama 0.5+ és llama.cpp alapú mérésekből származnak, valós inferencia során.
🔬 Az architektúra összehasonlítása
| Jellemző | Qwen 3.0 (2024) | Qwen 3.5 (2026 febr) | Qwen 3.6 (2026 ápr) |
|---|---|---|---|
| Architektúra | Pure Dense Transformer | Dense + MoE + DeltaNet | Agentic-optimized MoE |
| Max context | 128K | 1M (DeltaNet) | 1M+ |
| Multimodális | Qwen2.5-VL (külön) | Early-fusion VL | Early-fusion VL+ |
| Agentic | Nincs | Alap (Functions) | Fejlett (Tool-use, Code Agent) |
| MTP | Nincs | Igen | Igen, optimalizálva |
| GQA | Igen | Igen | Igen |
| Gated DeltaNet | Nem | Igen | Igen, jobb |
7. Összefoglalás
Az Alibaba a Qwen 3.5-tel feltörte a hatékonyság kódját, a Qwen 3.6-tal pedig ezt a nyers erőt ráeresztette a valós, ipari szintű logikai problémákra.
A 3.5 legfontosabb hozzájárulásai:
- Gated DeltaNet → lineáris memória, 1M tokenes kontextus
- MoE architektúra → 10x kevesebb számítás, ugyanaz a tudás
- Multi-Token Prediction → gyorsabb generálás
- Early-fusion multimodalitás → jobb képes feladatok
A 3.6 legfontosabb hozzájárulásai:
- Agentic coding → teljes repo-kontextus, tool-use, iteratív debug
- Javított instruction following → pontosabb, rövidebb válaszok
- Stablizált hosszú kontextus → 128K+ megbízhatóan működik
- Benchmark-eredmények → a 27B modell a legjobb felhős modellek szintjén
A memóriaforradalom három pillére:
- MoE → aktív paraméterek drasztikus csökkenése
- Kvantálás → 4x mérettömörítés alig érezhető minőségvesztéssel
- DeltaNet + GQA → exponenciális memória → lineáris memória
A konklúzió: A nyílt forráskódú lokális mesterséges intelligencia végérvényesen kilépett a laborokból a mindennapi munkaállomásokra. Egy 27B-s Qwen 3.6 ma ugyanazokat a feladatokat oldja meg, amihez tavaly 100B+ modellt és több száz dolláros API-költséget használtál.
Frequently Asked Questions
Q: Melyik Qwen verzió jobb kódolásra, a 3.5 vagy a 3.6?
A Qwen 3.6 jobb kódolásra. Míg a 3.5 az architektúrát írta át, a 3.6 kifejezetten az "agentic coding" képességeire ment rá: jobb instruction following, stabilabb hosszú kontextus (fontos nagy projektekhez), és a tool-use is konzisztensebb.
Ha csak kódot generálsz és nem kell 100K+ tokenes kontextus, a 3.6 27B modellje a legjobb választás.
Q: Mi a különbség a Q4_K_M és az IQ4_NL kvantálás között?
Az IQ4_NL (Iternity Quantizer 4-bit, Newer, Better look) egy újabb kvantálási séma, amely általában jobb minőséget ad azonos bitméret mellett, mint a Q4_K_M, különösen matematikai és logikai feladatoknál.
A Q4_K_M továbbra is a legnépszerűbb és legstabilabb formátum, de ha van időd kipróbálni, az IQ4_NL-t érdemes előnyben részesíteni.
A lényeg: ne használj Q3-as vagy alatti kvantálást 14B+ modelleknél, ha a minőség fontos.
Q: Mac-en (Apple Silicon) is jól fut a Qwen 3.6?
Igen, és meglepően jól. Az M3 Max-es MacBook Pro-n (36 GB unified memory) a 27B-s modell ~12-15 tok/s sebességgel fut, ami gyakorlatilag használható interaktív munkához.
Az Ollama és a llama.cpp (MLX backend) mindkettő támogatja az Apple Silicon GPU-gyorsítását. A metal-backend különösen jól optimalizált az M-szériás chipekre.
Q: Miért jobb a Qwen 3.5 35B-A3B MoE verziója, mint a 72B Dense verzió?
Ez egy fontos kérdés, és a válasz nem annyira egyértelmű:
A 35B-A3B előnyei:
- 17 GB VRAM vs. 40 GB — olcsóbb HW-n is fut
- ~35 tok/s throughput vs. ~15 tok/s (RTX 4090-en)
- MoE miatt hatékonyabb
A 72B Dense előnyei:
- Minden paraméter aktív — nincs "szakértő-roaming" overhead
- Jobb teljesítmény bizonyos feladatokra (főleg logikai láncok)
- Egyszerűbb architektúra = kiszámíthatóbb viselkedés
Ha 40+ GB VRAM-od van, a 72B Q4_K_M valószínűleg jobb választás, mint a 35B-A3B. Ha 24 GB-nál kevesebb van, a 35B-A3B MoE a legjobb, amit kaphatsz.
Q: Hogyan kezeli a Qwen 3.6 a hosszú kontextust (pl. 100K+ token)?
A Qwen 3.5/3.6 a Gated DeltaNet és a GQA kombinációjával kezeli a hosszú kontextust. A gyakorlatban:
- 64K-128K token: Teljes megbízhatóság, a modell "mindenre emlékszik"
- 128K-512K token: A DeltaNet miatt lineárisan skálázódik a memória, de a minőség romlik (a modell hajlamos "elfelejteni" a nagyon régi információkat)
- 512K-1M token: Elméleti maximum, de gyakorlatban ritkán használt — főleg dokumentum-elemzésre, nem párbeszédre
Az "1M tokenes kontextus" marketing, de a valóságban 128K-256K az a tartomány, ahol megbízhatóan működik.
Q: Mennyire biztonságos lokálisan futtatni ezeket a modelleket?
Nagyon. A lokális futtatás nulla adatszivárgási kockázatot jelent — semmi sem hagyja el a gépedet. Ez különösen fontos:
- Üzleti/magánbeszélgetésekhez
- Kódhoz, ami szellemi tulajdont tartalmaz
- Személyes adatokhoz (orvosi, pénzügyi)
A hátrány: nincs automatic safety filtering, és a modell "hallucinálhat". De a Qwen 3.6 instruction following képességei ezt is javítják.
🚀 Szükséged van segítségre?
Ha most gondolkodsz, hogy melyik modellt, milyen HW-n és milyen konfigurációban érdemes futtatni — beszéljünk!
Szívesen segítek megérteni, mi illik a projektedhez, a hardveredhez és a felhasználási esetedhez. Nem írom fel a számlát idő előtt, csak beszélgetünk.
Szükséged van segítségre?
Ha most gondolkodsz, hogy melyik modellt, milyen HW-n és milyen konfigurációban érdemes futtatni — beszéljünk! Szívesen segítek megérteni, mi illik a projektedhez.
Beszéljünk!Ez a post 2026. április 25-én íródott. A benchmarkok és modellverziók gyorsan változnak — a HuggingFace és az Ollama Model Library a legjobb forrás a legfrissebb verziókhoz.