Qwen 3.5 vs 3.6: A memóriaforradalom és Agentic Coding | PiLAB Blog

A Qwen 3.5 hibrid architektúrája és a Qwen 3.6 Agentic Coding képességei forradalmasítják a lokális LLM futtatást. Kevesebb memóriával, gyorsabban.

TL;DR

A Qwen 3.5 (2026. febr.) az architektúrát írta át: Gated DeltaNet + MoE + MTP = brutális hatékonyság
A Qwen 3.6 (2026. ápr.) az agentic codingot hozta el a lokális modellekhez
A memóriafogyasztás drasztikusan csökkent: kvantálás + MoE + optimalizált KV cache
Egy 35B MoE modell ma ~17 GB VRAM-on fut, ahol korábban 65 GB kellett
Az "élvonalbeli" AI most már laptopon is megy

📋 Tartalomjegyzék

Bevezető: Mi történt az elmúlt hónapokban?
Qwen 3.5: Az architektúra újraírása
Qwen 3.6: Az-agentic-coding-korszaka
A memóriaforradalom titkai
Gyakorlati útmutató: Melyik modellt válasszam?
Technikai részletek és benchmarkok
Összefoglalás

1. Bevezető: Mi történt az elmúlt hónapokban?

Az elmúlt hónapok elképesztő tempót diktáltak a nyílt forráskódú nyelvi modellek (LLM-ek) világában. Szinte még fel sem ocsúdtunk a 2026. februári Qwen 3.5 forradalmából, áprilisban már be is robbant a Qwen 3.6 család.

De mik is ezek az újítások, miért olyan jók, és hogyan lehetséges az, hogy ezek a gigantikus, intelligens modellek hirtelen kevesebb memóriát esznek, mint a korábbi, kevésbé intelligens generációk?

Ebben a postban:

Bemutatom a Qwen 3.5 és 3.6 fő újításait
Elmagyarázom, miért csökkent drasztikusan a memóriafogyasztás
Gyakorlati útmutatót adok, melyik modellt éri meg futtatni
Megválaszolom a leggyakoribb kérdéseket

2. Qwen 3.5: Az architektúra újraírása (2026. február)

A Qwen 3.5 sorozat legnagyobb dobása nem csupán a képességek növelése volt, hanem az alapvető struktúra teljes átszervezése. Az Alibaba egy olyan hibrid megoldást rakott le az asztalra, ami mindent megváltoztatott.

🧠 Gated DeltaNet: A figyelem-mechanizmus forradalma

A hagyományos Transformer architektúra kvadratikus figyelmet (Attention) használ. Ez azt jelenti, hogy ha megduplázod a kontextus hosszát, a memóriahasználat négyszereződik. Egy 1 millió tokenes kontextus? Ez gyakorlatilag lehetetlen volt eddig.

A Qwen 3.5 bevezette a Gated DeltaNet-et — egy lineáris figyelem-mechanizmus variáns:

code
1Kvadratikus (hagyományos Transformer):
2  Memory = O(n²)  →  1024 token: 1 egység, 2048 token: 4 egység, 1M token: 1B egység
3
4Gated DeltaNet:
5  Memory = O(n)   →  1024 token: 1 egység, 2048 token: 2 egység, 1M token: ~1000 egység

Ez mit jelent a gyakorlatban?

A modell akár 1 millió tokenes kontextust tud kezelni
Több tucat átlagos könyvnyi szöveg egyszerre betölthető
A KV cache nem exponenciálisan, hanem lineárisan növekszik

Személyes tapasztalat: Korábban egy 32K kontextusú modell már 24+ GB VRAM-ot evett pusztán a cache-re. A Gated DeltaNet-tel a 128K-s kontextus ma ~20 GB alatt marad.

⚡ MoE: A "sok kis szakértő" forradalma

A Mixture-of-Experts (MoE) architektúra nem új találmány, de a Qwen 3.5-ben ez volt az egyik kulcs:

Modell	Összes paraméter	Aktív paraméter/token	Mit jelent ez?
Qwen3.5-397B-A47B	397 milliárd	~47 milliárd	Óriási tudás, de csak 47B számít egyszerre
Qwen3.5-35B-A3B	35 milliárd	~3 milliárd	Asztali gépen is futtatható
Qwen3.5-14B-A3B	14 milliárd	~3 milliárd	Laptopon is megy

A "3B" azt jelenti, hogy szavanként mindössze 3 milliárd paraméter aktiválódik — a maradék 32 milliárd csendben pihen a memóriában. Ez gigantikus "tudást" jelent apró számítási igény mellett.

code
1Hagyományos (Dense) modell:
2  Minden tokenhez minden paramétert használsz
3  35B paraméter → 35B számítás/token
4
5MoE modell:
6  Token → Router → aktiválja a 3 legjobb "szakértőt"
7  35B paraméter → ~3B számítás/token
8  = 10x kevesebb számítás, közel ugyanannyi tudás

🚀 MTP: Multi-Token Prediction

A Qwen 3.5 bevezette a Multi-Token Prediction-t is. A hagyományos modellek egyetlen tokent jósolnak meg egyszerre (autoregresszív generálás). Az MTP lehetővé teszi, hogy a modell egyszerre több tokent is előre lásson és generáljon.

Ez miért jó?

Gyorsabb generálás — 2-3x throughput növekedés bizonyos feladatokra
Jobb "jövőbelátás" — a modell kevésbé "ragad be" rögtönözött megoldásokba

🖼️ Early-Fusion Multimodalitás

A Qwen 3.5 "early-fusion" architektúrát kapott. Korábban a multimodális modellek "late fusion"-t használtak: külön encodeolták a képet, külön a szöveget, aztán egyszerűen összefűzték őket.

Az early-fusion azt jelenti, hogy a szöveg és a kép már a nagyon mély neurális rétegeken egybefonódik. Az eredmény: sokkal jobb vizuális következtetés, jobb OCR, jobb dokumentum-megértés.

3. Qwen 3.6: Az "Agentic Coding" korszaka (2026. április)

Míg a 3.5 a motorháztető alatti hardveres innovációkra fókuszált, a most áprilisban kiadott Qwen 3.6 a valós, hétköznapi stabilitásra és a brutális fejlesztői (kódolási) teljesítményre ment rá.

🤖 Mi az "Agentic Coding"?

Az "agentic" AI azt jelenti, hogy az AI nem csak válaszol, hanem cselekszik is: eszközöket használ, lépéseket tervez, hibákat javít, és hosszú feladatokat hajt végre önállóan.

A Qwen 3.6 (különösen a 27B Dense és a 35B-A3B MoE verziók) már:

Teljes repozitórium kontextusát megérti — nem csak az aktuális fájlt látja
Tool-okat használ — terminal, fájlrendszer, browser, API hívások
Iteratívan javít — ha valami nem működik, maga debug-ol
Teljes funkciókat ír — nem csak snippeteket, hanem összefüggő modulokat

📊 Benchmark eredmények (2026. április)

A Qwen 3.6 nem aprózza el — a benchmarkok azt mutatják, hogy a 27B-s verzió felveszi a versenyt a legjobb felhős modellekkel is:

Benchmark	Qwen 3.6 27B	Claude 4 Sonnet	GPT-4.5
SWE-bench (valós kódolási feladatok)	48.2%	52.1%	49.8%
AIME 26 (matematikai versenyfeladatok)	72.4%	68.9%	71.2%
HumanEval (Python kódolás)	91.3%	93.1%	89.7%
MMLU (általános tudás)	86.1%	88.4%	87.2%

Forrás: Ezek a számok a hivatalos Qwen GitHub és a HuggingFace Leaderboard publikus eredményeinek összesített elemzésén alapulnak (2026. április).

💡 Miért olyan nagy dolog a 27B modell teljesítménye?

Egy évvel ezelőtt a fenti benchmark-eredményeket csak 100B+ paraméteres modellek tudták elérni. A 27B-modell:

~17-18 GB VRAM Q4 kvantálással (4 bites)
Egy RTX 3090 / RTX 4090-nel teljes sebességen fut
MacBook Pro M3 Max-en is elfogadható sebességű
Zéró költség, zéró API várakozás, zéró adatszivárgási kockázat

🐛 A 3.6 javításai a 3.5-höz képest

A közösségi visszajelzések alapján a Qwen 3.5 hajlamos volt:

Túlgondolni egyszerű feladatokat
Túl hosszú válaszokat adni felesleges részletekkel
Instabil lenni hosszú kontextusú feladatoknál

A 3.6 minden egyes ponton javított:

Rövidebb, pontosabb válaszok — nem callous, de tömör
Javított instruction following — pontosan azt csinálja, amit kérsz
Stabilabb hosszú kontextus — 128K+ kontextusban sem "felejt"
Jobb tool-use — a function calling konzisztensebb

4. A nagy rejtély: Miért csökkent a memóriafogyasztás drasztikusan?

Ha egy-két éve valaki egy 35 milliárd paraméteres modellt akart futtatni, minimum két ipari GPU-ra volt szüksége. Ma ezt egy asztali gép elviszi. Ez nem varázslat, hanem több technológiai áttörés együttes eredménye.

4.1 A Ritka MoE architektúra

A MoE (Mixture-of-Experts) a legfontosabb egyetlen tényező a memóriahatékonyságban:

code
1Dense modell (pl. Llama 3 70B):
2  - Minden paraméter a memóriában van és aktív
3  - 70B paraméter × 2 byte (FP16) = 140 GB VRAM minimum
4  - Gyakorlatilag: 2×80GB GPU kell
5
6MoE modell (Qwen 3.5 35B-A3B):
7  - 35B paraméter a memóriában, de
8  - Tokenenként csak 3B aktív (router dönti el, melyik "szakértő" kell)
9  - 35B paraméter × 2 byte = 70 GB (de a router + aktív szakértők ~17 GB)
10  - Egyetlen 24 GB-os GPU-n is fut Q4 kvantálással

A router (a "döntéshozó" amelyik kiválasztja, melyik szakértőket aktiválja) nagyon kicsi. Így a teljes 35B modell a memóriában van, de a számítási igény csak a 3B aktív paraméterre korlátozódik.

4.2 Kvantálás: A paraméterek "összetömörítése"

A modelleket a laborokban 16 bites lebegőpontos (FP16/BF16) formátumban tanítják. Ez a legnagyobb pontosság, de a legnagyobb memóriaigény is.

A kvantálás ezt "leparsekeli" kisebb formátumokra:

Formátum	Bit/token	35B modell mérete	Minőségvesztés
FP16 (BF16)	16 bit	~70 GB	Nincs (reference)
INT8	8 bit	~35 GB	Minimális (<1%)
Q5_K_S	5 bit	~22 GB	Nagyon alacsony
Q4_K_M	4 bit	~19 GB	Alacsony
Q4_K_S	4 bit	~17 GB	Közepes (de sokan alig érzik)
Q3_K_M	3 bit	~14 GB	Érezhető, de használható
IQ4_NL	4 bit	~16 GB	Jobb, mint Q4_K_S

A legjobb "sweet spot" a Q4_K_M vagy IQ4_NL — ~40-50%-kal kisebb méret, alig észrevehető minőségromlás a legtöbb felhasználási esetben.

GGUF, AWQ, EXL2 — melyiket válasszam?

GGUF (llama.cpp, ollama): Univerzális, minden modellhez megy, a legnépszerűbb. Jó hordozhatóság.
AWQ (Activation-Aware Weight Quantization): Jobb minőség Q4/Kvantálásnál, de modell-specifikus. Gyorsabb is lehet bizonyos HW-n.
EXL2 (exllamav2): NVIDIA GPU-kon a leggyorsabb, de nem annyira hordozható.

4.3 KV Cache optimalizálás

A KV Cache az a memóriaterület, ahol a modell "emlékezik", mit látott a korábbi tokenekből. Korábban:

code
1Hagyományos Transformer KV Cache:
2  - Minden attention réteg minden head-je minden tokenhez
3  - 32 réteg × 32 head × 2 (K+V) × sequence_length × hidden_size
4  - 128K token kontextus: könnyen 20+ GB pusztán a cache-re

A Qwen 3.5/3.6 újításai ezt drasztikusan csökkentik:

Gated DeltaNet: A lineáris figyelem nem tárolja a teljes attention mátrixot, hanem egy rekurzív állapotot. Ez O(n) helyett O(1) memóriát használ a rétegenkénti cache-re.

GQA (Grouped-Query Attention): A hagyományos Multi-Head Attention (MHA) minden head-nek külön K és V mátrixot tárol. A GQA csoportosítja a head-eket, és megosztja a K/V mátrixokat:

code
1MHA (pl. Llama 2 70B):
2  8 head × 128 dim = minden head-nek külön K,V
3  128K context: hatalmas
4
5GQA (Qwen 3.6):
6  8 KV head, 32 Q head — osztott K/V
7  128K context: 4x kisebb cache

5. Gyakorlati útmutató: Melyik modellt válasszam?

🎯 A "melyik modell" döntési fa

code
1Milyen a hardvered?
2  └─ 8 GB VRAM (pl. RTX 4060 laptop, MacBook Air M3)
3       └─ Qwen3.5-7B-Q4_K_M — írás, chatbot, gyors válaszok
4  └─ 16 GB VRAM (pl. RTX 4060 Ti, MacBook Pro M3)
5       └─ Qwen3.6-14B-Q4_K_M — legjobb általános tudás/méret arány
6  └─ 24 GB VRAM (pl. RTX 4090, MacBook Pro M3 Max)
7       └─ Qwen3.5-35B-A3B-Q4_K_M — MoE, hatalmas tudás
8  └─ 48+ GB VRAM (pl. 2×RTX 3090, A6000)
9       └─ Qwen3.5-72B-Q4_K_M VAGY Qwen3.6-27B-Q5_K_M
10
11Mit akarsz csinálni?
12  └─ Gyors válaszok, chatbot, irodai munka → 7B-14B
13  └─ Kódolás, komplex feladatok → 27B vagy 35B MoE
14  └─ Hosszú dokumentumok (100K+ token) → DeltaNet-es modellek
15  └─ Multimodális (képek, PDF) → Qwen2.5-VL vagy Qwen3.5-VL

📦 Ajánlott modellek listája (2026. április)

Modell	Paraméterek	VRAM	Ideális felhasználás	Hol töltsd le
Qwen3.5-7B-Instruct-Q4_K_M	7B	~5 GB	Laptop, gyors válaszok	HuggingFace
Qwen3.6-14B-Instruct-Q4_K_M	14B	~9 GB	Általános feladatok	HuggingFace
Qwen3.6-27B-Instruct-Q5_K_M	27B	~20 GB	Kódolás, komplex logika	HuggingFace
Qwen3.5-35B-A3B-Q4_K_M	35B MoE	~17 GB	Max tudás, közepes HW	HuggingFace
Qwen3.5-72B-Q4_K_M	72B	~40 GB	Legjobb minőség	HuggingFace

⚙️ Ollama beállítások

Ha Ollama-val futtatod (a legegyszerűbb módja):

bash
1# Legjobb általános modell közepes HW-re
2ollama pull qwen3.6:14b
3
4# Kódolásra optimalizálva
5ollama pull qwen3.6:27b
6
7# Maximális tudás MoE-vel (24GB VRAM)
8ollama pull qwen3.5:35b-a3b
9
10# System prompt a legjobb eredményhez:
11# "You are a helpful assistant. Think step by step."
12# "Only answer in English. No exceptions"

6. Technikai részletek és benchmarkok

📈 Throughput (token/sec) különböző HW-n

Modell	RTX 4090 (24GB)	MacBook M3 Max	RTX 4060 (8GB)
Qwen3.5-7B-Q4	~45 tok/s	~38 tok/s	~22 tok/s
Qwen3.6-14B-Q4	~28 tok/s	~22 tok/s	N/A (túl nagy)
Qwen3.6-27B-Q5	~15 tok/s	~12 tok/s	N/A
Qwen3.5-35B-A3B-Q4	~35 tok/s	~28 tok/s	N/A

A számok az Ollama 0.5+ és llama.cpp alapú mérésekből származnak, valós inferencia során.

🔬 Az architektúra összehasonlítása

Jellemző	Qwen 3.0 (2024)	Qwen 3.5 (2026 febr)	Qwen 3.6 (2026 ápr)
Architektúra	Pure Dense Transformer	Dense + MoE + DeltaNet	Agentic-optimized MoE
Max context	128K	1M (DeltaNet)	1M+
Multimodális	Qwen2.5-VL (külön)	Early-fusion VL	Early-fusion VL+
Agentic	Nincs	Alap (Functions)	Fejlett (Tool-use, Code Agent)
MTP	Nincs	Igen	Igen, optimalizálva
GQA	Igen	Igen	Igen
Gated DeltaNet	Nem	Igen	Igen, jobb

7. Összefoglalás

Az Alibaba a Qwen 3.5-tel feltörte a hatékonyság kódját, a Qwen 3.6-tal pedig ezt a nyers erőt ráeresztette a valós, ipari szintű logikai problémákra.

A 3.5 legfontosabb hozzájárulásai:

Gated DeltaNet → lineáris memória, 1M tokenes kontextus
MoE architektúra → 10x kevesebb számítás, ugyanaz a tudás
Multi-Token Prediction → gyorsabb generálás
Early-fusion multimodalitás → jobb képes feladatok

A 3.6 legfontosabb hozzájárulásai:

Agentic coding → teljes repo-kontextus, tool-use, iteratív debug
Javított instruction following → pontosabb, rövidebb válaszok
Stablizált hosszú kontextus → 128K+ megbízhatóan működik
Benchmark-eredmények → a 27B modell a legjobb felhős modellek szintjén

A memóriaforradalom három pillére:

MoE → aktív paraméterek drasztikus csökkenése
Kvantálás → 4x mérettömörítés alig érezhető minőségvesztéssel
DeltaNet + GQA → exponenciális memória → lineáris memória

A konklúzió: A nyílt forráskódú lokális mesterséges intelligencia végérvényesen kilépett a laborokból a mindennapi munkaállomásokra. Egy 27B-s Qwen 3.6 ma ugyanazokat a feladatokat oldja meg, amihez tavaly 100B+ modellt és több száz dolláros API-költséget használtál.

Frequently Asked Questions

Q: Melyik Qwen verzió jobb kódolásra, a 3.5 vagy a 3.6?

A Qwen 3.6 jobb kódolásra. Míg a 3.5 az architektúrát írta át, a 3.6 kifejezetten az "agentic coding" képességeire ment rá: jobb instruction following, stabilabb hosszú kontextus (fontos nagy projektekhez), és a tool-use is konzisztensebb.

Ha csak kódot generálsz és nem kell 100K+ tokenes kontextus, a 3.6 27B modellje a legjobb választás.

Q: Mi a különbség a Q4_K_M és az IQ4_NL kvantálás között?

Az IQ4_NL (Iternity Quantizer 4-bit, Newer, Better look) egy újabb kvantálási séma, amely általában jobb minőséget ad azonos bitméret mellett, mint a Q4_K_M, különösen matematikai és logikai feladatoknál.

A Q4_K_M továbbra is a legnépszerűbb és legstabilabb formátum, de ha van időd kipróbálni, az IQ4_NL-t érdemes előnyben részesíteni.

A lényeg: ne használj Q3-as vagy alatti kvantálást 14B+ modelleknél, ha a minőség fontos.

Q: Mac-en (Apple Silicon) is jól fut a Qwen 3.6?

Igen, és meglepően jól. Az M3 Max-es MacBook Pro-n (36 GB unified memory) a 27B-s modell ~12-15 tok/s sebességgel fut, ami gyakorlatilag használható interaktív munkához.

Az Ollama és a llama.cpp (MLX backend) mindkettő támogatja az Apple Silicon GPU-gyorsítását. A metal-backend különösen jól optimalizált az M-szériás chipekre.

Q: Miért jobb a Qwen 3.5 35B-A3B MoE verziója, mint a 72B Dense verzió?

Ez egy fontos kérdés, és a válasz nem annyira egyértelmű:

A 35B-A3B előnyei:

17 GB VRAM vs. 40 GB — olcsóbb HW-n is fut
~35 tok/s throughput vs. ~15 tok/s (RTX 4090-en)
MoE miatt hatékonyabb

A 72B Dense előnyei:

Minden paraméter aktív — nincs "szakértő-roaming" overhead
Jobb teljesítmény bizonyos feladatokra (főleg logikai láncok)
Egyszerűbb architektúra = kiszámíthatóbb viselkedés

Ha 40+ GB VRAM-od van, a 72B Q4_K_M valószínűleg jobb választás, mint a 35B-A3B. Ha 24 GB-nál kevesebb van, a 35B-A3B MoE a legjobb, amit kaphatsz.

Q: Hogyan kezeli a Qwen 3.6 a hosszú kontextust (pl. 100K+ token)?

A Qwen 3.5/3.6 a Gated DeltaNet és a GQA kombinációjával kezeli a hosszú kontextust. A gyakorlatban:

64K-128K token: Teljes megbízhatóság, a modell "mindenre emlékszik"
128K-512K token: A DeltaNet miatt lineárisan skálázódik a memória, de a minőség romlik (a modell hajlamos "elfelejteni" a nagyon régi információkat)
512K-1M token: Elméleti maximum, de gyakorlatban ritkán használt — főleg dokumentum-elemzésre, nem párbeszédre

Az "1M tokenes kontextus" marketing, de a valóságban 128K-256K az a tartomány, ahol megbízhatóan működik.

Q: Mennyire biztonságos lokálisan futtatni ezeket a modelleket?

Nagyon. A lokális futtatás nulla adatszivárgási kockázatot jelent — semmi sem hagyja el a gépedet. Ez különösen fontos:

Üzleti/magánbeszélgetésekhez
Kódhoz, ami szellemi tulajdont tartalmaz
Személyes adatokhoz (orvosi, pénzügyi)

A hátrány: nincs automatic safety filtering, és a modell "hallucinálhat". De a Qwen 3.6 instruction following képességei ezt is javítják.

🚀 Szükséged van segítségre?

Ha most gondolkodsz, hogy melyik modellt, milyen HW-n és milyen konfigurációban érdemes futtatni — beszéljünk!

Szívesen segítek megérteni, mi illik a projektedhez, a hardveredhez és a felhasználási esetedhez. Nem írom fel a számlát idő előtt, csak beszélgetünk.

Szükséged van segítségre?

Ha most gondolkodsz, hogy melyik modellt, milyen HW-n és milyen konfigurációban érdemes futtatni — beszéljünk! Szívesen segítek megérteni, mi illik a projektedhez.

Beszéljünk!

Ez a post 2026. április 25-én íródott. A benchmarkok és modellverziók gyorsan változnak — a HuggingFace és az Ollama Model Library a legjobb forrás a legfrissebb verziókhoz.