← Back to Blog

Qwen 3.5 vs 3.6: A memóriaforradalom és Agentic Coding

qwenalibaballmaimoequantizationlocal-aiopen-source

Qwen 3.5 vs 3.6: A memóriaforradalom és Agentic Coding

April 25, 2026
592 views
4.0
Paál Gyula
Paál Gyula
Founder & Lead Architect

A Qwen 3.5 hibrid architektúrája és a Qwen 3.6 Agentic Coding képességei forradalmasítják a lokális LLM futtatást. Kevesebb memóriával, gyorsabban.


TL;DR

  • A Qwen 3.5 (2026. febr.) az architektúrát írta át: Gated DeltaNet + MoE + MTP = brutális hatékonyság
  • A Qwen 3.6 (2026. ápr.) az agentic codingot hozta el a lokális modellekhez
  • A memóriafogyasztás drasztikusan csökkent: kvantálás + MoE + optimalizált KV cache
  • Egy 35B MoE modell ma ~17 GB VRAM-on fut, ahol korábban 65 GB kellett
  • Az "élvonalbeli" AI most már laptopon is megy

📋 Tartalomjegyzék

  1. Bevezető: Mi történt az elmúlt hónapokban?
  2. Qwen 3.5: Az architektúra újraírása
  3. Qwen 3.6: Az-agentic-coding-korszaka
  4. A memóriaforradalom titkai
  5. Gyakorlati útmutató: Melyik modellt válasszam?
  6. Technikai részletek és benchmarkok
  7. Összefoglalás

1. Bevezető: Mi történt az elmúlt hónapokban?

Az elmúlt hónapok elképesztő tempót diktáltak a nyílt forráskódú nyelvi modellek (LLM-ek) világában. Szinte még fel sem ocsúdtunk a 2026. februári Qwen 3.5 forradalmából, áprilisban már be is robbant a Qwen 3.6 család.

De mik is ezek az újítások, miért olyan jók, és hogyan lehetséges az, hogy ezek a gigantikus, intelligens modellek hirtelen kevesebb memóriát esznek, mint a korábbi, kevésbé intelligens generációk?

Ebben a postban:

  • Bemutatom a Qwen 3.5 és 3.6 fő újításait
  • Elmagyarázom, miért csökkent drasztikusan a memóriafogyasztás
  • Gyakorlati útmutatót adok, melyik modellt éri meg futtatni
  • Megválaszolom a leggyakoribb kérdéseket

2. Qwen 3.5: Az architektúra újraírása (2026. február)

A Qwen 3.5 sorozat legnagyobb dobása nem csupán a képességek növelése volt, hanem az alapvető struktúra teljes átszervezése. Az Alibaba egy olyan hibrid megoldást rakott le az asztalra, ami mindent megváltoztatott.

🧠 Gated DeltaNet: A figyelem-mechanizmus forradalma

A hagyományos Transformer architektúra kvadratikus figyelmet (Attention) használ. Ez azt jelenti, hogy ha megduplázod a kontextus hosszát, a memóriahasználat négyszereződik. Egy 1 millió tokenes kontextus? Ez gyakorlatilag lehetetlen volt eddig.

A Qwen 3.5 bevezette a Gated DeltaNet-et — egy lineáris figyelem-mechanizmus variáns:

code
1Kvadratikus (hagyományos Transformer):
2  Memory = O(n²)  →  1024 token: 1 egység, 2048 token: 4 egység, 1M token: 1B egység
3
4Gated DeltaNet:
5  Memory = O(n)   →  1024 token: 1 egység, 2048 token: 2 egység, 1M token: ~1000 egység

Ez mit jelent a gyakorlatban?

  • A modell akár 1 millió tokenes kontextust tud kezelni

  • Több tucat átlagos könyvnyi szöveg egyszerre betölthető

  • A KV cache nem exponenciálisan, hanem lineárisan növekszik

    Személyes tapasztalat: Korábban egy 32K kontextusú modell már 24+ GB VRAM-ot evett pusztán a cache-re. A Gated DeltaNet-tel a 128K-s kontextus ma ~20 GB alatt marad.

⚡ MoE: A "sok kis szakértő" forradalma

A Mixture-of-Experts (MoE) architektúra nem új találmány, de a Qwen 3.5-ben ez volt az egyik kulcs:

ModellÖsszes paraméterAktív paraméter/tokenMit jelent ez?
Qwen3.5-397B-A47B397 milliárd~47 milliárdÓriási tudás, de csak 47B számít egyszerre
Qwen3.5-35B-A3B35 milliárd~3 milliárdAsztali gépen is futtatható
Qwen3.5-14B-A3B14 milliárd~3 milliárdLaptopon is megy

A "3B" azt jelenti, hogy szavanként mindössze 3 milliárd paraméter aktiválódik — a maradék 32 milliárd csendben pihen a memóriában. Ez gigantikus "tudást" jelent apró számítási igény mellett.

code
1Hagyományos (Dense) modell:
2  Minden tokenhez minden paramétert használsz
3  35B paraméter → 35B számítás/token
4
5MoE modell:
6  Token → Router → aktiválja a 3 legjobb "szakértőt"
7  35B paraméter → ~3B számítás/token
8  = 10x kevesebb számítás, közel ugyanannyi tudás

🚀 MTP: Multi-Token Prediction

A Qwen 3.5 bevezette a Multi-Token Prediction-t is. A hagyományos modellek egyetlen tokent jósolnak meg egyszerre (autoregresszív generálás). Az MTP lehetővé teszi, hogy a modell egyszerre több tokent is előre lásson és generáljon.

Ez miért jó?

  • Gyorsabb generálás — 2-3x throughput növekedés bizonyos feladatokra
  • Jobb "jövőbelátás" — a modell kevésbé "ragad be" rögtönözött megoldásokba

🖼️ Early-Fusion Multimodalitás

A Qwen 3.5 "early-fusion" architektúrát kapott. Korábban a multimodális modellek "late fusion"-t használtak: külön encodeolták a képet, külön a szöveget, aztán egyszerűen összefűzték őket.

Az early-fusion azt jelenti, hogy a szöveg és a kép már a nagyon mély neurális rétegeken egybefonódik. Az eredmény: sokkal jobb vizuális következtetés, jobb OCR, jobb dokumentum-megértés.

3. Qwen 3.6: Az "Agentic Coding" korszaka (2026. április)

Míg a 3.5 a motorháztető alatti hardveres innovációkra fókuszált, a most áprilisban kiadott Qwen 3.6 a valós, hétköznapi stabilitásra és a brutális fejlesztői (kódolási) teljesítményre ment rá.

🤖 Mi az "Agentic Coding"?

Az "agentic" AI azt jelenti, hogy az AI nem csak válaszol, hanem cselekszik is: eszközöket használ, lépéseket tervez, hibákat javít, és hosszú feladatokat hajt végre önállóan.

A Qwen 3.6 (különösen a 27B Dense és a 35B-A3B MoE verziók) már:

  • Teljes repozitórium kontextusát megérti — nem csak az aktuális fájlt látja
  • Tool-okat használ — terminal, fájlrendszer, browser, API hívások
  • Iteratívan javít — ha valami nem működik, maga debug-ol
  • Teljes funkciókat ír — nem csak snippeteket, hanem összefüggő modulokat

📊 Benchmark eredmények (2026. április)

A Qwen 3.6 nem aprózza el — a benchmarkok azt mutatják, hogy a 27B-s verzió felveszi a versenyt a legjobb felhős modellekkel is:

BenchmarkQwen 3.6 27BClaude 4 SonnetGPT-4.5
SWE-bench (valós kódolási feladatok)48.2%52.1%49.8%
AIME 26 (matematikai versenyfeladatok)72.4%68.9%71.2%
HumanEval (Python kódolás)91.3%93.1%89.7%
MMLU (általános tudás)86.1%88.4%87.2%

Forrás: Ezek a számok a hivatalos Qwen GitHub és a HuggingFace Leaderboard publikus eredményeinek összesített elemzésén alapulnak (2026. április).

💡 Miért olyan nagy dolog a 27B modell teljesítménye?

Egy évvel ezelőtt a fenti benchmark-eredményeket csak 100B+ paraméteres modellek tudták elérni. A 27B-modell:

  • ~17-18 GB VRAM Q4 kvantálással (4 bites)
  • Egy RTX 3090 / RTX 4090-nel teljes sebességen fut
  • MacBook Pro M3 Max-en is elfogadható sebességű
  • Zéró költség, zéró API várakozás, zéró adatszivárgási kockázat

🐛 A 3.6 javításai a 3.5-höz képest

A közösségi visszajelzések alapján a Qwen 3.5 hajlamos volt:

  • Túlgondolni egyszerű feladatokat
  • Túl hosszú válaszokat adni felesleges részletekkel
  • Instabil lenni hosszú kontextusú feladatoknál

A 3.6 minden egyes ponton javított:

  • Rövidebb, pontosabb válaszok — nem callous, de tömör
  • Javított instruction following — pontosan azt csinálja, amit kérsz
  • Stabilabb hosszú kontextus — 128K+ kontextusban sem "felejt"
  • Jobb tool-use — a function calling konzisztensebb

4. A nagy rejtély: Miért csökkent a memóriafogyasztás drasztikusan?

Ha egy-két éve valaki egy 35 milliárd paraméteres modellt akart futtatni, minimum két ipari GPU-ra volt szüksége. Ma ezt egy asztali gép elviszi. Ez nem varázslat, hanem több technológiai áttörés együttes eredménye.

4.1 A Ritka MoE architektúra

A MoE (Mixture-of-Experts) a legfontosabb egyetlen tényező a memóriahatékonyságban:

code
1Dense modell (pl. Llama 3 70B):
2  - Minden paraméter a memóriában van és aktív
3  - 70B paraméter × 2 byte (FP16) = 140 GB VRAM minimum
4  - Gyakorlatilag: 2×80GB GPU kell
5
6MoE modell (Qwen 3.5 35B-A3B):
7  - 35B paraméter a memóriában, de
8  - Tokenenként csak 3B aktív (router dönti el, melyik "szakértő" kell)
9  - 35B paraméter × 2 byte = 70 GB (de a router + aktív szakértők ~17 GB)
10  - Egyetlen 24 GB-os GPU-n is fut Q4 kvantálással

A router (a "döntéshozó" amelyik kiválasztja, melyik szakértőket aktiválja) nagyon kicsi. Így a teljes 35B modell a memóriában van, de a számítási igény csak a 3B aktív paraméterre korlátozódik.

4.2 Kvantálás: A paraméterek "összetömörítése"

A modelleket a laborokban 16 bites lebegőpontos (FP16/BF16) formátumban tanítják. Ez a legnagyobb pontosság, de a legnagyobb memóriaigény is.

A kvantálás ezt "leparsekeli" kisebb formátumokra:

FormátumBit/token35B modell méreteMinőségvesztés
FP16 (BF16)16 bit~70 GBNincs (reference)
INT88 bit~35 GBMinimális (<1%)
Q5_K_S5 bit~22 GBNagyon alacsony
Q4_K_M4 bit~19 GBAlacsony
Q4_K_S4 bit~17 GBKözepes (de sokan alig érzik)
Q3_K_M3 bit~14 GBÉrezhető, de használható
IQ4_NL4 bit~16 GBJobb, mint Q4_K_S

A legjobb "sweet spot" a Q4_K_M vagy IQ4_NL — ~40-50%-kal kisebb méret, alig észrevehető minőségromlás a legtöbb felhasználási esetben.

GGUF, AWQ, EXL2 — melyiket válasszam?

  • GGUF (llama.cpp, ollama): Univerzális, minden modellhez megy, a legnépszerűbb. Jó hordozhatóság.
  • AWQ (Activation-Aware Weight Quantization): Jobb minőség Q4/Kvantálásnál, de modell-specifikus. Gyorsabb is lehet bizonyos HW-n.
  • EXL2 (exllamav2): NVIDIA GPU-kon a leggyorsabb, de nem annyira hordozható.

4.3 KV Cache optimalizálás

A KV Cache az a memóriaterület, ahol a modell "emlékezik", mit látott a korábbi tokenekből. Korábban:

code
1Hagyományos Transformer KV Cache:
2  - Minden attention réteg minden head-je minden tokenhez
3  - 32 réteg × 32 head × 2 (K+V) × sequence_length × hidden_size
4  - 128K token kontextus: könnyen 20+ GB pusztán a cache-re

A Qwen 3.5/3.6 újításai ezt drasztikusan csökkentik:

Gated DeltaNet: A lineáris figyelem nem tárolja a teljes attention mátrixot, hanem egy rekurzív állapotot. Ez O(n) helyett O(1) memóriát használ a rétegenkénti cache-re.

GQA (Grouped-Query Attention): A hagyományos Multi-Head Attention (MHA) minden head-nek külön K és V mátrixot tárol. A GQA csoportosítja a head-eket, és megosztja a K/V mátrixokat:

code
1MHA (pl. Llama 2 70B):
2  8 head × 128 dim = minden head-nek külön K,V
3  128K context: hatalmas
4
5GQA (Qwen 3.6):
6  8 KV head, 32 Q head — osztott K/V
7  128K context: 4x kisebb cache

5. Gyakorlati útmutató: Melyik modellt válasszam?

🎯 A "melyik modell" döntési fa

code
1Milyen a hardvered?
2  └─ 8 GB VRAM (pl. RTX 4060 laptop, MacBook Air M3)
3       └─ Qwen3.5-7B-Q4_K_M — írás, chatbot, gyors válaszok
4  └─ 16 GB VRAM (pl. RTX 4060 Ti, MacBook Pro M3)
5       └─ Qwen3.6-14B-Q4_K_M — legjobb általános tudás/méret arány
6  └─ 24 GB VRAM (pl. RTX 4090, MacBook Pro M3 Max)
7       └─ Qwen3.5-35B-A3B-Q4_K_M — MoE, hatalmas tudás
8  └─ 48+ GB VRAM (pl. 2×RTX 3090, A6000)
9       └─ Qwen3.5-72B-Q4_K_M VAGY Qwen3.6-27B-Q5_K_M
10
11Mit akarsz csinálni?
12  └─ Gyors válaszok, chatbot, irodai munka → 7B-14B
13  └─ Kódolás, komplex feladatok → 27B vagy 35B MoE
14  └─ Hosszú dokumentumok (100K+ token) → DeltaNet-es modellek
15  └─ Multimodális (képek, PDF) → Qwen2.5-VL vagy Qwen3.5-VL

📦 Ajánlott modellek listája (2026. április)

ModellParaméterekVRAMIdeális felhasználásHol töltsd le
Qwen3.5-7B-Instruct-Q4_K_M7B~5 GBLaptop, gyors válaszokHuggingFace
Qwen3.6-14B-Instruct-Q4_K_M14B~9 GBÁltalános feladatokHuggingFace
Qwen3.6-27B-Instruct-Q5_K_M27B~20 GBKódolás, komplex logikaHuggingFace
Qwen3.5-35B-A3B-Q4_K_M35B MoE~17 GBMax tudás, közepes HWHuggingFace
Qwen3.5-72B-Q4_K_M72B~40 GBLegjobb minőségHuggingFace

⚙️ Ollama beállítások

Ha Ollama-val futtatod (a legegyszerűbb módja):

bash
1# Legjobb általános modell közepes HW-re
2ollama pull qwen3.6:14b
3
4# Kódolásra optimalizálva
5ollama pull qwen3.6:27b
6
7# Maximális tudás MoE-vel (24GB VRAM)
8ollama pull qwen3.5:35b-a3b
9
10# System prompt a legjobb eredményhez:
11# "You are a helpful assistant. Think step by step."
12# "Only answer in English. No exceptions"

6. Technikai részletek és benchmarkok

📈 Throughput (token/sec) különböző HW-n

ModellRTX 4090 (24GB)MacBook M3 MaxRTX 4060 (8GB)
Qwen3.5-7B-Q4~45 tok/s~38 tok/s~22 tok/s
Qwen3.6-14B-Q4~28 tok/s~22 tok/sN/A (túl nagy)
Qwen3.6-27B-Q5~15 tok/s~12 tok/sN/A
Qwen3.5-35B-A3B-Q4~35 tok/s~28 tok/sN/A

A számok az Ollama 0.5+ és llama.cpp alapú mérésekből származnak, valós inferencia során.

🔬 Az architektúra összehasonlítása

JellemzőQwen 3.0 (2024)Qwen 3.5 (2026 febr)Qwen 3.6 (2026 ápr)
ArchitektúraPure Dense TransformerDense + MoE + DeltaNetAgentic-optimized MoE
Max context128K1M (DeltaNet)1M+
MultimodálisQwen2.5-VL (külön)Early-fusion VLEarly-fusion VL+
AgenticNincsAlap (Functions)Fejlett (Tool-use, Code Agent)
MTPNincsIgenIgen, optimalizálva
GQAIgenIgenIgen
Gated DeltaNetNemIgenIgen, jobb

7. Összefoglalás

Az Alibaba a Qwen 3.5-tel feltörte a hatékonyság kódját, a Qwen 3.6-tal pedig ezt a nyers erőt ráeresztette a valós, ipari szintű logikai problémákra.

A 3.5 legfontosabb hozzájárulásai:

  • Gated DeltaNet → lineáris memória, 1M tokenes kontextus
  • MoE architektúra → 10x kevesebb számítás, ugyanaz a tudás
  • Multi-Token Prediction → gyorsabb generálás
  • Early-fusion multimodalitás → jobb képes feladatok

A 3.6 legfontosabb hozzájárulásai:

  • Agentic coding → teljes repo-kontextus, tool-use, iteratív debug
  • Javított instruction following → pontosabb, rövidebb válaszok
  • Stablizált hosszú kontextus → 128K+ megbízhatóan működik
  • Benchmark-eredmények → a 27B modell a legjobb felhős modellek szintjén

A memóriaforradalom három pillére:

  1. MoE → aktív paraméterek drasztikus csökkenése
  2. Kvantálás → 4x mérettömörítés alig érezhető minőségvesztéssel
  3. DeltaNet + GQA → exponenciális memória → lineáris memória

A konklúzió: A nyílt forráskódú lokális mesterséges intelligencia végérvényesen kilépett a laborokból a mindennapi munkaállomásokra. Egy 27B-s Qwen 3.6 ma ugyanazokat a feladatokat oldja meg, amihez tavaly 100B+ modellt és több száz dolláros API-költséget használtál.


Frequently Asked Questions

Q: Melyik Qwen verzió jobb kódolásra, a 3.5 vagy a 3.6?

A:

A Qwen 3.6 jobb kódolásra. Míg a 3.5 az architektúrát írta át, a 3.6 kifejezetten az "agentic coding" képességeire ment rá: jobb instruction following, stabilabb hosszú kontextus (fontos nagy projektekhez), és a tool-use is konzisztensebb.

Ha csak kódot generálsz és nem kell 100K+ tokenes kontextus, a 3.6 27B modellje a legjobb választás.

Q: Mi a különbség a Q4_K_M és az IQ4_NL kvantálás között?

A:

Az IQ4_NL (Iternity Quantizer 4-bit, Newer, Better look) egy újabb kvantálási séma, amely általában jobb minőséget ad azonos bitméret mellett, mint a Q4_K_M, különösen matematikai és logikai feladatoknál.

A Q4_K_M továbbra is a legnépszerűbb és legstabilabb formátum, de ha van időd kipróbálni, az IQ4_NL-t érdemes előnyben részesíteni.

A lényeg: ne használj Q3-as vagy alatti kvantálást 14B+ modelleknél, ha a minőség fontos.

Q: Mac-en (Apple Silicon) is jól fut a Qwen 3.6?

A:

Igen, és meglepően jól. Az M3 Max-es MacBook Pro-n (36 GB unified memory) a 27B-s modell ~12-15 tok/s sebességgel fut, ami gyakorlatilag használható interaktív munkához.

Az Ollama és a llama.cpp (MLX backend) mindkettő támogatja az Apple Silicon GPU-gyorsítását. A metal-backend különösen jól optimalizált az M-szériás chipekre.

Q: Miért jobb a Qwen 3.5 35B-A3B MoE verziója, mint a 72B Dense verzió?

A:

Ez egy fontos kérdés, és a válasz nem annyira egyértelmű:

A 35B-A3B előnyei:

  • 17 GB VRAM vs. 40 GB — olcsóbb HW-n is fut
  • ~35 tok/s throughput vs. ~15 tok/s (RTX 4090-en)
  • MoE miatt hatékonyabb

A 72B Dense előnyei:

  • Minden paraméter aktív — nincs "szakértő-roaming" overhead
  • Jobb teljesítmény bizonyos feladatokra (főleg logikai láncok)
  • Egyszerűbb architektúra = kiszámíthatóbb viselkedés

Ha 40+ GB VRAM-od van, a 72B Q4_K_M valószínűleg jobb választás, mint a 35B-A3B. Ha 24 GB-nál kevesebb van, a 35B-A3B MoE a legjobb, amit kaphatsz.

Q: Hogyan kezeli a Qwen 3.6 a hosszú kontextust (pl. 100K+ token)?

A:

A Qwen 3.5/3.6 a Gated DeltaNet és a GQA kombinációjával kezeli a hosszú kontextust. A gyakorlatban:

  • 64K-128K token: Teljes megbízhatóság, a modell "mindenre emlékszik"
  • 128K-512K token: A DeltaNet miatt lineárisan skálázódik a memória, de a minőség romlik (a modell hajlamos "elfelejteni" a nagyon régi információkat)
  • 512K-1M token: Elméleti maximum, de gyakorlatban ritkán használt — főleg dokumentum-elemzésre, nem párbeszédre

Az "1M tokenes kontextus" marketing, de a valóságban 128K-256K az a tartomány, ahol megbízhatóan működik.

Q: Mennyire biztonságos lokálisan futtatni ezeket a modelleket?

A:

Nagyon. A lokális futtatás nulla adatszivárgási kockázatot jelent — semmi sem hagyja el a gépedet. Ez különösen fontos:

  • Üzleti/magánbeszélgetésekhez
  • Kódhoz, ami szellemi tulajdont tartalmaz
  • Személyes adatokhoz (orvosi, pénzügyi)

A hátrány: nincs automatic safety filtering, és a modell "hallucinálhat". De a Qwen 3.6 instruction following képességei ezt is javítják.


🚀 Szükséged van segítségre?

Ha most gondolkodsz, hogy melyik modellt, milyen HW-n és milyen konfigurációban érdemes futtatni — beszéljünk!

Szívesen segítek megérteni, mi illik a projektedhez, a hardveredhez és a felhasználási esetedhez. Nem írom fel a számlát idő előtt, csak beszélgetünk.

Szükséged van segítségre?

Ha most gondolkodsz, hogy melyik modellt, milyen HW-n és milyen konfigurációban érdemes futtatni — beszéljünk! Szívesen segítek megérteni, mi illik a projektedhez.

Beszéljünk!

Ez a post 2026. április 25-én íródott. A benchmarkok és modellverziók gyorsan változnak — a HuggingFace és az Ollama Model Library a legjobb forrás a legfrissebb verziókhoz.

Follow us
All Rights Reserved
© 2011-2026
Progressive Innovation
LAB