Keynote (~8 h): poniżej rozszerzona polska narracja tematyczna (nie dosłowne tłumaczenie każdego zdania ze względu na rozmiar).
# Konferencja AI Engineer — notatki inżynierskie i podsumowanie wieloosobowe
Wprowadzenie: loop engineering jako nowa dyscyplina
Ten materiał zbiera wieloosobowe raportowanie z konferencji AI Engineer World's Fair 2026 i splata je w spójną narrację o momencie, w którym branża przechodzi od pojedynczych promptów i izolowanych modeli do **loop engineering** — budowania agentowych software factories, warstw orkiestracji oraz ewaluacji mierzącej zachowanie całego systemu, a nie pojedynczy output modelu. Centralna teza wielu prelegentów brzmi: *najwyższa pętla to tam, gdzie ludzie spotykają się, by ustalić, jaka będzie następna pętla*. W praktyce oznacza to, że inżynieria AI w produkcji to nie wybór modelu, lecz projektowanie pętli: spec → build → eval → deploy → monitor → diagnose → optimize — z jawnymi punktami ludzkiej decyzji i z automatycznym zamykiem pętli, by ulepszenia się kumulowały zamiast rozpadać po pierwszym deployu.
Konferencja pokazała, że software factories oparte na agentach są dziś praktyczne — nie jako demo, lecz jako codzienny workflow zespołów produktowych. Pojawiają się konkretne narzędzia: agent managers, long-lived listeners nasłuchujące na zdarzenia, optymalizatory VS Code, otwarte harness servery. Raportowane są empiryczne zbieżności: tysiące praktyków dobiera podobne wybory architektoniczne; zespoły adoptują agentowe pipeline'y od specyfikacji po review.
To nie hype jednego vendora — to konwergencja wzorców pod presją kosztów tokenów, długu review i niestabilności retrieval.
Platformy, modele i infrastruktura
#
Warstwowa architektura wiedzy
Wielokrotnie powraca model **trzech warstw wiedzy**: intrinsic (wbudowana w model lub runtime), extrinsic (dokumenty, API, bazy) oraz learned (skille, pamięć epizodyczna, wnioski z eval). Prelegenci argumentują, że bez jawnego rozdzielenia tych warstw agenci mieszają fakty, heurystyki i stare preferencje użytkownika w jednym worku kontekstu — co prowadzi do context stuffing i halucynacji „z pamięci", która nie jest pamięcią, lecz szumem.
#
Multimodalność i długi kontekst
Omawiane są modele klasy M3 (~400B parametrów, ~20B aktywnych) z kontekstem rzędu **jednego miliona tokenów**. To zmienia ekonomię agentów: teoretycznie można wcisnąć cały repozytorium lub długą sesję — ale praktycy ostrzegają, że długi kontekst bez retrieval i kompresji to droga do degradacji jakości i rachunków. Stąd równoległy nacisk na deferred context engines (opóźniane ładowanie fragmentów), routing do tańszych modeli i lokalne indeksy kodu.
#
Mixed local/cloud execution
Infrastruktura idzie w stronę **mieszanego wykonania**: wrażliwe lub powtarzalne kroki lokalnie (indeks, grep, embeddingi on-device), ciężkie rozumowanie w chmurze. Szybki cadence wydań modeli wymusza abstrakcję harnessu od konkretnego providera — inaczej co miesiąc przepisujesz prompty pod nowy „domyślny" model.
Niezawodność produkcyjna: retrieval, pamięć, replayability
Techniczny rdzeń notatek koncentruje się na twierdzeniu, które powtarza się jak mantra: **retrieval, pamięć i replayability napędzają większość awarii** i muszą być inżynierią first-class, nie dodatkiem.
#
Trace-first i Chronicle
Promowany jest podejście **trace-first**: pełny log agenta — każde wywołanie narzędzia, każde uzupełnienie LLM, każdy wyjątek — jako główne źródło prawdy. Narzędzia typu Chronicle przechwytują **adnotowane trace'y** do replay, debugu offline i fixów bez reprodukcji „na żywo" w produkcji. *Replayability jest rdzeniową zasadą produkcyjnego wdrażania każdego agenta AI* — bez niej nie ma audytu, nie ma regresji eval, nie ma uczenia się z porażek.
#
Runtime memory i utility score
Prezentacje (m.in. Starling Search, Agent RX) pokazują warstwę **runtime między evals a akcją**: wspomnienia niosą nie tylko embeddingi, lecz historię wyników; **utility score** re-rankuje retrieval według tego, czy dany fragment historycznie pomagał czy szkodził wykonaniu zadania. Raportowane wzrosty: reflective benchmarks z ~66% do ~76%, do ~80% gdy wnioski pakowane jako skills; agentic task benchmarks z mid-30s do ~58–61%.
Sygnał eval nie umiera na dashboardzie — staje się sygnałem pierwszej klasy w retrievalu.
Ograniczenia są uczciwie wymieniane: cold start (czyste semantic search, dopóki nie ma review), utility drift, kolizje podobnych wspomnień, hałaśliwe etykiety. To nie magiczna pamięć — to inżynieria pętli feedbacku.
#
Koszty i efektywność tokenów
Wzorce oszczędności powtarzają się w wielu talkach:
- **Routing/triage** do najtańszego adekwatnego modelu — konserwatywne benchmarki ~25% oszczędności kosztów.
- **Deferred context** — ~50% mniej tokenów przez ładowanie kontekstu dopiero gdy potrzebny.
- **Kompresja DOM** dla browser-agentów — przyspiesza małe modele na zadaniach UI.
- **Wektorowy indeks na S3** (prototyp) — dramatyczna redukcja rachunków za wektory (~95% we wczesnym wdrożeniu) przy pragmatycznym trade-offie latencji.
Te liczby nie są uniwersalne — ale kierunek jest jasny: 90% kosztu to często input; optymalizacja kontekstu ważniejsza niż wybór najdroższego modelu.
Operacje, bezpieczeństwo i governance
#
Routing i strefy review
Rekomendacje operacyjne: **routuj zadania do najtańszego modelu, który wystarczy**; centralizuj kontekst, ale twórz **strefy human review wolne od slotów** — miejsca, gdzie człowiek nie jest bombardowany pingami i może deliberować przy wysokiej stawce (por. talk Duolingo o rozeznaniu vs zatwierdzaniu).
#
Zespoły specjalistów, nie jeden mega-agent
Projektuj agentów jako **zespoły specjalistów** (jeden cel, jeden agent — wzorzec Machinecraft/Hermes) zamiast jednego promptu na wszystko. Instrumentuj **silne kontrakty walidacji** i human-in-the-loop corrections z capture diff — nie binarne „zaakceptowano", gdy człowiek potem ręcznie poprawił output.
#
BAML, symulacja deterministyczna, proof-carrying plans
Praca nad językami/runtime (np. **BAML**) i deterministyczną symulacją ma umożliwić współdziałanie agentów bez pełnych przepisań. Dla bezpieczeństwa: **odłóż nieodwracalne IO**; programowe plany statycznie analizowalne lub traktowane jak proof-carrying code przed wykonaniem — agent nie wysyła maila ani nie robi transferu, dopóki plan nie przejdzie checkerów.
#
Dyscyplina procesowa
Praktyczne sugestie: **krótkie pre-planowanie** (np. 30 minut) redukujące koszt późniejszego review; **design oparty na symulacji** eksponujący błędy współbieżności zanim trafią do produkcji; **ostrożne governance** lights-off factories — autonomia bez utrzymywalności niszczy długoterminową wartość.
Narzędzia i trendy produktowe
#
Perception agenci i UI
Trend: agenci **percepcji** adnotujący i weryfikujący renderowany UI (nie tylko HTML w źródle) — ważne dla evalów produktowych i dla agentów, które muszą „zobaczyć" to, co widzi użytkownik.
#
Reprezentacja dla modelu
Wybory reprezentacji: **HTML/CSS vs pixel canvas** — dopasowanie do tego, jak model „myśli" o interfejsie. Złe dopasowanie = więcej tur, więcej tokenów, więcej błędów.
#
Ranked recall i pamięć on-device
Kontrola tokenów i driftu przez ranked recall oraz pamięć on-device — szczególnie w workflow mobilnych i edge, gdzie latency i prywatność matter.
#
Open harness i lokalne modele
Wątek **harness ważniejszy niż model** (Agency, Harness Bench): ponad 20 punktów różnicy przy tym samym modelu; inwestycja w narzędzia, bezpieczeństwo (PFA, interrupts), REACT, sub-agentów i optymalizację promptów może uratować lokalny open-source model zamiast proprietary API.
Orkiestracja wielomaszynowa i skala
Talki o flotach agentów (wiele maszyn, hierarchia CEO/VP/manager/worker, stan w plikach zamiast tylko w oknie kontekstu, review gateway, Git + SSH do przenoszenia kontekstu) pokazują, że **skala osobista** (6+ równoległych agentów) łamie się na uwadze człowieka-schedulera. Rozwiązania: hierarchia, externalized state, jeden inbox review, single router (np. Discord) — a docelowo warstwa w stylu Kubernetes pod compute/secrets/scheduling.
Podsumowanie operacyjne
| Obszar | Rekomendacja |
|
-----|
----|
| Evals | Traktuj jak CI; sygnały z eval wracają do retrieval/skills |
| Logi | Trace agenta = source of truth |
| Polityki | Wąskie, edytowalne powierzchnie z rollbackami |
| Koszty | Oczekuj wysokich tokenów per zadanie (wiele tur, ciężkie wejścia, ludzkie werdykty) |
| Pętla | Kumuluj ulepszenia — nie jednorazowy deploy |
| Ludzie | Najwyższa pętla = decyzja, jaka będzie następna pętla |
Konferencja nie sprzedaje jednego stacku — sprzedaje **dyscyplinę**: factory harness tam, gdzie problem jest skomplikowany i stabilny; adaptive constraints i runtime memory tam, gdzie świat jest złożony i się rusza; trace i replay wszędzie, gdzie stawka jest produkcyjna. Loop engineering to nazwa na to, że software engineering wraca do pętli — tylko że w pętli siedzą agenci, evaly i ludzie, którzy muszą myśleć, a nie tylko klikać „approve".
Software factories w praktyce: od dema do codzienności
Wielu prelegentów odrzuca framing „agent jako chat z API". Zamiast tego pokazują **fabryki**: długowieczne procesy nasłuchujące na zdarzenia (webhook, commit, ticket, alert), uruchamiające wyspecjalizowanych agentów z wąskim mandatem i kończące się artefaktem plus dowodem (test, screenshot, diff, log). Agent manager nie jest metaforą — to komponent, który wie, który agent ma prawo działać, z jakim budżetem tokenów i jakim exit criteria.
Przykłady z sali obejmują pełne pętle od designu do deployu w dużych organizacjach (Radical Speed Month w Automattic: designerki wysyłające PR-y po 30 dniach eksperymentu) oraz małe firmy produkcyjne (Machinecraft: 36 agentów na go-to-market bez zespołu ML). Wspólny mianownik: **enablement** — bezpieczne środowisko, dokumentacja, championzy-inżynierowie — bez tego fabryka zostaje toy projectem jednej osoby.
Long-lived listeners rozwiązują problem „agent żyje tylko w sesji chat". Listener trzyma stan, kolejkuje zadania, egzekwuje idempotent checkouts (ten sam ticket nie może być równolegle przez dwóch agentów) i raportuje do centralnego trace store. VS Code optimizers i open harness servery pozwalają wpinac ten sam harness do IDE, CI i zdalnej VM — jedna polityka narzędzi, wiele powierzchni wykonania.
Search, retrieval i zamykanie knowledge gap
Osobny wątek konferencji (Mixbread i inni) dotyczy **luki między rozumowaniem modelu a jakością retrieval**. Benchmarki BrowseComp i Office QA Pro pokazują Oracle na poziomie 64–93%, podczas gdy agent z domyślnym search spada do jednocyfrowych wyników procentowych — nie dlatego, że model głupieje, lecz dlatego, że dostaje zły lub zaszumiony kontekst. Modele trenowane na grep i keyword web search piszą zapytania-bełkot; benchmarki faworyzujące BM25 pogarszają nawyk.
Odpowiedź inżynierska: dedykowany **search agent** z czterema komplementarnymi narzędziami (overview semantic, pełny semantic, filter metadata, grep), krótką pętlą z równoległymi subquery, deduplikacją chunków i treningiem (SFT + RL z nagrodą NDCG i LLM judge na trajektorię). Agent ma być precyzyjny, szybki i tani — mały model z dobrym harnessem bije ogromny model ze złym search.
Dla zespołów produktowych wniosek jest prosty: zanim kupicie większy model, **naprawcie dostęp do wiedzy** — architektoniczny kontekst, MCP, lokalny indeks kodu, warstwowa pamięć. W notatkach pada też ~30% oszczędności tokenów z samej architektury kontekstu — liczba powtarzana w kilku niezależnych wystąpieniach.
Human-in-the-loop: rozeznanie zamiast rubber-stampingu
Duolingo (DET) dostarcza twardy case study **cognitive surrender**: 80% uczestników badania akceptowało błędne odpowiedzi AI; proktorzy zaakceptowali 50% fałszywych flag oszustwa wstrzykniętych do czystych sesji. Fix: nie nowy model — zmiana copy wytycznych („sygnał AI to alert wstępny", „wymagaj niezależnego dowodu wideo"). Rezultat: 21% więcej odrzuceń fałszywych alarmów, 71% tych sesji ostatecznie OK.
To bezpośrednio łączy się z loop engineering: **interakcja człowiek–AI jest częścią systemu eval i treningu**. Structured UI (markup w writing tutor, rozbite pytania przy headphone detection, coding agent jak junior z planem i małymi PR-ami) produkuje labeled data zamiast szumnych „tak". Capture diff przy override — inaczej dataset się zatruwa pozytywnymi sygnałami po ręcznej poprawce.
Dla fabryk kodu: review debt rośnie szybciej niż throughput agentów. Deterministyczne scorery PR, bandy ryzyka i friction dopasowane do stawki to nie „więcej procesu" — to warunek, by pętla nie wybuchła w merge queue.
Adaptive vs factory harness: kiedy który
Rajiv (Anitcha Labs) proponuje **adaptive engineering** jako komplement do factory harness: w świecie multi-agent, multi-human, fizycznym i instytucjonalnym fixed scaffolding kruchnie. Harness ma emergować, stabilizować się i rozpuszczać w runtime; inżynier projektuje constraints (coupling rate, nagrody, guardrails), nie pełną sekwencję ról.
Konferencja nie rozstrzyga „fixed vs adaptive" — pokazuje continuum. Hermes i Pi są adaptive na etapie **designu** harnessu; prawdziwe adaptive mid-runtime to nadal frontier. Dla większości uczestników message jest pragmatyczny: factory tam, gdzie problem jest skomplikowany i stabilny; zacznijcie od replay i eval CI wszędzie; eksperymentujcie z runtime memory tam, gdzie agenci powtarzają te same błędy retrieval.
Mobile, edge i przeprojektowanie workflowu
Aurel Zion (10x mobile dev) używa analogii fabryki elektrycznej: sama wymiana silnika (AI w IDE) nie dała 10x — dopiero przeprojektowanie layoutu pod workflow. Cloud sandboxes (VM w 30 s, symulator w przeglądarce, designer na kodzie z PR, QA instruująca agenta) skracają pętlę design–build–test między rolami. Iteracja tworzy friction; AI przyspieszyło pisanie kodu, nie usunęło handoffów między Figmą, Xcode i CI.
To uzupełnia wątek mixed execution: ciężki toolchain nie musi żyć na laptopie designera — agent i sandbox w chmurze są **wspólnym artefaktem** dla wszystkich ról.
Koszty wektorów, indeksy i infrastruktura danych
Poza tokenami LLM konferencja dotyka **kosztów infrastruktury pamięci**: managed vector DB vs pragmatyczny indeks na S3 z raportowanym ~95% redukcją rachunku we wczesnym wdrożeniu. Trade-off: operacyjna złożoność i latencja vs miesięczny rachunek. Dla małych i średnich zespołów to ważny wątek obok „który model".
Ranked recall i on-device memory wracają w kontekście **driftu** — gdy preferencje użytkownika i polityki produktu się zmieniają, statyczny system prompt pełen przestarzałych kolumn (demo SQL agent) jest antywzorem; skills aktualizowane z runtime review są wzorem.
Zamknięcie: co zabrać do poniedziałku
Jeśli miałbyś wdrożyć pięć rzeczy z tego keynote'u w istniejącym stacku agentowym:
1. **Trace + replay** dla każdego agenta produkcyjnego — minimum do debugu i eval regresji. 2. **Eval jako CI** z sygnałem wracającym do retrieval lub skills — nie dashboard tylko dla managerów. 3. **Routing modeli** i deferred context — zanim upgrade do droższego tieru.
4. **Harness nad search i narzędziami** — semantic routing przy dużej liczbie tooli; PFA i interrupts przy write. 5. **UI i copy HITL pod rozeznanie** — szczególnie tam, gdzie błąd kosztuje użytkownika (egzaminy, pieniądze, compliance).
Loop engineering nie kończy się na deployu. Kończy się wtedy, gdy następna iteracja pętli jest **tańsza i pewniejsza** niż poprzednia — bo logi, eval i ludzie w pętli nauczyli system czegoś, czego nie da się wpromptować jednym razem. Najwyższa pętla pozostaje ludzka: ustalamy, co optymalizujemy w następnym obiegu fabryki. Reszta to inżynieria, która sprawia, że ta decyzja opiera się na dowodach, a nie na wyczuciu.
Sesje satelitarne: skills, MCP i recursive agents
Choć ten plik jest syntezą keynote'u, warto wpleść wątki, które konferencja powtarzała w mniejszych salach — bo tworzą ten sam obraz loop engineering.
**Skills jako nowe SDK** (LC3-P7v3yoI): kontekst to budżet; metadata skillu w oknie, treść referencyjna on-demand. Skills lżejsze tokenowo niż wklejanie całej dokumentacji; MCP do izolacji i zewnętrznego compute. Skills to wersjonowane oprogramowanie z triggerami (user vs model invoked), nie dump promptu.
**Agent Skills Missing Manual** (UNzCG3lw6O0): mały skill.md, steering leading words, vertical slice, pruning — deletion test, single source of truth. Bezpośrednio przekłada się na mniejsze rachunki i przewidywalniejsze zachowanie w długich sesjach.
**MCP Apps** (sAOBXCDiDOs): serwery zwracają sandboxed UI widgets, nie tylko JSON; streaming args → live UI; store'y w ChatGPT/Claude jako kanał dystrybucji. Dla fabryk integracyjnych: protokół nie stoi w miejscu — harness musi obsłużyć UI w tool loop.
**Recursive Coding Agents / OpenProse** (3hXJI2q0Jz8): agenci to mismanaged geniuses — problem orchestracja. RLM: prompt jako obiekt w REPL, rekurencja sub-agentów; mały model rekurencyjnie może bić duży flat. Kompilacja workflowów z golden sessions — kolejna forma „najwyższej pętli" zapisanej jako kod.
**Agents Building Agents** (aHhB3sjGjkI): golden dataset + scorer jako test suite dla niedeterministycznych agentów; AutoAgent: hipotezy → zmiany → eval → rollback; 18% → 83% w ~10 iteracjach. *We are using AI to build AI* — ale tylko z eval zamkniętym w pętli.
**Lokalny indeks kodu** (dRmWYHuIJxM): 90% kosztu to input; 83k → 4,9k tokenów/pytanie. Fabryka bez indeksu płaci podwójnie — za model i za własny brak infrastruktury kontekstu.
**Review debt** (TJPInBjhE4Q): więcej kodu od agentów, mniej review; deterministyczny scorer 0–100 bez LLM jako judge. Loop engineering musi obejmować **governance merge**, nie tylko generację.
**100-tool trap** (vh2VGuQ3zhY): semantic routing top-K=3–5 narzędzi. Fabryka z setkami MCP bez routera to fabryka, która nie dotrze do produkcji.
Te sesje nie są odchyleniem od keynote'u — to implementacje tej samej tezy: zachowanie systemu = model × harness × kontekst × eval × ludzie.
Chronicle, replay i kultura post-mortem
Rozwijając trace-first: **Chronicle** (i pokrewne) to nie tylko nagrywanie. Adnotowane trace'y pozwalają zadać pytania: „co by było, gdy krok 7 użył innego narzędzia?" Replay offline bez kosztu kolejnego runu w produkcji. W kulturze SRE to odpowiednik incident timeline — tylko że agent generuje dziesiątki „micro-incidentów" dziennie.
Bez replay:
- debug to zgadywanie z skróconego logu,
- eval regresji to nadzieja,
- uczenie z błędów wymaga ręcznego przepisywania promptów.
Z replay:
- fix harnessu jest testowalny,
- golden trace staje się contractem,
- product może zapytać „pokaż mi ostatnie 100 porażek na tym kroku".
*Replayability jest rdzeniową zasadą* — bo w świecie agentów nie ma deterministycznego stack trace; jest tylko narracja kroków, którą musisz móc odtworzyć.
Ekonomia fabryki: kiedy się zwraca
Sceptycy mają rację, że nie każda organizacja potrzebuje 36 agentów jak Machinecraft. Keynote sugeruje krzywą dojrzałości:
1. **Pojedynczy coding agent** z lepszym kontekstem (indeks, skills) — szybki ROI na billu API.
2. **Eval CI + verify loop** — spadek regresji i review debt.
3. **Wielu agentów z orchestracją** — dopiero gdy kroki 1–2 są stabilne.
4. **Runtime memory i adaptive coupling** — gdy powtarzalne błędy są kosztowne.
Przeskoczenie poziomu bez poprzedniego daje studia terenowe: 3–5x, potem wyparowanie. Fabryka świateł wyłączonych bez governance to antywzorzec keynote'u.
Koszty wektorów, S3 index, deferred context — to pozycje **unit economics** obok tokenów. CTO powinien widzieć dashboard: koszt inference, koszt pamięci, koszt czasu reviewera, koszt incydentu — nie tylko „ile kosztuje GPT".
Przyszłość najwyższej pętli
Konferencja zostawia otwarte pytanie: jeśli agenci przejmują środkowe pętle (build, test, retrieve), co robi zespół ludzki? Odpowiedź z sali jest spójna: **najwyższa pętla** — co budujemy, co znaczy done, jakie ryzyko akceptujemy, które evaly są contractem z biznesem. Radical Speed Month pokazał, że designerki i inżynierowie-enablerzy przesuwają tę pętlę w dół organizacji, gdy mają agency i bezpieczne środowisko.
Loop engineering to nie eliminacja ludzi. To przeniesienie ludzkiej uwagi z klikania „approve" na projektowanie pętli, w której approve ma sens — bo system dostarczył dowód, a UI wymusił rozeznanie. Taki keynote nie kończy się checklistą vendorów. Kończy się obowiązkiem: jeśli budujesz fabrykę agentów, zbuduj też fabrykę **dowodów i replay** — inaczej za rok będziesz tłumaczył, dlaczego 10x znowu nie czuć.
Słowniczek operacyjny (dla zespołu po keynote)
**Loop engineering** — projektowanie zamkniętych pętli spec→build→eval→deploy→monitor z jawnymi właściwościami i ludzką najwyższą pętlą.
**Software factory** — długowieczne procesy + wyspecjalizowani agenci + artefakty + dowody, nie jednorazowy chat.
**Trace-first** — log kroków agenta jako źródło prawdy i podstawa replay.
**Runtime memory** — pamięć aktualizowana z wyników zadań (utility score, skills), nie tylko z rozmowy.
**Deferred context** — ładowanie fragmentów kontekstu dopiero gdy potrzebne, nie na start sesji.
**Review debt** — rosnąca kolejka PR-ów wygenerowanych szybciej niż ludzie je rozumieją.
**Capability overhang** — model w teorii umie; system w praktyce nie dostarcza narzędzi, kontekstu lub verify.
Te terminy pojawiają się w materiałach konferencji jak zszyte nici — warto mieć wspólny język zanim kupicie kolejny tier API.
Na koniec: jeśli miałbyś zapamiętać jedno zdanie z całego keynote'u loop engineering — niech to będzie to, że **najwyższa pętla jest ludzka, a każda niższa pętla musi dostarczać dowód**. Wszystko inne — Chronicle, utility score, S3 vectors, MCP apps — jest implementacją tej zasady.