AI LLM Prompt engineering RAG

10 kluczowych pojęć AI, które musisz znać - od Transformera po LoRA

Poznaj 10 kluczowych pojęć AI: Transformer, tokenizacja, RAG, RLHF, LoRA i więcej. Przystępny przewodnik z przykładami dla każdego, kto chce zrozumieć jak działa sztuczna inteligencja.

Maciej Zamróz

05.02.2026

14 min czytania

10 kluczowych pojęć AI, które musisz znać - od Transformera po LoRA

Większość nowoczesnych produktów opartych na sztucznej inteligencji (AI) zbudowana jest na tym samym zestawie fundamentalnych idei. Niezależnie od tego, czy korzystasz z ChatGPT, Claude czy generatorów obrazów, pod spodem działają te same mechanizmy.

W dzisiejszym wpisie przejdziemy przez 10 pojęć, które nieustannie pojawiają się w świecie rzeczywistych systemów AI. Zrozumienie ich ułatwi Ci śledzenie przyszłych nowinek technologicznych.

TL;DR - każde pojęcie w jednym zdaniu

Zanim zagłębimy się w szczegóły, oto ściągawka dla niecierpliwych:

Transformer - uniwersalny „silnik" stojący za dzisiejszą AI; potrafi analizować cały tekst naraz zamiast słowo po słowie, dlatego jest tak szybki i skuteczny.
Tokenizacja - sposób, w jaki AI „czyta" tekst: dzieli go na kawałki (tokeny) i zamienia na liczby, bo tylko z liczbami potrafi pracować.
Dekodowanie tekstu - mechanizm wybierania kolejnego słowa w odpowiedzi: AI może stawiać zawsze na „pewniaka" albo dodać odrobinę losowości dla ciekawszych odpowiedzi.
Inżynieria promptów - sztuka zadawania pytań AI w taki sposób, żeby odpowiedź była jak najbardziej trafna, bez potrzeby modyfikowania samego modelu.
Agenci AI - systemy, w których AI nie tylko odpowiada, ale też samodzielnie korzysta z narzędzi (np. przeglądarki, kalkulatora, kodu), planuje i działa krok po kroku aż do osiągnięcia celu.
RAG - metoda, która pozwala AI „zajrzeć" do zewnętrznych dokumentów przed udzieleniem odpowiedzi, dzięki czemu nie musi polegać wyłącznie na swojej pamięci.
RLHF - technika, dzięki której ludzie „uczą" AI, które odpowiedzi są lepsze, a które gorsze, aż model zaczyna odpowiadać bardziej po ludzku.
VAE - kompresor danych: zmniejsza obraz lub wideo do uproszczonej formy, na której AI pracuje szybciej, a potem odtwarza pełną jakość.
Modele dyfuzyjne - technologia generowania obrazów: AI uczy się usuwać szum ze zdjęć, a potem wykorzystuje tę umiejętność „od tyłu", tworząc obrazy z czystego szumu.
LoRA - sposób na szybkie i tanie nauczenie istniejącego modelu AI nowej specjalizacji, bez konieczności trenowania go od zera.

1. Transformer i mechanizm atencji (Attention)

Transformer to architektura sieci neuronowej, która stała się fundamentem współczesnej AI - zarówno dużych modeli językowych (GPT, Claude, Llama), jak i generatorów obrazów czy wideo. Jej kluczowym elementem jest mechanizm atencji (attention), który pozwala modelowi „skupiać się" na najistotniejszych fragmentach danych wejściowych, niezależnie od ich pozycji w sekwencji. Dzięki temu Transformer radzi sobie ze zrozumieniem długiego kontekstu znacznie lepiej niż wcześniejsze architektury rekurencyjne (RNN, LSTM), które musiały analizować dane sekwencyjnie - słowo po słowie. Przełomową zaletą Transformera jest właśnie przetwarzanie równoległe: cała sekwencja jest analizowana jednocześnie, co pozwoliło na trenowanie modeli na gigantycznych zbiorach danych w rozsądnym czasie. Praktycznie wszystkie pojęcia omówione poniżej - od tokenizacji po LoRA - dotyczą modeli zbudowanych właśnie na architekturze Transformer.

Przykład: Wyobraź sobie, że czytasz długi e-mail. Wcześniejsze modele AI działały jak osoba, która czyta go słowo po słowie i do momentu dojścia do końca już zapomniała początek. Transformer działa jak ktoś, kto widzi cały e-mail naraz i może w każdej chwili zerknąć na dowolny fragment - dzięki temu lepiej rozumie, o czym jest wiadomość, nawet jeśli kluczowa informacja jest na samym początku, a pytanie dopiero na końcu.

2. Tokenizacja (Tokenization)

Sieci neuronowe, takie jak duże modele językowe (LLM), nie potrafią pracować bezpośrednio na surowym tekście. Tutaj wkracza tokenizacja - proces, który dzieli tekst na mniejsze jednostki zwane tokenami i przypisuje im identyfikatory liczbowe. Warto pamiętać, że tokeny to nie to samo co słowa - jedno słowo może zostać podzielone na kilka tokenów, a krótkie, częste słowa mogą być pojedynczym tokenem. Przyjmuje się w przybliżeniu, że w języku angielskim 1000 tokenów odpowiada ok. 750 słowom; w języku polskim ta proporcja jest mniej korzystna ze względu na bogatą odmianę i dłuższe formy wyrazów. Najpopularniejszym algorytmem tokenizacji jest BPE (Byte Pair Encoding). BPE działa iteracyjnie: w każdym kroku wyszukuje najczęściej występującą parę sąsiednich tokenów i łączy ją w nowy, dłuższy token. Na początku tokeny to pojedyncze znaki, ale z kolejnymi iteracjami powstają coraz dłuższe podciągi - dzięki temu częste fragmenty słów (np. „ing", „tion") stają się pojedynczymi jednostkami. Algorytm BPE jest stosowany we wszystkich głównych modelach językowych, w tym GPT, Llama i Mistral.

Przykład: Weźmy taki równoważnik zdania: „Nieprawdopodobne!". Model nie widzi go jako jednego słowa. Tokenizer rozbije je na części, np.: „Nie" + „prawdo" + „podob" + „ne" + „!". Każdy z tych kawałków dostaje swój numer - i to właśnie te numery „czyta" model. Dlatego ten sam tekst może zużywać różną liczbę tokenów w zależności od języka: polskie „nieprawdopodobne" to więcej tokenów niż angielskie „incredible".

3. Dekodowanie tekstu (Text Decoding)

LLM generuje jedynie rozkład prawdopodobieństwa dla następnego tokena. Algorytm dekodujący musi wybrać jeden z nich, aby stworzyć odpowiedź. Dwie podstawowe strategie to:

Greedy decoding (dekodowanie zachłanne): Zawsze wybiera najbardziej prawdopodobny token. Sprawdza się w zadaniach deterministycznych, ale daje przewidywalne, powtarzalne wyniki.
Sampling (próbkowanie): Dodaje kontrolowaną losowość, co zwiększa różnorodność generowanych treści. Najpopularniejsze warianty to Top-P sampling (zwane też Nucleus Sampling - próbkowanie z najmniejszego zbioru tokenów, których łączne prawdopodobieństwo przekracza ustalony próg p) oraz Top-K sampling (wybór spośród stałej liczby k najbardziej prawdopodobnych tokenów). Obie metody można łączyć z regulacją temperatury - im wyższa temperatura, tym bardziej „kreatywne" i zaskakujące odpowiedzi, im niższa - tym bardziej przewidywalne.

Przykład: Załóżmy, że model ma dokończyć zdanie „Stolica Polski to…". Przy greedy decoding zawsze wybierze „Warszawa", bo to odpowiedź o najwyższym prawdopodobieństwie. Ale przy pytaniu „Napisz wiersz o wiośnie" chcemy kreatywności - wtedy sampling z wyższą temperaturą pozwala modelowi wybierać mniej oczywiste słowa, dzięki czemu wiersz nie brzmi jak szablon. To jak różnica między kalkulatorem (zawsze ta sama odpowiedź) a poetą (każdy wiersz inny).

4. Inżynieria promptów (Prompt Engineering)

To sztuka kształtowania instrukcji i kontekstu tak, aby sterować zachowaniem modelu bez zmiany jego wag - a więc bez dodatkowego treningu. Dobry prompt jasno określa zadanie i oczekiwany format odpowiedzi. Popularne techniki to:

Few-shot prompting: Podanie kilku przykładów w treści promptu, aby model naśladował pożądany styl i strukturę odpowiedzi.
Chain of Thought (CoT): Proszenie modelu o rozumowanie krok po kroku, co znacząco poprawia wyniki w zadaniach logicznych, takich jak matematyka czy kodowanie.

Inżynieria promptów jest metodą szybką i tanią w porównaniu do trenowania lub douczania modelu - nie wymaga ani danych treningowych, ani mocy obliczeniowej.

Przykład: Porównaj dwa prompty: (1) „Napisz coś o psach" - odpowiedź będzie ogólna i nieprzewidywalna. (2) „Jesteś weterynarzem z 20-letnim doświadczeniem. Wyjaśnij właścicielowi labradora, dlaczego regularne szczepienia są ważne. Użyj prostego języka, maksymalnie 5 zdań." - odpowiedź będzie konkretna, fachowa i w odpowiednim tonie. Model jest ten sam - zmienił się tylko sposób zadania pytania. To właśnie inżynieria promptów. Chain of Thought w praktyce wygląda np. tak: „Ile to 17 × 24? Rozwiąż krok po kroku" - sam dopisek „krok po kroku" sprawia, że model rzadziej się myli.

5. Wieloetapowi agenci AI (Multi-step AI Agents)

Klasyczny LLM generuje tylko tekst - odpowiada na pytanie i na tym kończy. Agenci to systemy, które zamykają LLM w pętli z dostępem do zewnętrznych narzędzi i pamięci. Pozwala to modelowi planować działania, korzystać z przeglądarki internetowej, uruchamiać kod czy przeszukiwać bazy danych, a następnie decydować o kolejnym kroku na podstawie uzyskanych wyników - i tak aż do osiągnięcia celu. Typowy cykl pracy agenta wygląda następująco: model otrzymuje zadanie, rozkłada je na podzadania, wykonuje kolejne kroki (wywołując narzędzia), obserwuje wyniki i na ich podstawie planuje dalsze działania. Rok 2025 przyniósł prawdziwy boom agentów AI: Anthropic udostępnił Claude Code i Cowork, OpenAI wypuściło Codex, a Google rozwinęło Project Mariner. Agenci przekształcają LLM z pasywnego „odpowiadacza" w aktywny system zdolny do realizacji złożonych, wieloetapowych zadań - od pisania i testowania kodu, przez rezerwację podróży, po autonomiczne prowadzenie projektów.

Przykład: Prosisz agenta AI: „Zarezerwuj mi najtańszy lot do Barcelony w przyszły weekend i znajdź hotel blisko plaży do 400 zł za noc". Zwykły chatbot odpowiedziałby ogólnymi poradami. Agent natomiast: (1) sprawdza dostępne loty w wyszukiwarce, (2) porównuje ceny, (3) wyszukuje hotele w okolicy plaży, (4) filtruje po cenie, (5) przedstawia Ci gotowe opcje z linkami - a po Twojej akceptacji może nawet dokonać rezerwacji. Każdy krok to osobna decyzja modelu, który sam wybiera, jakiego narzędzia użyć.

6. RAG (Retrieval Augmented Generation)

Zwykły model LLM opiera się tylko na wiedzy zapisanej w swoich wagach podczas treningu, przez co może podawać nieaktualne lub błędne informacje (tzw. halucynacje). RAG łączy model z systemem wyszukiwania podpiętym do zewnętrznej bazy wiedzy - np. dokumentów firmowych, artykułów czy regulaminów. W praktyce działa to tak: zapytanie użytkownika jest zamieniane na reprezentację wektorową (embedding), a następnie porównywane z wektorami dokumentów w bazie. System pobiera najistotniejsze fragmenty, a LLM wykorzystuje je do udzielenia odpowiedzi opartej na konkretnych źródłach. RAG jest dziś szeroko stosowany w chatbotach korporacyjnych i wyszukiwarkach - to między innymi mechanizm stojący za funkcjami wyszukiwania webowego w ChatGPT i Claude.

Przykład: Pytasz firmowego chatbota: „Ile dni urlopu mi zostało?". Bez RAG model mógłby odpowiedzieć ogólnikowo albo zmyślić liczbę. Z RAG system najpierw przeszukuje wewnętrzną bazę HR, znajduje Twój aktualny stan urlopowy i dopiero na tej podstawie formułuje odpowiedź: „Masz jeszcze 8 dni urlopu w tym roku". To jak różnica między pytaniem kogoś, kto zgaduje, a kogoś, kto najpierw sprawdza w dokumentach.

7. RLHF (Reinforcement Learning from Human Feedback)

Jednym z kluczowych elementów sukcesu ChatGPT było zastosowanie RLHF - uczenia ze wzmocnieniem na podstawie ludzkich informacji zwrotnych. RLHF to etap dostrajania modelu, który następuje po wstępnym treningu (pretraining) i nadzorowanym douczaniu (supervised fine-tuning, SFT). W ramach RLHF trenowany jest model nagrody (reward model), który uczy się ludzkich preferencji - ocenia, która z dwóch wygenerowanych odpowiedzi jest bardziej pomocna, trafna i bezpieczna. Następnie model główny jest optymalizowany tak, aby generować odpowiedzi wysoko oceniane przez model nagrody. Efekt: odpowiedzi nie są jedynie statystycznie prawdopodobne, ale też użyteczne i zgodne z oczekiwaniami ludzi. RLHF i jego warianty (np. DPO - Direct Preference Optimization, czy RLAIF - RL from AI Feedback stosowany przez Anthropic w ramach Constitutional AI) pozostają fundamentem dostrajania wszystkich czołowych modeli.

Przykład: Wyobraź sobie, że uczysz nowego pracownika obsługi klienta. Po pretreningu „zna język" - potrafi budować zdania. Po SFT „zna procedury" - wie, jak odpowiadać na pytania. Ale dopiero RLHF to etap, w którym doświadczeni pracownicy przeglądają jego odpowiedzi i mówią: „Ta odpowiedź jest lepsza, bo jest uprzejma i konkretna, a tamta gorsza, bo brzmi arogancko". Po wielu takich ocenach model uczy się nie tylko odpowiadać poprawnie, ale też w sposób, który ludzie faktycznie uznają za pomocny.

8. Wariacyjny Autoenkoder (VAE)

VAE (Variational Autoencoder) to architektura generatywna składająca się z dwóch części: enkodera, który mapuje dane wejściowe (np. obraz lub klatkę wideo) do skompresowanej reprezentacji w tzw. przestrzeni latentnej, oraz dekodera, który odtwarza dane z tej reprezentacji. VAE jest kluczowym komponentem systemów generowania wideo (jak Sora od OpenAI) i obrazów (jak Stable Diffusion), gdzie pełni rolę kompresora przestrzenno-czasowego - pozwala modelowi dyfuzyjnemu działać wydajniej w znacznie mniejszej przestrzeni danych, zamiast operować bezpośrednio na pikselach.

Przykład: Zdjęcie w rozdzielczości 1024×1024 piksele to ponad 3 miliony liczb (każdy piksel ma 3 kanały kolorów). Generowanie obrazu bezpośrednio na tylu liczbach byłoby niezwykle wolne. VAE działa jak sprytna kompresja: enkoder „ściska" obraz do np. 64×64 punktów w przestrzeni latentnej (ponad 250 razy mniej danych!), model dyfuzyjny pracuje na tej małej reprezentacji, a na końcu dekoder „rozpakowuje" wynik z powrotem do pełnej rozdzielczości. To trochę jak praca architekta na szkicu zamiast budowaniu od razu pełnowymiarowego domu.

9. Modele dyfuzyjne (Diffusion Models)

To technologia stojąca za generowaniem obrazów (DALL·E, Stable Diffusion, Midjourney, FLUX), a coraz częściej również wideo i audio. Działanie modeli dyfuzyjnych opiera się na dwóch procesach:

Proces zaszumiania (forward): Podczas treningu do obrazu stopniowo dodawany jest losowy szum gaussowski, aż obraz staje się czystym szumem.
Proces odszumiania (reverse): Model (najczęściej sieć U-Net lub Transformer - ten drugi typ nazywany jest DiT, Diffusion Transformer) uczy się przewidywać szum dodany na każdym kroku. Podczas generowania nowego obrazu model startuje od czystego szumu i iteracyjnie przewiduje oraz odejmuje szum, krok po kroku generując coraz wyraźniejszy obraz.

Kluczowe jest to, że model nie „wyobraża sobie" obrazu wprost - uczy się, jak wygląda szum nałożony na konkretne obiekty i struktury, dzięki czemu w procesie generowania potrafi „odjąć" ten szum od chaosu, ujawniając strukturę obrazu. Obraz powstaje jako efekt uboczny wielokrotnego, precyzyjnego odszumiania. Warto dodać, że najnowsze modele (Sora, Stable Video Diffusion) wykorzystują wariant DiT - Diffusion Transformer, który zastępuje tradycyjną sieć U-Net architekturą Transformer, osiągając lepsze wyniki na dużą skalę.

Przykład: Pomyśl o renowacji starego obrazu. Restaurator uczy się rozpoznawać, co jest brudem, a co oryginalnym malowidłem - i warstwa po warstwie usuwa zabrudzenia, odsłaniając dzieło. Model dyfuzyjny robi coś podobnego, ale „od tyłu": podczas treningu widzi tysiące zdjęć kotów stopniowo zamienianych w szum i uczy się odwracać ten proces. Potem, gdy dostaje czysty szum i polecenie „kot na kanapie", potrafi krok po kroku „odsłonić" obraz kota - bo nauczył się, jak wygląda szum nałożony na kota, kanapę i każdy inny obiekt.

10. LoRA (Low-Rank Adaptation)

Duże modele są świetne w zadaniach ogólnych, ale mogą zawodzić w specjalistycznych dziedzinach. Pełne douczanie (fine-tuning) takiego modelu wymaga ogromnych zasobów obliczeniowych. LoRA rozwiązuje ten problem w elegancki sposób: zamraża oryginalne wagi modelu i reprezentuje potrzebną aktualizację wag (ΔW) jako iloczyn dwóch niewielkich macierzy niskiego rzędu (A × B). Dzięki temu zamiast trenować miliardy parametrów, wystarczy zaktualizować ich ułamek - LoRA potrafi zredukować liczbę trenowalnych parametrów nawet 10 000-krotnie. W praktyce wynikiem treningu LoRA jest tzw. adapter - niewielki plik (często kilka–kilkanaście MB), który można „nałożyć" na model bazowy ważący setki gigabajtów. Adaptery można łatwo wymieniać w zależności od zadania: jeden adapter do tłumaczeń medycznych, inny do analizy prawnej, jeszcze inny do generowania kodu - wszystkie współdzielą ten sam model bazowy. LoRA i jej pochodne (QLoRA, DoRA) stały się standardem w społeczności open-source i są powszechnie stosowane do specjalizacji modeli takich jak Llama, Mistral czy Stable Diffusion.

Przykład: Masz ogólny model AI, który zna się na wszystkim po trochu - jak lekarz ogólny. Chcesz, żeby stał się specjalistą od kardiologii. Pełny fine-tuning to jakbyś wysłał go na kompletne studia medyczne od nowa - drogie i czasochłonne. LoRA to raczej intensywny kurs specjalizacyjny: lekarz zachowuje całą dotychczasową wiedzę (zamrożone wagi), a dokłada do niej wąską, ale głęboką wiedzę kardiologiczną (adapter). Rezultat: specjalista od serca za ułamek kosztów. A jeśli jutro potrzebujesz dermatologa? Wystarczy wymienić „kurs" (adapter) - „lekarz" (model bazowy) pozostaje ten sam.

Słownik pojęć

Krótkie wyjaśnienia terminów, które pojawiają się w artykule, ale nie zostały w nim szczegółowo omówione.

Architektura — „plan budowy" modelu AI. Określa, z jakich elementów się składa i jak dane przez niego przepływają. Transformer, U-Net i VAE to przykłady różnych architektur — tak jak sedan, SUV i van to różne konstrukcje samochodu.

Embedding (reprezentacja wektorowa) — sposób zamiany słowa, zdania lub obrazu w ciąg liczb, tak żeby komputer mógł mierzyć, jak bardzo dwa elementy są do siebie podobne. Dzięki temu np. system RAG potrafi znaleźć dokumenty pasujące do pytania.

FLUX — rodzina otwartych modeli do generowania obrazów od firmy Black Forest Labs. Konkurent zamkniętych modeli jak DALL·E czy Midjourney, ale z publicznie dostępnymi wagami.

LLM (Large Language Model) — duży model językowy, czyli program AI wytrenowany na ogromnych ilościach tekstu. Przykłady: GPT (OpenAI), Claude (Anthropic), Llama (Meta), Gemini (Google).

Macierz — tabela liczb ułożonych w wiersze i kolumny. Cała „wiedza" modelu AI jest zapisana właśnie w macierzach — to na nich wykonywane są obliczenia podczas generowania odpowiedzi.

Prompt — to, co wpisujesz do ChatGPT czy Claude: pytanie, polecenie lub kontekst, na podstawie którego AI generuje odpowiedź.

Wagi (weights) — liczby zapisane w macierzach, które stanowią „wiedzę" modelu AI. Są ustalane podczas treningu i decydują o tym, jak model się zachowuje — jakie odpowiedzi generuje, jak rozumie tekst, jak tworzy obrazy.

Bibliografia

Vaswani, A. et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30. - oryginalny artykuł opisujący architekturę Transformer.
Sennrich, R., Haddow, B. & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. - pierwsze zastosowanie BPE w NLP.
Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685. - oryginalny artykuł opisujący LoRA.
Ho, J., Jain, A. & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems 33. - fundament modeli dyfuzyjnych.
Peebles, W. & Xie, S. (2023). Scalable Diffusion Models with Transformers. Proceedings of ICCV. - architektura Diffusion Transformer (DiT).
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems 35. - artykuł o InstructGPT i RLHF.
Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33. - oryginalny artykuł o RAG.
Kingma, D. P. & Welling, M. (2014). Auto-Encoding Variational Bayes. Proceedings of ICLR. - oryginalny artykuł o VAE.
Yao, S. et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. Proceedings of ICLR. - fundament wzorca agentowego łączącego rozumowanie z działaniem.
Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized Language Models. Advances in Neural Information Processing Systems 36. - technika QLoRA.
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. Advances in Neural Information Processing Systems 36. - artykuł o DPO.

Stan wiedzy: luty 2026.