case-study 12 kwietnia 2026 · 8 min czytania

Case study: 4 godziny dziennie skrócone do 20 minut

Realne pomiary z pilotażu agenta AI w obsłudze maili klienta. Co dokładnie się zmieniło, jakie liczby, jaki koszt, jakie pułapki.

Marcin Ołdak

Cover artykułu: 4 godziny dziennie do 20 minut

4 godziny dziennie → 20 minut.

To nie jest marketing. To liczba zmierzona na realnych danych podczas 6-tygodniowego pilotażu agenta AI w niewielkiej firmie usługowej (5 osób, ~80 maili klienckich dziennie).

W tym artykule rozkładam to na czynniki: co dokładnie zostało zautomatyzowane, ile kosztowało wdrożenie, jaki był ROI, i — najważniejsze — co poszło nie tak w pierwszej iteracji.

Kontekst: dlaczego w ogóle to robiliśmy

Klient (nazwiska nie podaję — pilotaż nie jest jeszcze opublikowany jako referencja) prowadził pięcioosobowy zespół obsługujący korespondencję od ~150 stałych klientów B2B.

Stan zerowy:

3.5–4 godziny dziennie każda osoba spędzała na pierwszej połowie skrzynki
40-60 maili rano, 20-40 popołudniem
70% maili to powtarzające się pytania (“kiedy płatność?”, “status zamówienia”, “dostarczcie kopię faktury”, “czy macie…”)
15% wymagało prawdziwego myślenia (negocjacje, reklamacje, eskalacje)
15% to spam / niskoważne (newslettery, oferty)

Problem nie był “trudny” — był nudny i pochłaniał czas, który można było wykorzystać na pracę wymagającą kompetencji człowieka.

Co dokładnie zbudowałem

Architektura

Skrzynka IMAP (Gmail Workspace)
        ↓
Cron worker (n8n, co 15 min)
        ↓
Agent klasyfikujący (Claude Sonnet)
   → Decyzja: PILNE / RUTYNOWE / SPAM
   → Dla rutynowych: czytanie historii klienta z CRM (PipeDrive API)
        ↓
Agent generujący draft (Claude Sonnet)
   → Pisze odpowiedź w tonie zespołu (8 example'ów w prompcie)
   → Format: Markdown, z placeholderami (data, kwota, link)
        ↓
Dashboard webowy (FastAPI + Tailwind)
   → Lista draftów do akceptacji
   → 1 klik = wysyłka, 1 klik = edycja, 1 klik = odrzucenie
        ↓
SMTP (po akceptacji) lub eskalacja do osoby

Stack:

Claude Sonnet 4.5 — klasyfikacja + generacja
n8n — orkiestracja workflow + cron
PipeDrive API — kontekst klienta (historia, deal stage, ostatnie maile)
FastAPI + SQLite — dashboard zatwierdzania
Postmark — SMTP wysyłki

Co dokładnie robi człowiek

Przed:

Otwiera Gmail → 60 maili
Czyta każdy → klasyfikuje w głowie
Pisze odpowiedź lub kopiuje template
Personalizuje template
Wysyła
3.5-4h, codziennie

Po:

Otwiera dashboard MJ.OLDAK → 60 draftów gotowych
Skanuje listę (status: zielony = OK, żółty = do edycji, czerwony = wymaga uwagi)
Dla zielonych: 1 klik “Wyślij” (45 maili)
Dla żółtych: krótka edycja + wyślij (10 maili)
Dla czerwonych: pisze ręcznie z pomocą agenta (5 maili)
20 minut, codziennie

Liczby

Czas pracy

Etap	Przed (min/dzień)	Po (min/dzień)	Oszczędność
Przegląd skrzynki	45	5	-89%
Klasyfikacja	20	0	-100%
Pisanie odpowiedzi rutynowych	90	8	-91%
Pisanie odpowiedzi nietypowych	45	35	-22%
Raport dzienny dla managera	30	0	-100%
Razem	230 min	48 min	-79%

Jakość

Odpowiedzi wysyłane szybciej (średnio 2.3h vs 5.7h przed)
Spadek “zapomnianych” maili (z 8% do 0%)
Wzrost satysfakcji klientów (NPS +12 po 8 tygodniach)

Koszty

Pozycja	Kwota
Wdrożenie jednorazowe (mój czas, 3 tygodnie)	12 000 zł
Claude API (Sonnet, ~80 maili × 30 dni × 2 wywołania)	~120 zł / mies
n8n cloud + Postmark	~80 zł / mies
Hosting dashboardu (Hetzner Cloud CX21)	25 zł / mies
Miesięczny koszt utrzymania	~225 zł

ROI

Człowiek-pracownik to ~7 000 zł/miesiąc kosztu pracodawcy. Oszczędność 3 godzin dziennie × 21 dni = 63h miesięcznie ≈ 2 800 zł wartości pracy uwolnionej miesięcznie.

Zwrot wdrożenia: ~5 miesięcy. Po tym koszt ~225 zł zwraca się 12-krotnie.

Co poszło nie tak (pierwsza iteracja)

To jest najważniejsza część — pomijana w 95% case studies “wdrożeń AI”. Pierwsza wersja agenta była zła. Tu są 3 błędy.

Błąd 1: Za szeroki prompt klasyfikacji

W pierwszym tygodniu kazałem Claude “ocenić czy mail jest pilny”. Wynik: model uznawał za pilne wszystko co zawierało słowa “termin”, “do dziś”, “asap”. Konserwatywny, ale 70% maili oznaczonych jako PILNE = bez sensu, człowiek i tak musiał przeglądać.

Fix: dodanie definicji “pilne = wymaga akcji w ciągu 4h I dotyczy umowy, faktury, reklamacji, urzędu”. Spadek false-positive z 70% do 12%.

Błąd 2: Drafty bez kontekstu historii klienta

Agent pisał poprawne gramatycznie, profesjonalne odpowiedzi — które jednak wyglądały jak od bota. Brakowało nawiązania do poprzednich rozmów, do otwartego deala, do specyfiki klienta.

Fix: dodanie kroku “weź ostatnie 5 maili z tym klientem + status w CRM” przed generacją draftu. Drafty od razu nabrały personalności.

Błąd 3: Brak feedback loop

Pierwsze 2 tygodnie człowiek edytował drafty, ale poprawki nigdzie nie wracały. Agent nie uczył się z korekt.

Fix: dodanie panelu “powód odrzucenia” przy każdym odrzuconym draftcie. Co 2 tygodnie analiza wzorców → aktualizacja systemowego prompta. Od 4. tygodnia jakość draftów wzrosła o 35% (mierzone procentem akceptacji bez edycji).

Czy zadziała u Ciebie

To zależy od 3 zmiennych:

Wolumen. Poniżej ~30 maili dziennie nie ma sensu — koszt wdrożenia nie zwróci się szybko.
Powtarzalność. Jeśli Twoje maile to głównie negocjacje 1-na-1 z każdorazowo unikalnymi warunkami, agent nie pomoże. Jeśli 60%+ to “powtarzalne pytania” — pomoże znacznie.
Gotowość zespołu. Pierwsze 2 tygodnie to więcej pracy, nie mniej (uczenie się systemu, weryfikacja draftów). Trzeba przejść przez tę dolinę.

Jeśli te trzy są na ✅ — porozmawiajmy.

Co dalej

Aktualnie wdrażam tę samą architekturę u 2 kolejnych klientów (oba biura rachunkowe — przypadek użycia jeszcze lepiej dopasowany niż firma usługowa, bo maile są jeszcze bardziej powtarzalne).

Jeśli prowadzisz biuro lub MŚP z dużą skrzynką — napisz na contact@mjoldak.com i pokażę demo na Twojej (zanonimizowanej) próbce maili.

Najlepsza inwestycja w automatyzację to ta, która zwraca się w mniej niż 6 miesięcy. Wszystko powyżej to spekulacja.

Czytaj dalej: Stack pod agentów AI — Claude, n8n, Azure Document Intelligence

Tagi

#case-study #automatyzacja #biuro-rachunkowe #demo

Newsletter · 1× w miesiącu

Dostawaj esencję.

Najlepsze artykuły z miesiąca + 1 case study z biur rachunkowych. Bez spamu, bez sprzedaży.

Twój email idzie tylko do mnie. Wypisanie 1 klikiem.

Powiązane artykuły.

Cover artykułu: Dlaczego pierwsze demo AI pokazałem za darmo

case-study · 13 maj 2026

Dlaczego pierwsze demo AI pokazałem za darmo — strategia sprzedaży dla solo-founderów

Pierwszy klient nie zapłacił mi złotówki. I to była najlepsza decyzja sprzedażowa, jaką podjąłem w MJ.OLDAK SYSTEMS. Dlaczego — z liczbami i psychologią kupującego.

Cover artykułu: biuro rachunkowe oszczędza 60 godzin miesięcznie

case-study · 29 kwi 2026

Biuro rachunkowe oszczędza 60 godzin miesięcznie — anatomia automatyzacji

60 godzin to nie marketingowy slogan — to realna mapa czterech procesów w polskim biurze rachunkowym. Liczby z Finerto, Poltax, EY Polska i Plona plus ukryte koszty wdrożenia.

Cover artykułu: Premiera 4 demo agentów AI dla biura rachunkowego

demo · 20 maj 2026

Premiera: 4 gotowe demo agentów AI dla biura rachunkowego — testuj za darmo

Cztery gotowe agenty AI dla biur rachunkowych — OCR faktur, klasyfikacja maili, kalendarz podatkowy, raporty PDF. Pokazuję co działa, ile kosztuje i dlaczego nie musisz zwalniać księgowej.