Agent AI, który obsługuje skrzynkę mailową biura rachunkowego — architektura, koszty, compliance
69% maili do biur rachunkowych to powtarzalne pytania. Pokazuję stack, który odpowiada na nie automatycznie — za ~130 zł miesięcznie, z DPA i ZDR.
Pracownik biura rachunkowego czyta średnio 117 maili dziennie (Microsoft Work Trend Index). Z tego ~69% to kategorie, które da się zautomatyzować jednym promptem: pytania o terminy, prośby o kopię deklaracji, przesłane pisma z US/ZUS, pytania “czy mogę to wrzucić w koszty”.
Nie chodzi o to, żeby AI odpowiadało za księgową. Chodzi o to, żeby księgowa nie spędzała 2,7 godziny dziennie na klikaniu “odpowiedz” i kopiowaniu tego samego tekstu z Notatnika.
W tym artykule rozkładam kompletny stack — z konkretnymi cenami API, architekturą, checklistą compliance i kalkulatorem ROI. Tekst dla właścicieli biur rachunkowych, nie dewelopera.
Co dokładnie robi agent emailowy
Agent nie “odpowiada na maile”. Agent klasyfikuje, routuje i generuje draft — ostatnie słowo ma człowiek.
Pipeline wygląda tak:
- Nowy mail wpada na skrzynkę (IMAP lub Microsoft Graph webhook).
- Agent czyta treść + temat i klasyfikuje do jednej z kategorii:
TERMIN_PŁATNOŚCI,KOPIA_DOKUMENTU,PISMO_URZĘDU,PYTANIE_O_KOSZT,SPRAWA_KADROWA,ESKALACJA_DO_CZŁOWIEKA. - Dla kategorii rutynowych — pobiera kontekst z systemu FK (Symfonia, Comarch Optima, enova) lub CRM i generuje draft odpowiedzi.
- Draft ląduje w dashboardzie do zatwierdzenia — człowiek klika “Wyślij” albo edytuje.
- Dla pilnych (pismo z US, reklamacja) — alert na Slacka lub telefon.
Raport Symfonii z października 2024 (N=1020 przedsiębiorców, panel Ariadna) wskazuje szybką komunikację jako 2. z 3 najważniejszych oczekiwań klientów wobec biura. Analiza sekcji FAQ biur rachunkowych pokazuje, że cztery pierwsze kategorie pytań (status rozliczenia, kopia dokumentu, pisma urzędowe, pytania o koszty) stanowią ~69% ruchu emailowego. To jest właśnie to, co agent zdejmuje z głowy zespołu.
Reszta — negocjacje stawek, doradztwo podatkowe, interpretacje przepisów — zostaje u człowieka. Tak ma być.
Stack: Claude Haiku 4.5 + n8n + Postmark
Po kilku produkcyjnych wdrożeniach mój domyślny stack pod skrzynkę mailową biura wygląda tak:
| Warstwa | Narzędzie | Dlaczego |
|---|---|---|
| Odbiór | IMAP / Gmail API / MS Graph | Natywne webhooki, bez scrapingu |
| Orkiestracja | n8n self-hosted (Hetzner CX21) | Wizualny workflow + compliance |
| Klasyfikacja | Claude Haiku 4.5 | Szybki i tani, accuracy 89%+ |
| Generowanie | Claude Sonnet 4.6 | Jakość dla wrażliwych odpowiedzi |
| Wysyłka | Postmark | Deliverability (nie idzie do spamu) |
| Logi | Google Sheets / PostgreSQL | Audit trail pod RODO |
Dlaczego Haiku do klasyfikacji
Benchmark SearchLight Digital z marca 2026 pokazuje, że Claude Sonnet 4.6 osiąga 89,53% accuracy w klasyfikacji emaili — praktycznie na równi z Gemini 3 Flash (89,75%) i GPT-5.2 (89,25%). Dla porównania GPT-4o-mini dociąga do 73%.
Ale klasyfikacja to proste zadanie. Nie potrzebujesz tu najmocniejszego modelu. Potrzebujesz szybkiego i taniego.
Ceny API (stan: kwiecień 2026):
| Model | Input ($/1M tok) | Output ($/1M tok) | Cache Read |
|---|---|---|---|
| Claude Haiku 4.5 | $1,00 | $5,00 | $0,10 |
| Claude Sonnet 4.5/4.6 | $3,00 | $15,00 | $0,30 |
| GPT-4o | $2,50 | $10,00 | — |
| Gemini 2.5 Flash | ~$0,15 | ~$0,60 | — |
Haiku 4.5 kosztuje 3x mniej niż Sonnet na input i output. Latencja: 0,80s TTFT, ~92 tokenów/sekundę (Artificial Analysis 2026). Przy 10 000 maili miesięcznie różnica między Haiku a Sonnet to około 40 dolarów — realne pieniądze.
Wzór praktyczny: Haiku klasyfikuje i wybiera szablon, Sonnet dopiero generuje odpowiedź w tonie biura, jeśli draft wymaga większej finezji (np. reklamacja, delikatna sprawa kadrowa). 90% maili załatwia sam Haiku.
O tym dlaczego akurat Claude, a nie inny dostawca, pisałem szerzej w Stack pod agentów AI: Claude, n8n, Azure Document Intelligence.
Architektura: jak to wygląda w praktyce
┌──────────────────────────────────────────────────────────┐
│ SKRZYNKA BIURA (IMAP / Gmail API / MS Graph webhook) │
└────────────────────────┬─────────────────────────────────┘
│ polling co 2 min lub webhook
↓
┌──────────────────────────────────────────────────────────┐
│ n8n — Normalize (HTML→txt, limit 3000 znaków) │
└────────────────────────┬─────────────────────────────────┘
↓
┌──────────────────────────────────────────────────────────┐
│ Claude Haiku 4.5 — klasyfikacja (temp=0.0, JSON) │
│ Output: {category, confidence, priority} │
└────────────────────────┬─────────────────────────────────┘
↓
┌───────────────┼────────────────┬──────────────┐
↓ ↓ ↓ ↓
TERMIN_PŁATNOŚCI KOPIA_DOKUMENTU PISMO_URZĘDU ESKALACJA
→ fetch z FK → fetch z archiwum → Slack pilne → human
→ draft Haiku → auto-send PDF → NIE odpowiada
↓
┌──────────────────────────────────────────────────────────┐
│ Dashboard zatwierdzania (FastAPI + Tailwind) │
│ Zielone = 1 klik, żółte = edycja, czerwone = ręcznie │
└────────────────────────┬─────────────────────────────────┘
↓
┌──────────────────────────────────────────────────────────┐
│ Postmark → wysyłka + oznaczenie "Odpowiedź wspomagana AI"│
│ Google Sheets → audit log (RODO art. 30) │
└──────────────────────────────────────────────────────────┘
Kluczowe założenie: confidence threshold. Jeśli Haiku zwróci confidence < 0.8 — mail idzie do eskalacji, nie do automatu. Fallback zawsze po stronie człowieka, nie modelu.
Druga ważna rzecz: dane liczbowe nigdy nie pochodzą z LLM. Jeśli klient pyta “ile mam zapłacić ZUS?”, agent nie zmyśla kwoty. Pobiera ją z systemu FK i wstrzykuje do promptu. Benchmark Daloopa pokazuje, że Claude Opus 4.1 bez RAG osiąga tylko 30,6% accuracy na zapytaniach finansowych. Z RAG — 94,2%. Wniosek: liczby zawsze z systemu, nigdy z pamięci modelu.
Compliance: DPA, Zero Data Retention, RODO, AI Act
To jest część, o której 90% poradników “jak zbudować agenta AI” milczy. A bez tego w biurze rachunkowym nie ma rozmowy.
RODO — powierzenie przetwarzania
Wysyłanie treści maili klientów do Claude API = powierzenie przetwarzania danych osobowych. Podstawa: art. 28 RODO.
Co trzeba mieć:
- Umowa powierzenia przetwarzania danych (DPA) z Anthropic. Jest dostępna dla klientów API — Anthropic Data Processing Addendum. Anthropic deklaruje, że dane z API nie są używane do trenowania modeli.
- Zero Data Retention (ZDR) — opcja commercial API. Dane kasowane natychmiast po zwróceniu odpowiedzi. Dla biur rachunkowych — konieczne.
- DPIA (Data Protection Impact Assessment) — wymagana, gdy AI przetwarza dane na dużą skalę.
- Wpis do rejestru czynności przetwarzania (RCP) — art. 30 RODO.
- Klauzula informacyjna dla klientów — żeby wiedzieli, że ich maile przechodzą przez agenta AI.
AI Act (pełne stosowanie: sierpień 2026)
Według analizy Kancelarii Mencel, agent klasyfikacji maili mieści się w kategorii ograniczonego ryzyka — nie wpada w Aneks III (wysokie ryzyko), bo nie decyduje o prawach pracowniczych, kredytach ani świadczeniach socjalnych.
Główny obowiązek dla ograniczonego ryzyka: transparentność. Klient musi wiedzieć, że odpowiedź została wygenerowana lub wspomagana przez AI. W praktyce: jedna linijka w stopce maila albo osobny komunikat na stronie o obsłudze maili.
Kary za niezgodność z AI Act: do 35 mln EUR lub 7% globalnego obrotu. Nie warto improwizować.
Tajemnica zawodowa — specyfika polska
Ważny niuans: biura rachunkowe nie są objęte ustawową tajemnicą zawodową — dotyczy ona doradców podatkowych. Obowiązek poufności wynika z umowy z klientem, Kodeksu etyki SKwP, RODO oraz (dla biur AML-zobowiązanych) ustawy o przeciwdziałaniu praniu pieniędzy.
Praktyczna zasada: nie wysyłaj NIP/PESEL/kwot do API bez podpisanej DPA i włączonego ZDR. Jeśli chcesz być jeszcze bezpieczniejszy — anonimizuj wrażliwe pola przed wysłaniem do modelu (zamień PESEL na [PESEL_CLIENT_42], a potem podmień z powrotem na wyjściu).
Compliance checklist
✓ Podpisana DPA z Anthropic (commercial API)
✓ Włączone Zero Data Retention (ZDR)
✓ Sporządzona DPIA
✓ Zaktualizowana klauzula informacyjna RODO
✓ Wewnętrzna polityka użycia AI (kto, co, w jakich sprawach)
✓ Wpis do rejestru czynności przetwarzania (RCP)
✓ Human review każdej odpowiedzi wychodzącej do klienta
✓ Audit log: kto, kiedy, który mail, jaki draft, czy edytowany
✓ Oznaczenie "Odpowiedź wspomagana AI" w stopce
✓ Procedura wyłączenia agenta przy incydencie
Bez tych punktów — nie wdrażamy. Serio.
Ile to kosztuje
Konkretny kalkulator dla biura przetwarzającego 10 000 maili miesięcznie (duże biuro lub średnie z intensywną komunikacją):
Koszt Claude Haiku 4.5 API
Założenia na 1 email:
- 500 tokenów input (treść maila + krótki kontekst)
- 150 tokenów output (decyzja JSON + krótki draft)
- 300 tokenów z cache (system prompt, szablony)
Input: 500 tok × $1/1M = $0,00050
Output: 150 tok × $5/1M = $0,00075
Cache read: 300 tok × $0,10/1M = $0,00003
───────────────────────────────────────────────
ŁĄCZNIE: ~$0,00128 / email
10 000 emaili × $0,00128 = ~$13/miesiąc za API.
Pełny stack miesięcznie
| Pozycja | Koszt |
|---|---|
| Claude Haiku 4.5 API (10k maili) | ~$13 (≈52 zł) |
| Postmark SMTP (10k maili) | $15 (≈60 zł) |
| n8n self-hosted (Hetzner CX21) | $6 (≈25 zł) |
| Domena + SSL (Cloudflare) | 0 zł |
| Backup (Backblaze B2) | $1 (≈5 zł) |
| Razem | ~$35 (≈115–140 zł/mies.) |
Plus jednorazowy koszt wdrożenia: 40–80h mojego czasu = 6 000–12 000 zł zależnie od liczby integracji (ile systemów FK trzeba podpiąć, czy robimy dashboard z zatwierdzaniem itd.).
Self-hosting LLM — czy się opłaca?
Często pada pytanie: “a może postawić własnego Llamę 3.3 70B i uniknąć API?”
| Opcja | Koszt/mies. | Break-even |
|---|---|---|
| Claude Haiku 4.5 API | ~$13 | baseline |
| Groq API (Llama 3.3 70B) | ~$7 | niższy |
| Self-host (cloud GPU A100) | $1 500–3 000 | ~10M maili/mies. |
| Self-host (własny serwer) | $300–500 + OPEX | ~500k maili/mies. |
Dla polskiego biura z 10 000 maili/mies. — self-hosting jest ekonomicznie nieuzasadniony. Jedyny argument “za” to prywatność danych, ale z podpisaną DPA + ZDR ten argument traci na sile.
ROI: co zyskuje biuro
Modelowy case: biuro rachunkowe z 50 klientami, 2 osoby obsługujące komunikację.
Dane wejściowe:
- Emaili/dzień: ~40
- Czas na 1 email: 4 minuty (czytanie + odpowiedź + kopiowanie danych)
- Czas emailowy na osobę: 2,7h dziennie
- Stawka księgowej (koszt pracodawcy): 40 zł/h
- Emaili zautomatyzowanych (zielonych, 1 klik): 55%
- Czas zaoszczędzony: ~90 min dziennie
Roczny rachunek:
Zaoszczędzony czas: 330h × 40 zł = 13 200 zł/rok
Wdrożenie: 40–80h × 150 zł = 6 000–12 000 zł
Koszty API + SMTP: 140 zł × 12 mc = 1 680 zł/rok
───────────────────────────────────────────────────────
Oszczędność netto rok 1: -480 do +5 520 zł
Oszczędność netto rok 2+: ~11 500 zł/rok
Payback: 6–18 miesięcy zależnie od wielkości biura i stopnia powtarzalności maili.
To nie są liczby z prezentacji marketingowej — to wynik pilotażu w firmie usługowej, który opisałem w Case study: 4h dziennie do 20 minut. Tam było jeszcze lepiej, bo wolumen większy, ale architektura ta sama.
Więcej o typach zadań, które nadają się do automatyzacji, pisałem w 3 zadania, które Twoi pracownicy robią ręcznie — a nie muszą.
Kiedy NIE wdrażać
To jest część, której nikt nie chce pisać, ale bez niej artykuł jest nieuczciwy.
Nie wdrażaj agenta mailowego, jeśli:
- Nie masz podpisanej DPA i nie włączysz ZDR. Wysyłanie danych klientów do API “na próbę, zobaczymy” = naruszenie RODO. Kropka.
- Chcesz wyłączyć human review. Każdy mail idący do klienta z odpowiedzią agenta musi być zaakceptowany przez człowieka — przynajmniej w pierwszych 3 miesiącach, a najlepiej zawsze. Pełen autopilot przy danych księgowych to proszenie się o katastrofę.
- Liczysz, że agent będzie interpretował przepisy. Claude nie jest doradcą podatkowym. Nie odpowie na pytanie “czy mogę wrzucić ten koszt” w sposób, który ma wartość prawną. Może zasugerować szablon odpowiedzi typu “skonsultujmy to na spotkaniu” — i to jest jego maksimum.
- Masz poniżej 30 maili dziennie. Payback nie zwróci się szybko. Lepszy wybór: szablony w Gmailu + Text Expander. Proste, darmowe, wystarcza.
- Twoi klienci to głównie negocjacje 1-na-1 z unikalnymi warunkami. Jeśli 70% maili to nietypowe pytania — agent nie pomoże. Pomaga tam, gdzie jest powtarzalność.
- Zespół nie jest gotowy na 2-tygodniowy okres “więcej pracy, nie mniej”. Pierwsza iteracja zawsze wymaga tuningu promptów, dodawania kontekstu, poprawy kategorii. Przez te 2 tygodnie człowiek dużo edytuje. Dopiero potem przychodzi oszczędność.
Jak zacząć — propozycja kroków
Jeśli powyższe wymagania są spełnione, sensowna kolejność to:
- Tydzień 1: audyt skrzynki. Anonimizujemy próbkę 500 maili z ostatnich 2 tygodni, klasyfikujemy ręcznie, sprawdzamy rozkład kategorii. Czasem wychodzi, że automatyzacja dotknie nie 69%, tylko 30% — i to zmienia biznes case.
- Tydzień 2: DPA + ZDR + DPIA. Papier się nie zrobi sam. Bez tego nie ruszamy dalej.
- Tydzień 3–4: MVP. 2–3 kategorie (zwykle
TERMIN_PŁATNOŚCI,KOPIA_DOKUMENTU, reszta = eskalacja). Wdrożenie na 1 klienta pilotażowego. - Tydzień 5–8: iteracja. Analiza edycji draftów, poprawa promptów, dodawanie kategorii. Jakość draftów rośnie w tym okresie o 30–40%.
- Tydzień 9+: skalowanie. Dodajemy pozostałych klientów, dashboard dla całego zespołu, integracja z systemem FK.
Najczęściej zadawane pytania
Czy agent będzie widział hasła do bankowości albo dane z US?
Nie, jeśli tak skonfigurujemy pipeline. Agent czyta tylko treść maili (bez załączników z hasłami) + dane, które mu sami wstrzykniemy z systemu FK. Załączniki PDF przechodzą przez Azure Document Intelligence (Azure West Europe, EU data residency), nie przez Claude.
Co jeśli klient nie zgadza się na AI w komunikacji?
Opt-out na poziomie klienta. W dashboardzie oznaczasz “ten klient — tylko ręcznie”, agent pomija jego maile i przerzuca je od razu do eskalacji. Praktyka pokazuje, że po wyjaśnieniu “to szybsza odpowiedź, z pełnym nadzorem człowieka” ~95% klientów nie ma problemu.
Czy to zadziała z Gmailem Workspace, czy muszę zmienić pocztę?
Zadziała z Gmailem, Microsoft 365, a także zwykłym IMAP (home.pl, OVH, własny Postfix). Każdy z tych wariantów podpinamy natywnie w n8n — najmniej błędów robi Microsoft Graph webhook i Gmail API. Klasyczny IMAP też działa, ale wymaga pollingu co 2–5 minut.
Ile trwa wdrożenie u realnego biura?
Od audytu do produkcji: 6–10 tygodni. Z czego 2 tygodnie to papier (DPA, DPIA, klauzule), 4–6 tygodni to implementacja i pilotaż, reszta to tuning.
Czy muszę kupować Claude API sam, czy to idzie przez Ciebie?
Zależnie od modelu współpracy: albo biuro podpisuje DPA z Anthropic i płaci API bezpośrednio (większa kontrola), albo idzie jako subprocessor przez moją infrastrukturę MJO Systems (mniejszy narzut administracyjny). Obie opcje działają — polecam pierwszą dla biur z >5 pracownikami.
Podsumowanie
Agent emailowy dla biura rachunkowego to jedna z najlepiej policzalnych inwestycji w AI dostępnych dzisiaj na polskim rynku:
- 69% maili to kategorie nadające się do automatyzacji
- ~115–140 zł/miesiąc kosztów operacyjnych dla 10k maili
- 13 200 zł/rok zaoszczędzonego czasu dla 2-osobowego zespołu
- Payback w 6–18 miesięcy
- Compliance ogarnialne przy zachowaniu DPA, ZDR, human review
Ale to działa tylko wtedy, kiedy nie skracamy ścieżek. Bez DPA i ZDR — nie ma rozmowy. Bez human review — nie ma rozmowy. Z agentem interpretującym przepisy podatkowe — nie ma rozmowy.
Jeśli Twoje biuro spełnia te założenia i wolumen maili jest na tyle duży, że liczby zaczynają mieć sens, napisz na contact@mjoldak.com. Zrobię audyt zanonimizowanej próbki Twojej skrzynki, pokażę rozkład kategorii i powiem uczciwie — warto czy nie.
Najlepsza automatyzacja to ta, której payback można policzyć w miesiącach, a compliance zmieścić na jednej kartce. Agent mailowy dla biura rachunkowego spełnia oba testy.
Czytaj dalej: Stack pod agentów AI — Claude, n8n, Azure Document Intelligence
Dostawaj esencję.
Najlepsze artykuły z miesiąca + 1 case study z biur rachunkowych. Bez spamu, bez sprzedaży.
Twój email idzie tylko do mnie. Wypisanie 1 klikiem.
Powiązane artykuły.
Premiera: 4 gotowe demo agentów AI dla biura rachunkowego — testuj za darmo
Cztery gotowe agenty AI dla biur rachunkowych — OCR faktur, klasyfikacja maili, kalendarz podatkowy, raporty PDF. Pokazuję co działa, ile kosztuje i dlaczego nie musisz zwalniać księgowej.
Jak agent AI przetwarza polską fakturę w 8 sekund — live demo pipeline
Azure Document Intelligence + Claude Sonnet + walidacja NIP. Rozkładam pipeline step-by-step: co dzieje się w każdej sekundzie, ile to kosztuje i gdzie Azure się myli na polskich fakturach.
Stack pod agentów AI: Claude, n8n, Azure Document Intelligence
Konkretne narzędzia którymi buduję agentów AI dla polskich firm. Dlaczego ten stack, jakie są alternatywy i ile to kosztuje miesięcznie.