Lass mich dir ein Dutzend Discovery Calls ersparen. Wenn du versuchen willst herauszufinden, was es wirklich kostet, AI in dein Produkt zu integrieren – ob das eine SaaS App, ein E-Commerce-Shop oder ein internes Tool ist – wirst du von den meisten Agenturen die Antwort "das kommt drauf an" bekommen. Was technisch korrekt ist und absolut nutzlos.

Ich habe die letzten 18 Monate damit verbracht, AI Integrationen über Next.js Stacks, Headless E-Commerce Plattformen und SaaS Produkte zu bauen. Ich habe RAG Pipelines verdrahtet, Vector Stores aufgebaut, Evaluation Harnesses erstellt und mich mit der unglamourösen Realität von Prompt-Versionierung um 2 Uhr morgens herumgeschlagen. Dieser Artikel ist die ehrliche Aufschlüsselung, die ich mir hätte wünschen, bevor ich anfing, diese Projekte zu kalkulieren.

Inhaltsverzeichnis

AI Integration Services: Echte Kosten, Delivery Models & Beispiele

Was AI Integration Services wirklich beinhalten

Wenn jemand "AI Integration" sagt, könnte das alles bedeuten – von einem ChatGPT Widget auf einer Landing Page bis zum Aufbau einer Multi-Model-Orchestration Layer mit Retrieval-Augmented Generation. Die Scope-Varianz ist enorm, und das ist der Hauptgrund, warum Preisspannen so breit sind.

Hier ist, was ein typisches Engagement wirklich beinhaltet:

Discovery und Architektur

Bevor irgendjemand eine Zeile Code schreibt, musst du herausfinden, was die AI tun soll und wie sie sich in dein bestehendes System integriert. Das ist keine Formalität – das ist, wo teure Fehler abgefangen werden. Wir sprechen über:

  • Use-Case-Definition: Welche konkreten Nutzerprobleme löst du mit AI? "Mach es intelligenter" ist kein Use Case.
  • Daten-Audit: Welche Daten hast du, wo befinden sie sich, und wie sauber sind sie?
  • Model Auswahl: Welcher Provider und welche Model Tier macht für deine Latenz-, Genauigkeits- und Kostenanforderungen Sinn?
  • Architektur-Design: Wie verbindet sich die AI Layer mit deinem bestehenden Stack? API Routes, Edge Functions, Background Worker?
  • Compliance Review: Handhabst du PII? Health Data? Financial Data? Das ändert alles.

Core Implementation

Die eigentliche Buildphase deckt typischerweise ab:

  • API Integration mit einem oder mehreren Model Providern
  • Prompt Engineering und Management Systeme
  • Context Window Management und Token Optimierung
  • Streaming Response Handling (besonders kritisch in Next.js Apps)
  • Error Handling, Fallbacks und Rate Limiting
  • Caching Layer zur API-Kostensenkung

Data Pipeline Arbeit

Wenn du RAG brauchst (und die meisten ernsthaften Integrationen tun das), addiere:

  • Document Ingestion und Chunking Pipelines
  • Embedding Generierung und Speicherung
  • Vector Store Setup und Optimierung
  • Retrieval Logic und Re-Ranking
  • Source Citation und Attribution

Testing und Evaluation

Das ist der Teil, den die meisten Teams überspringen und dann bereuen:

  • Evaluation Harness Entwicklung
  • Prompt Regression Testing
  • Accuracy Benchmarking
  • Latenz- und Kosten-Monitoring
  • A/B Testing Infrastruktur für Prompt-Varianten

Echte Kosten: Zahlen aufschlüsseln

Lass uns über echte Zahlen sprechen. Diese basieren auf Projekten, die wir geliefert haben, und auf dem, was ich über die Industrie im Jahr 2026 sehe.

Integration Tier Scope Timeline Agency Kosten-Range Monatliche Infrastruktur
Basic Single Model API, einfacher Prompt, kein RAG 2-4 Wochen $8.000 - $20.000 $50 - $500
Standard Multi-Prompt System, Basic RAG, ein Model 6-10 Wochen $25.000 - $65.000 $200 - $2.000
Advanced Multi-Model Orchestration, komplette RAG Pipeline, Eval Harness 12-20 Wochen $75.000 - $180.000 $1.000 - $10.000
Enterprise Custom Fine-Tuning, Multi-Tenant RAG, Compliance, Scale 16-30 Wochen $150.000 - $400.000+ $5.000 - $50.000+

Ein paar Dinge zu diesen Zahlen:

Agency Raten variieren wild. Eine Boutique Agency wie unsere (schau dir unsere Preisseite für aktuelle Raten an) wird anders kalkulieren als eine Big 4 Consultancy. Ich habe Deloitte und Accenture Quotes von über $500K für Arbeit sehen, die ein fokussiertes Team für $120K liefern kann.

Infrastrukturkosten sind der versteckte Killer. Die einmaligen Build-Kosten sind nur der Anfang. OpenAI API Calls in großem Maßstab werden schnell teuer. Ein SaaS Produkt, der 100K Anfragen/Monat mit GPT-4o verarbeitet, schaut auf $3.000-$8.000/Monat in nur API-Kosten, abhängig von Prompt-Länge und Response-Größe.

Die billigste Integration ist nicht die billigste. Ich habe Teams sehen, die $8K für einen grundlegenden ChatGPT Wrapper ausgegeben haben, dann 6 Monate später $60K für einen kompletten Rebuild, weil sie Context Management, Error Handling oder Evaluation nicht bedacht hatten.

Wo das Geld wirklich hingeht

Bei einem typischen $60K Integration Projekt siehst der grobe Breakdown so aus:

  • Architektur und Discovery: 15% ($9.000)
  • Core AI Integration: 25% ($15.000)
  • RAG Pipeline: 25% ($15.000)
  • Frontend/UX Arbeit: 15% ($9.000)
  • Evaluation und Testing: 10% ($6.000)
  • Dokumentation und Handoff: 10% ($6.000)

Das Evaluation-Segment ist ehrlich zu klein. Bei unseren neueren Projekten haben wir es auf 15-20% erhöht.

Model Provider Vergleich: ChatGPT vs Claude vs Gemini

Ab 2026 sieht es für die drei großen Provider in Integration-Projekten so aus:

Faktor OpenAI (GPT-4o / GPT-4.1) Anthropic (Claude 4 Sonnet) Google (Gemini 2.5 Pro)
Best für General-Purpose, Function Calling, Vision Lange Dokumente, Analyse, Safety-Critical Multimodal, großer Context, Google Ecosystem
Context Window 128K Tokens 200K Tokens 1M Tokens
Input Kosten (pro 1M Tokens) $2,50 (GPT-4o) $3,00 (Sonnet) $1,25 (2.5 Pro)
Output Kosten (pro 1M Tokens) $10,00 (GPT-4o) $15,00 (Sonnet) $10,00 (2.5 Pro)
Streaming Support Excellent Excellent Gut
Function Calling Best-in-Class Stark Stark
SDK Maturity Sehr reif Reif Schnell verbessernd
Rate Limits Großzügig bei höheren Tiers Moderat Großzügig
Fine-Tuning Verfügbar (GPT-4o) Noch nicht verfügbar Verfügbar

Preise ab Juni 2025. Diese ändern sich häufig.

Hier ist meine ehrliche Meinung: Für die meisten Integrationen ist das Model weniger wichtig als das System darum herum. Ich habe gut-engineerte Claude 3.5 Haiku Integrationen gesehen, die lazy GPT-4 Implementierungen outperformen. Prompt Design, Context Management und Retrieval-Qualität machen einen größeren Unterschied als das Model selbst, sobald du in der Top Tier bist.

Trotzdem praktische Orientierung:

  • SaaS Apps mit strukturierten Daten: OpenAIs Function Calling ist schwer zu schlagen. Das Tooling-Ecosystem ist das reifeste.
  • Document-Heavy Workflows: Claudes großes Context Window und die Fähigkeit, nuancierte Analysen zu handhaben, macht es zu unserem Go-To für Legal Tech, Research Plattformen und Content-Heavy Anwendungen.
  • Kostenoptimiert, High-Volume: Gemini 2.5 Flash ist absurd billig für seine Qualität. Wir verwenden es für Classification Tasks, wo wir mit GPT-4o das Budget aufbrennen würden.

Für unsere Next.js Development Projekte defaulten wir typischerweise zu OpenAI wegen der Vercel AI SDK Integration Qualität, aber wir architektieren für Model Swappability von Tag 1.

AI Integration Services: Echte Kosten, Delivery Models & Beispiele - Architektur

Architekturmuster, die wirklich funktionieren

Hier ist eine vereinfachte Architektur für eine Next.js App mit AI Integration, die wir mehrfach shipped haben:

// app/api/chat/route.ts
import { openai } from '@ai-sdk/openai';
import { streamText } from 'ai';
import { retrieveContext } from '@/lib/rag';
import { trackUsage } from '@/lib/telemetry';

export async function POST(req: Request) {
  const { messages, conversationId } = await req.json();
  const lastMessage = messages[messages.length - 1].content;

  // RAG: retrieve relevant context
  const context = await retrieveContext(lastMessage, {
    topK: 5,
    threshold: 0.78,
    namespace: 'product-docs',
  });

  const result = streamText({
    model: openai('gpt-4o'),
    system: `You are a helpful assistant. Use the following context to answer questions.

Context:
${context.map(c => c.content).join('\n\n')}

Cite sources using [Source: title] format.`,
    messages,
    onFinish: async ({ usage }) => {
      await trackUsage({
        conversationId,
        promptTokens: usage.promptTokens,
        completionTokens: usage.completionTokens,
        model: 'gpt-4o',
      });
    },
  });

  return result.toDataStreamResponse();
}

Das ist das Vercel AI SDK Muster. Es handhabt Streaming, Backpressure und Client-Side State Management out of the box. Für Astro-basierte Projekte verwenden wir einen etwas anderen Ansatz mit Server-Sent Events, aber die Backend-Logik ist identisch.

Das Multi-Model Router Muster

Für Kostenoptimierung implementieren wir oft einen Router, der einfache Queries zu billigeren Models schickt und komplexe zu Premium Models:

import { openai } from '@ai-sdk/openai';
import { anthropic } from '@ai-sdk/anthropic';
import { google } from '@ai-sdk/google';

function selectModel(query: string, complexity: 'low' | 'medium' | 'high') {
  switch (complexity) {
    case 'low':
      return google('gemini-2.5-flash');  // Billigste, schnell
    case 'medium':
      return openai('gpt-4o-mini');        // Gutes Gleichgewicht
    case 'high':
      return anthropic('claude-sonnet-4-20250514'); // Beste Qualität
  }
}

Complexity Klassifizierung kann selbst mit einem kleinen Model oder sogar einem Rule-Based System gemacht werden. Über-engineere diesen Teil nicht.

RAG Pipelines: Der teure Teil, über den niemand spricht

Retrieval-Augmented Generation ist, wo die meisten AI Integrationen teuer und komplex werden. Nicht, weil das Konzept schwer ist – es ist eigentlich straightforward – sondern weil Datenqualität immer schlechter ist als du denkst.

Eine RAG Pipeline hat vier Stages, und jede hat Fallstricke:

1. Ingestion

Du musst deine Daten in ein Format bekommen, das in Chunks aufgeteilt und embedded werden kann. Wenn du mit PDFs, HTML, Markdown, Datenbank-Records oder (gott behüte) gescannten Dokumenten umgehst, kann diese Stage allein Wochen dauern.

Wir verwenden eine Kombination von Tools:

  • Unstructured.io für Document Parsing
  • LangChain Document Loaders für strukturierte Quellen
  • Benutzerdefinierte Parser für proprietäre Formate

2. Chunking

Wie du Dokumente aufteilest ist wichtiger als welches Embedding Model du verwendest. Zu klein und du verlierst Context. Zu groß und du verdünnst Relevanz.

Unsere aktuellen Defaults:

  • Chunk Size: 512-1024 Tokens für allgemeinen Content
  • Overlap: 10-15% (50-150 Tokens)
  • Strategie: Semantic Chunking wenn möglich, Recursive Character Splitting als Fallback

3. Embedding

OpenAIs text-embedding-3-small ist unser Default. Es ist billig ($0,02 pro 1M Tokens), schnell und gut genug für 90% der Use Cases. Für höhere Genauigkeitsanforderungen lohnt sich text-embedding-3-large bei $0,13 pro 1M Tokens.

Coheres embed-v4 ist eine starke Alternative, besonders für multilingualen Content.

4. Retrieval und Re-Ranking

Naive Vector Similarity Search bringt dich 70% des Weges. Die letzten 30% kommen von:

  • Hybrid Search: Vector Similarity mit Keyword (BM25) Search kombinieren
  • Re-Ranking: Cross-Encoder verwenden, um Ergebnisse neu zu bewerten (Cohere Rerank oder lokales Model)
  • Metadata Filtering: Pre-Filtering nach Datum, Kategorie, User-Berechtigungen vor Similarity Search

Vector Store Auswahl und Kosten

Hier sieht die Vector Store Landschaft 2026 aus:

Store Typ Free Tier Paid Ab Best für
Pinecone Managed 1 Index, 100K Vectors $70/Monat (Starter) Production SaaS, Einfachheit
Weaviate Cloud Managed 1 Sandbox Cluster $25/Monat Hybrid Search, Multi-Tenancy
Qdrant Cloud Managed 1GB kostenlos $9/Monat Kostenoptimiert, Self-Host Option
Supabase pgvector Postgres Extension Im kostenlosen Plan enthalten $25/Monat (Pro) Bereits auf Supabase, < 1M Vectors
Neon pgvector Postgres Extension Im kostenlosen Plan enthalten $19/Monat Serverless Postgres Shops
Chroma Self-Hosted Kostenlos (OSS) Nur Infrastruktur-Kosten Prototyping, kleine Datasets
Turbopuffer Managed Pay-Per-Use ~$0,08/GB/Monat Storage Large-Scale, Kostenoptimiert

Für die meisten unserer Headless CMS Development Projekte, die AI Search brauchen, starten wir mit pgvector auf Supabase oder Neon. Es ist ein Service weniger zu verwalten, und für Datasets unter einer Million Vectors ist die Performance ausgezeichnet.

Wenn wir ernsthafte Scale brauchst – Multi-Tenant SaaS mit Millionen von Dokumenten – sind Pinecone oder Weaviate die pragmatischen Wahlmöglichkeiten.

Evaluation Harnesses: Wie du weißt, dass es funktioniert

Das ist die Section, die die meisten Agenturen komplett überspringen. Und es ist der Grund, warum so viele AI Integrationen shipped werden, einen Monat "funktionieren" und dann langsam degradieren.

Eine Evaluation Harness ist ein System, das kontinuierlich misst, ob deine AI Integration gute Ergebnisse produziert. Hier ist, wie unsere aussieht:

Was wir messen

  • Retrieval Qualität: Werden die richtigen Chunks retrieved? (Precision@K, Recall@K, NDCG)
  • Answer Accuracy: Ist die generierte Response faktisch korrekt gegeben den Context? (LLM-as-Judge, Human Review)
  • Faithfulness: Halluziniert das Model oder zitiert es Information nicht aus dem Context?
  • Relevance: Beantwortet die Response eigentlich die Frage des Users?
  • Latenz: Time to First Token, Total Response Time
  • Kosten pro Query: Totale API Ausgaben pro Interaktion

Tools, die wir verwenden

  • Braintrust: Unser aktueller Favorit für LLM Evaluation. Großes Scoring System, gute CI/CD Integration.
  • Langfuse: Open-Source Tracing und Evaluation. Wir Self-Hosten das für Clients mit Data Residency Anforderungen.
  • Benutzerdefinierte Scripts: Manchmal brauchst du nur ein Python Script, das 200 Test Cases läuft und eine CSV ausspuckt. Over-Engineere das nicht.
# Vereinfachtes Evaluation Beispiel
import braintrust
from autoevals import Factuality, ClosedQA

@braintrust.traced
def evaluate_response(question, context, response, expected):
    factuality = Factuality()(output=response, expected=expected, input=question)
    relevance = ClosedQA()(output=response, input=question)
    
    return {
        "factuality": factuality.score,
        "relevance": relevance.score,
    }

Die Evaluation Loop

Hier ist der Workflow, der tatsächlich Regression verhindert:

  1. Unterhalte einen Golden Dataset von 100-500 Question/Answer Paaren
  2. Führe Evaluationen auf jedem Prompt Change aus
  3. Blockiere Deployments, wenn Scores unter Schwellwerte fallen
  4. Überprüfe Edge Cases wöchentlich mit Domain Experten
  5. Erweitere den Golden Dataset, wenn neue Failure Modes erscheinen

Das ist nicht optional. Wenn du $50K+ auf eine AI Integration ausgibst und sie nicht systematisch evaluierst, fliegst du blind.

Echte Beispiele aus Production

Beispiel 1: E-commerce Product Discovery (Shopify + Next.js)

Client: D2C Skincare Brand mit 800+ SKUs Challenge: Kunden konnten über traditionelle Search und Filtering nicht die richtigen Produkte finden

Was wir gebaut haben:

  • Conversational Product Advisor mit Claude 3.5 Sonnet
  • RAG Pipeline über Product Descriptions, Ingredient Lists und Customer Reviews
  • Vector Store auf Pinecone mit Metadata Filtering nach Skin Type, Concern und Price Range
  • Streaming Chat Interface in Next.js 14 mit dem Vercel AI SDK
  • Integration mit Shopify Storefront API für Real-Time Inventory und Pricing

Ergebnisse: 23% Anstieg im durchschnittlichen Bestellwert für Users, die mit dem Advisor interagiert haben. 40% Reduktion in "falsches Produkt" Returns.

Kosten: $72.000 Build, ~$1.800/Monat Infrastruktur (einschließlich API Kosten bei ~50K Conversations/Monat)

Beispiel 2: SaaS Knowledge Base Assistant

Client: B2B SaaS Platform mit 2.000+ Help Docs Challenge: Support Tickets überwältigten das Team, die meisten Antworten waren in den Docs

Was wir gebaut haben:

  • In-App AI Assistant mit GPT-4o-mini für Geschwindigkeit
  • RAG Pipeline über Help Docs, Changelog und Community Forum Posts
  • Automatisches Re-Indexing, wenn Docs aktualisiert wurden (Webhook von ihrem Headless CMS)
  • Escalation Flow: AI Answer → Suggested Articles → Human Handoff
  • Evaluation Harness läuft nightly gegen 300 Test Fragen

Ergebnisse: 45% Reduktion in Tier 1 Support Tickets. Durchschnittliche Resolution Time fiel von 4 Stunden auf 12 Sekunden für AI-verarbeitete Queries.

Kosten: $48.000 Build, ~$600/Monat Infrastruktur

Client: Legal Tech Startup Challenge: Anwälte verbringen Stunden damit, Verträge auf spezifische Klauseln und Risiken zu überprüfen

Was wir gebaut haben:

  • Multi-Model Pipeline: Gemini 2.5 Pro für Initial Document Parsing (1M Token Context Window handhaut die meisten Contracts in vollständig), Claude für nuancierte Analyse
  • Custom Evaluation Harness mit Domain Expert Scoring
  • Strukturierte Output für Risk Kategorisierung
  • Next.js Dashboard mit Side-by-Side Document View und AI Annotations

Ergebnisse: 70% Reduktion in Initial Review Time. Anwälte verwendeten die AI Output als Startpunkt und verfeinerten von da.

Kosten: $135.000 Build, ~$4.500/Monat Infrastruktur

Wie Agenturen AI Integration Projekte liefern

Nicht alle Agenturen sind gut aufgestellt, um AI Arbeit zu liefern. Hier ist, worauf du schauen solltest und was du vermeiden solltest.

Gute Zeichen

  • Sie fragen zuerst nach deinen Daten, nicht welches Model du verwenden willst
  • Sie haben eine klare Evaluation Strategie, bevor sie anfangen zu bauen
  • Sie architektur für Model Swappability (du solltest nicht an einen Provider gebunden sein)
  • Sie können dir Production AI Arbeit zeigen, nicht nur Demos
  • Sie verstehen deinen Stack – AI Integration findet nicht im Vakuum statt

Red Flags

  • "Wir stöpseln einfach die ChatGPT API ein" – das sagt dir, dass sie das nicht zuvor gemacht haben
  • Keine Erwähnung von Evaluation oder Testing
  • Fixed-Price Quotes ohne Discovery Phase
  • Sie wollen ein Model Fine-Tune, bevor sie Prompt Engineering versuchen (Fine-Tuning ist fast nie der richtige erste Schritt)
  • Sie können die Tradeoffs zwischen verschiedenen Vector Stores oder Embedding Models nicht erklären

Unser Delivery Model

Bei Social Animal strukturieren wir AI Integration Projekte typischerweise in Phasen:

  1. Discovery Sprint (1-2 Wochen): Architektur Design, Data Audit, Model Selection, Success Metrics
  2. Core Build (4-8 Wochen): API Integration, RAG Pipeline, Frontend Implementation
  3. Evaluation & Refinement (2-4 Wochen): Harness Development, Prompt Optimization, Load Testing
  4. Handoff & Monitoring (1-2 Wochen): Documentation, Team Training, Monitoring Setup

Wenn du Agenturen für AI Arbeit evaluierst, kontaktier uns – wir sind glücklich, einen technischen Review von jedem Proposal zu machen, den du erhalten hast, auch wenn du am Ende nicht mit uns zusammenarbeitest.

FAQ

Wie viel kostet es, ChatGPT in eine SaaS Anwendung zu integrieren?

Eine Basic ChatGPT Integration mit einem einfachen Prompt und ohne RAG kostet $8.000-$20.000. Eine Production-Grade Integration mit Retrieval-Augmented Generation, Evaluation und ordentlichem Error Handling kostet $40.000-$80.000. Die laufenden API Kosten hängen vollständig vom Usage Volume ab – budgetiere $200-$5.000/Monat für die meisten SaaS Anwendungen.

Sollte ich ChatGPT, Claude oder Gemini für meine AI Integration verwenden?

Es kommt auf deinen Use Case an. OpenAI hat das reifste Ecosystem und bestes Function Calling. Claude excellt bei langer Document Analysis und nuanciertem Reasoning. Gemini bietet das größte Context Window und wettbewerbsfähigste Pricing für High-Volume Use Cases. Die meisten Production Systeme profitieren davon, mehrere Models zu unterstützen und basierend auf Task Complexity zu routen.

Was ist eine RAG Pipeline und brauch ich eine?

RAG (Retrieval-Augmented Generation) ist ein System, das dem AI Model Zugang zu deinen spezifischen Daten gibt, indem relevante Information retrieved werden, bevor eine Response generiert wird. Du brauchst eine, wenn die AI Fragen über deinen Content, deine Produkte, Dokumentation oder irgendwelche Domain-spezifischen Daten beantworten muss. Ohne RAG kennt das Model nur das, was es während Training gelernt hat.

Wie lange dauert es, eine AI Integration zu bauen?

Einfache Integrationen dauern 2-4 Wochen. Standard Integrationen mit RAG dauern 6-12 Wochen. Komplexe Multi-Model Systeme mit Evaluation Harnesses dauern 12-20 Wochen. Die Timeline wird stark von Datenqualität beeinflusst – wenn deine Daten dirty sind, rechne 2-4 Wochen mehr für Cleanup und Pipeline Arbeit ein.

Was sind die laufenden Kosten zum Betreiben einer AI Integration?

Laufende Kosten beinhalten API Usage Fees (die größte Variable), Vector Store Hosting ($25-$500/Monat für die meisten Apps), Embedding Generierungs-Kosten, Monitoring Tools und gelegentliche Prompt Maintenance. Eine Mid-Size SaaS App gibt typischerweise $500-$3.000/Monat für total AI Infrastruktur aus.

Kann ich AI Models nach dem Buildgen der Integration wechseln?

Ja, wenn die Integration ordentlich architekturiert wurde. Deshalb bauen wir immer eine Abstraktion Layer zwischen deiner Application Logic und dem Model Provider. Model Swapping sollte eine Config-Change sein, nicht ein Rewrite. Wenn deine aktuelle Integration tightly coupled an einen Provider ist, ist das ein Zeichen schlechter Architektur.

Wie messe ich, ob meine AI Integration wirklich funktioniert?

Du brauchst eine Evaluation Harness – ein System, das Test Cases gegen deine AI läuft und die Ergebnisse bewertet. Schlüssel-Metriken beinhalten Retrieval Precision (werden die richtigen Dokumente gefunden?), Answer Accuracy (ist die Response korrekt?), Faithfulness (halluziniert sie?), und Latenz. Führe diese Evaluationen kontinuierlich durch, nicht nur beim Launch.

Ist Fine-Tuning besser als RAG für meinen Use Case?

Fast sicher nicht, zumindest nicht als dein erster Ansatz. RAG ist billiger, schneller zu implementieren, braucht keine Trainingsdaten und ist einfacher zu aktualisieren, wenn sich deine Daten ändern. Fine-Tuning macht Sinn für sehr spezifische Output Format Anforderungen oder wenn du das Model Verhalten auf Weisen ändern musst, die Prompting nicht erreichen kann. Start mit RAG und bedenke Fine-Tuning erst, nachdem du seine Limits getroffen hast.