Agentic AI Evaluation: Production-Ready Systems with LangGraph and LangSmith

Course Overview

This course teaches engineers and data scientists how to build production-ready evaluation pipelines for agentic AI systems — moving beyond “it works in the demo” to measurable, monitored, continuously improving systems.

What You’ll Learn

Track A — Core Curriculum (Modules 1–5)

Module	Title	Focus
M1	Why Evaluation Matters	The evaluation problem, the Evaluation Pyramid, course roadmap
M2	Metrics Demystified	Retrieval + generation metrics explained; LangSmith intro
M3	Building Retrieval Evaluators	Hit Rate@K, MRR, NDCG, RAGAS — hands-on
M4	Generation Quality & LLM-as-Judge	RAGAS generation metrics, automated quality scoring, bias mitigation
M5	CI/CD Quality Gates	GitHub Actions pipelines, quality thresholds, production monitoring

Track B — Advanced Modules (Modules 6–10)

Module	Title	Focus
M6	Embedding Drift & Re-indexing	Drift detection, citation tracking, re-indexing strategy
M7	Latency & Cost Optimization	Profiling, cost-per-query, tradeoff visualization
M8	Multi-Agent Evaluation	Trajectory evaluation, tool call correctness, consistency testing
M9	Healthcare RAG Case Study	Clinical safety rubric, hallucination caught in production
M10	Capstone Project	Build your own eval framework — 9-deliverable checklist

Tech Stack

LangGraph · LangSmith · RAGAS · LangChain · ChromaDB · Python · GitHub Actions · Anthropic API

Target Audience

ML engineers, AI architects, and data scientists building RAG or agentic AI systems in production.

Status: In development — launching 2026