diff --git a/packages/core/src/evaluation/evaluators/code-evaluator.ts b/packages/core/src/evaluation/evaluators/code-evaluator.ts
index 3237670e..57deef21 100644
--- a/packages/core/src/evaluation/evaluators/code-evaluator.ts
+++ b/packages/core/src/evaluation/evaluators/code-evaluator.ts
@@ -154,6 +154,7 @@ export class CodeEvaluator implements Evaluator {
         reasoning,
         evaluatorRawRequest,
         ...(details ? { details } : {}),
+        tokenUsage: proxyUsage?.tokenUsage,
       };
     } catch (error) {
       const message = error instanceof Error ? error.message : String(error);
@@ -178,6 +179,7 @@ export class CodeEvaluator implements Evaluator {
             : {}),
           error: message,
         },
+        tokenUsage: proxyUsage?.tokenUsage,
       };
     } finally {
       // Always shut down the proxy when done
diff --git a/packages/core/src/evaluation/evaluators/composite.ts b/packages/core/src/evaluation/evaluators/composite.ts
index cf4d2e33..94262576 100644
--- a/packages/core/src/evaluation/evaluators/composite.ts
+++ b/packages/core/src/evaluation/evaluators/composite.ts
@@ -119,6 +119,7 @@ export class CompositeEvaluator implements Evaluator {
         evaluatorRawRequest: member.result.evaluatorRawRequest,
         scores: member.result.scores,
         details: member.result.details,
+        tokenUsage: member.result.tokenUsage,
       });
     }
 
@@ -173,6 +174,7 @@ export class CompositeEvaluator implements Evaluator {
         evaluatorRawRequest: member.result.evaluatorRawRequest,
         scores: member.result.scores,
         details: member.result.details,
+        tokenUsage: member.result.tokenUsage,
       });
     }
 
diff --git a/packages/core/src/evaluation/evaluators/llm-judge.ts b/packages/core/src/evaluation/evaluators/llm-judge.ts
index 5c72016a..2864deaa 100644
--- a/packages/core/src/evaluation/evaluators/llm-judge.ts
+++ b/packages/core/src/evaluation/evaluators/llm-judge.ts
@@ -4,6 +4,7 @@ import { z } from 'zod';
 import type { Provider, ProviderResponse } from '../providers/types.js';
 import { extractLastAssistantContent } from '../providers/types.js';
 import { TEMPLATE_VARIABLES } from '../template-variables.js';
+import type { TokenUsage } from '../trace.js';
 import type { JsonObject, RubricItem } from '../types.js';
 import { clampScore, isNonEmptyString, parseJsonFromText, scoreToVerdict } from './scoring.js';
 import type { EvaluationContext, EvaluationScore, Evaluator } from './types.js';
@@ -148,7 +149,7 @@ export class LlmJudgeEvaluator implements Evaluator {
     };
 
     try {
-      const { data } = await this.runWithRetry({
+      const { data, tokenUsage } = await this.runWithRetry({
         context,
         judgeProvider,
         systemPrompt,
@@ -173,6 +174,7 @@ export class LlmJudgeEvaluator implements Evaluator {
         expectedAspectCount,
         reasoning,
         evaluatorRawRequest,
+        tokenUsage,
       };
     } catch {
       // Deliberate: parse failures yield score 0 silently — no warning emitted,
@@ -215,7 +217,7 @@ export class LlmJudgeEvaluator implements Evaluator {
       target: judgeProvider.targetName,
     };
 
-    const { data } = await this.runWithRetry({
+    const { data, tokenUsage } = await this.runWithRetry({
       context,
       judgeProvider,
       systemPrompt,
@@ -233,6 +235,7 @@ export class LlmJudgeEvaluator implements Evaluator {
       expectedAspectCount: rubrics.length,
       reasoning: data.overall_reasoning,
       evaluatorRawRequest,
+      tokenUsage,
     };
   }
 
@@ -254,7 +257,7 @@ export class LlmJudgeEvaluator implements Evaluator {
       target: judgeProvider.targetName,
     };
 
-    const { data } = await this.runWithRetry({
+    const { data, tokenUsage } = await this.runWithRetry({
       context,
       judgeProvider,
       systemPrompt,
@@ -273,6 +276,7 @@ export class LlmJudgeEvaluator implements Evaluator {
       reasoning: data.overall_reasoning,
       evaluatorRawRequest,
       details,
+      tokenUsage,
     };
   }
 
@@ -389,7 +393,7 @@ export class LlmJudgeEvaluator implements Evaluator {
     readonly systemPrompt: string;
     readonly userPrompt: string;
     readonly schema: z.ZodSchema<T>;
-  }): Promise<{ data: T; providerResponse?: ProviderResponse }> {
+  }): Promise<{ data: T; providerResponse?: ProviderResponse; tokenUsage?: TokenUsage }> {
     const { context, judgeProvider, systemPrompt, userPrompt, schema } = options;
 
     let lastError: Error | undefined;
@@ -399,7 +403,7 @@ export class LlmJudgeEvaluator implements Evaluator {
         // Prefer Vercel AI SDK language model if available.
         const model = judgeProvider.asLanguageModel?.();
         if (model) {
-          const { text } = await generateText({
+          const result = await generateText({
             model,
             system: systemPrompt,
             prompt: userPrompt,
@@ -407,8 +411,13 @@ export class LlmJudgeEvaluator implements Evaluator {
             ...(typeof this.temperature === 'number' ? { temperature: this.temperature } : {}),
           });
 
-          const data = schema.parse(parseJsonFromText(text));
-          return { data };
+          const data = schema.parse(parseJsonFromText(result.text));
+          const rawUsage = result.usage;
+          const tokenUsage =
+            rawUsage?.inputTokens != null && rawUsage?.outputTokens != null
+              ? { input: rawUsage.inputTokens, output: rawUsage.outputTokens }
+              : undefined;
+          return { data, tokenUsage };
         }
 
         const response = await judgeProvider.invoke({
@@ -421,7 +430,7 @@ export class LlmJudgeEvaluator implements Evaluator {
         });
 
         const data = schema.parse(parseJsonFromText(extractLastAssistantContent(response.output)));
-        return { data, providerResponse: response };
+        return { data, providerResponse: response, tokenUsage: response.tokenUsage };
       } catch (e: unknown) {
         lastError = e instanceof Error ? e : new Error(String(e));
       }
diff --git a/packages/core/src/evaluation/evaluators/types.ts b/packages/core/src/evaluation/evaluators/types.ts
index b12afe81..1c412269 100644
--- a/packages/core/src/evaluation/evaluators/types.ts
+++ b/packages/core/src/evaluation/evaluators/types.ts
@@ -1,6 +1,6 @@
 import type { ResolvedTarget } from '../providers/targets.js';
 import type { ChatPrompt, Message, Provider } from '../providers/types.js';
-import type { TraceSummary } from '../trace.js';
+import type { TokenUsage, TraceSummary } from '../trace.js';
 import type { EvalTest, EvaluationVerdict, EvaluatorConfig, JsonObject } from '../types.js';
 
 export type { EvaluationVerdict };
@@ -52,6 +52,8 @@ export interface EvaluationScore {
   readonly scores?: readonly ChildEvaluatorResult[];
   /** Optional structured details from code judges (e.g., TP/TN/FP/FN counts, alignments). */
   readonly details?: JsonObject;
+  /** Token usage from LLM calls made by this evaluator (optional). */
+  readonly tokenUsage?: TokenUsage;
 }
 
 export interface ChildEvaluatorResult {
@@ -67,6 +69,8 @@ export interface ChildEvaluatorResult {
   readonly scores?: readonly ChildEvaluatorResult[];
   /** Optional structured details from code judges (e.g., TP/TN/FP/FN counts, alignments). */
   readonly details?: JsonObject;
+  /** Token usage from LLM calls made by this evaluator (optional). */
+  readonly tokenUsage?: TokenUsage;
 }
 
 export interface Evaluator {
diff --git a/packages/core/src/evaluation/orchestrator.ts b/packages/core/src/evaluation/orchestrator.ts
index 61fb04ae..f8397a27 100644
--- a/packages/core/src/evaluation/orchestrator.ts
+++ b/packages/core/src/evaluation/orchestrator.ts
@@ -1527,6 +1527,7 @@ async function runEvaluatorList(options: {
         evaluatorProviderRequest: score.evaluatorRawRequest,
         details: score.details,
         scores: mapChildResults(score.scores),
+        tokenUsage: score.tokenUsage,
       });
     } catch (error) {
       const message = error instanceof Error ? error.message : String(error);
@@ -1852,6 +1853,7 @@ function mapChildResults(
     evaluatorProviderRequest: child.evaluatorRawRequest,
     scores: mapChildResults(child.scores),
     details: child.details,
+    tokenUsage: child.tokenUsage,
   }));
 }
 
diff --git a/packages/core/src/evaluation/providers/ai-sdk.ts b/packages/core/src/evaluation/providers/ai-sdk.ts
index d736d26e..ba34ae6a 100644
--- a/packages/core/src/evaluation/providers/ai-sdk.ts
+++ b/packages/core/src/evaluation/providers/ai-sdk.ts
@@ -302,10 +302,17 @@ async function invokeModel(options: {
 
 function mapResponse(result: TextResult): ProviderResponse {
   const content = result.text ?? '';
+  const rawUsage = result.totalUsage ?? result.usage;
+  const tokenUsage =
+    rawUsage?.inputTokens != null && rawUsage?.outputTokens != null
+      ? { input: rawUsage.inputTokens, output: rawUsage.outputTokens }
+      : undefined;
+
   return {
     raw: result,
-    usage: toJsonObject(result.totalUsage ?? result.usage),
+    usage: toJsonObject(rawUsage),
     output: [{ role: 'assistant' as const, content }],
+    tokenUsage,
   };
 }
 
diff --git a/packages/core/src/evaluation/types.ts b/packages/core/src/evaluation/types.ts
index 23473403..62b62b61 100644
--- a/packages/core/src/evaluation/types.ts
+++ b/packages/core/src/evaluation/types.ts
@@ -1,4 +1,4 @@
-import type { ToolTrajectoryEvaluatorConfig, TraceSummary } from './trace.js';
+import type { TokenUsage, ToolTrajectoryEvaluatorConfig, TraceSummary } from './trace.js';
 
 /**
  * JSON primitive values appearing in AgentV payloads.
@@ -736,6 +736,8 @@ export interface EvaluatorResult {
   readonly scores?: readonly EvaluatorResult[];
   /** Optional structured details from code judges (e.g., TP/TN/FP/FN counts). */
   readonly details?: JsonObject;
+  /** Token usage from LLM calls made by this evaluator (optional). */
+  readonly tokenUsage?: TokenUsage;
 }
 
 /**
diff --git a/packages/core/src/runtime/target-proxy.ts b/packages/core/src/runtime/target-proxy.ts
index ec3f0db9..b035290e 100644
--- a/packages/core/src/runtime/target-proxy.ts
+++ b/packages/core/src/runtime/target-proxy.ts
@@ -13,6 +13,7 @@ import { type IncomingMessage, type Server, type ServerResponse, createServer }
 import type { AddressInfo } from 'node:net';
 
 import type { Provider } from '../evaluation/providers/types.js';
+import type { TokenUsage } from '../evaluation/trace.js';
 
 /**
  * Request body for /invoke endpoint
@@ -32,6 +33,7 @@ export interface TargetProxyInvokeRequest {
 export interface TargetProxyInvokeResponse {
   readonly output: readonly unknown[];
   readonly rawText?: string;
+  readonly tokenUsage?: TokenUsage;
 }
 
 /**
@@ -40,6 +42,7 @@ export interface TargetProxyInvokeResponse {
 export interface TargetProxyUsageMetadata {
   readonly callCount: number;
   readonly maxCalls: number;
+  readonly tokenUsage?: TokenUsage;
 }
 
 /**
@@ -93,6 +96,8 @@ export async function createTargetProxy(options: TargetProxyOptions): Promise<Ta
 
   let callCount = 0;
   let isShutdown = false;
+  let totalInputTokens = 0;
+  let totalOutputTokens = 0;
 
   // Build available targets list - always includes default
   const targetsList: readonly string[] = availableTargets ?? [defaultProvider.targetName];
@@ -202,6 +207,11 @@ export async function createTargetProxy(options: TargetProxyOptions): Promise<Ta
         attempt: request.attempt ?? 1,
       });
 
+      if (response.tokenUsage) {
+        totalInputTokens += response.tokenUsage.input;
+        totalOutputTokens += response.tokenUsage.output;
+      }
+
       // Extract output messages and rawText
       const output = response.output ?? [];
       const rawText = extractLastAssistantContent(output);
@@ -209,6 +219,7 @@ export async function createTargetProxy(options: TargetProxyOptions): Promise<Ta
       const result: TargetProxyInvokeResponse = {
         output,
         rawText,
+        tokenUsage: response.tokenUsage,
       };
 
       sendJson(res, 200, result);
@@ -267,10 +278,16 @@ export async function createTargetProxy(options: TargetProxyOptions): Promise<Ta
             attempt: request.attempt ?? 1,
           });
 
+          if (response.tokenUsage) {
+            totalInputTokens += response.tokenUsage.input;
+            totalOutputTokens += response.tokenUsage.output;
+          }
+
           const output = response.output ?? [];
           responses.push({
             output,
             rawText: extractLastAssistantContent(output),
+            tokenUsage: response.tokenUsage,
           });
         } catch (error) {
           const message = error instanceof Error ? error.message : String(error);
@@ -315,6 +332,10 @@ export async function createTargetProxy(options: TargetProxyOptions): Promise<Ta
     getUsageMetadata: () => ({
       callCount,
       maxCalls,
+      tokenUsage:
+        totalInputTokens > 0 || totalOutputTokens > 0
+          ? { input: totalInputTokens, output: totalOutputTokens }
+          : undefined,
     }),
   };
 }
diff --git a/packages/core/test/evaluation/token-usage.test.ts b/packages/core/test/evaluation/token-usage.test.ts
new file mode 100644
index 00000000..1a7647f9
--- /dev/null
+++ b/packages/core/test/evaluation/token-usage.test.ts
@@ -0,0 +1,192 @@
+/**
+ * Tests for token usage tracking across the evaluation pipeline.
+ * Covers: AI SDK mapResponse, target proxy accumulation, orchestrator passthrough.
+ */
+import { describe, expect, it } from 'bun:test';
+
+import type {
+  Provider,
+  ProviderRequest,
+  ProviderResponse,
+} from '../../src/evaluation/providers/types.js';
+import type { EvaluatorResult } from '../../src/evaluation/types.js';
+
+// ─── AI SDK mapResponse ────────────────────────────────────────────────
+// The mapResponse function is private, but we can test the public invoke()
+// method of AI SDK providers indirectly via the orchestrator flow.
+// Instead, we verify the type contracts that mapResponse must satisfy.
+
+describe('token usage type contracts', () => {
+  it('EvaluatorResult accepts tokenUsage', () => {
+    const result: EvaluatorResult = {
+      name: 'test',
+      type: 'llm_judge',
+      score: 0.9,
+      hits: ['good'],
+      misses: [],
+      tokenUsage: { input: 100, output: 50 },
+    };
+    expect(result.tokenUsage).toEqual({ input: 100, output: 50 });
+  });
+
+  it('EvaluatorResult tokenUsage is optional', () => {
+    const result: EvaluatorResult = {
+      name: 'test',
+      type: 'llm_judge',
+      score: 0.9,
+      hits: [],
+      misses: [],
+    };
+    expect(result.tokenUsage).toBeUndefined();
+  });
+
+  it('nested scores carry tokenUsage', () => {
+    const result: EvaluatorResult = {
+      name: 'composite',
+      type: 'composite',
+      score: 0.8,
+      hits: [],
+      misses: [],
+      scores: [
+        {
+          name: 'child-judge',
+          type: 'llm_judge',
+          score: 0.8,
+          hits: [],
+          misses: [],
+          tokenUsage: { input: 200, output: 100 },
+        },
+      ],
+    };
+    expect(result.scores?.[0].tokenUsage).toEqual({ input: 200, output: 100 });
+  });
+});
+
+// ─── Target proxy token usage accumulation ─────────────────────────────
+describe('target proxy token usage accumulation', () => {
+  function createMockProviderWithUsage(
+    targetName: string,
+    tokenUsage: { input: number; output: number },
+  ): Provider {
+    return {
+      id: targetName,
+      kind: 'mock',
+      targetName,
+      invoke: async (_request: ProviderRequest): Promise<ProviderResponse> => ({
+        output: [{ role: 'assistant', content: 'response' }],
+        tokenUsage,
+      }),
+    };
+  }
+
+  it('accumulates tokenUsage across multiple invoke calls', async () => {
+    const { createTargetProxy } = await import('../../src/runtime/target-proxy.js');
+
+    const provider = createMockProviderWithUsage('test', { input: 100, output: 50 });
+    const proxy = await createTargetProxy({ defaultProvider: provider, maxCalls: 10 });
+
+    try {
+      const headers = {
+        'Content-Type': 'application/json',
+        Authorization: `Bearer ${proxy.token}`,
+      };
+
+      // Make 3 calls
+      for (let i = 0; i < 3; i++) {
+        await fetch(`${proxy.url}/invoke`, {
+          method: 'POST',
+          headers,
+          body: JSON.stringify({ question: `q${i}` }),
+        });
+      }
+
+      const usage = proxy.getUsageMetadata();
+      expect(usage.callCount).toBe(3);
+      expect(usage.tokenUsage).toEqual({ input: 300, output: 150 });
+    } finally {
+      await proxy.shutdown();
+    }
+  });
+
+  it('returns per-call tokenUsage in invoke response', async () => {
+    const { createTargetProxy } = await import('../../src/runtime/target-proxy.js');
+
+    const provider = createMockProviderWithUsage('test', { input: 42, output: 17 });
+    const proxy = await createTargetProxy({ defaultProvider: provider, maxCalls: 10 });
+
+    try {
+      const response = await fetch(`${proxy.url}/invoke`, {
+        method: 'POST',
+        headers: {
+          'Content-Type': 'application/json',
+          Authorization: `Bearer ${proxy.token}`,
+        },
+        body: JSON.stringify({ question: 'test' }),
+      });
+
+      const result = (await response.json()) as { tokenUsage?: { input: number; output: number } };
+      expect(result.tokenUsage).toEqual({ input: 42, output: 17 });
+    } finally {
+      await proxy.shutdown();
+    }
+  });
+
+  it('returns undefined tokenUsage when provider reports none', async () => {
+    const { createTargetProxy } = await import('../../src/runtime/target-proxy.js');
+
+    const provider: Provider = {
+      id: 'no-usage',
+      kind: 'mock',
+      targetName: 'no-usage',
+      invoke: async (): Promise<ProviderResponse> => ({
+        output: [{ role: 'assistant', content: 'response' }],
+      }),
+    };
+    const proxy = await createTargetProxy({ defaultProvider: provider, maxCalls: 10 });
+
+    try {
+      await fetch(`${proxy.url}/invoke`, {
+        method: 'POST',
+        headers: {
+          'Content-Type': 'application/json',
+          Authorization: `Bearer ${proxy.token}`,
+        },
+        body: JSON.stringify({ question: 'test' }),
+      });
+
+      const usage = proxy.getUsageMetadata();
+      expect(usage.callCount).toBe(1);
+      expect(usage.tokenUsage).toBeUndefined();
+    } finally {
+      await proxy.shutdown();
+    }
+  });
+
+  it('accumulates tokenUsage in batch requests', async () => {
+    const { createTargetProxy } = await import('../../src/runtime/target-proxy.js');
+
+    const provider = createMockProviderWithUsage('test', { input: 10, output: 5 });
+    const proxy = await createTargetProxy({ defaultProvider: provider, maxCalls: 10 });
+
+    try {
+      const response = await fetch(`${proxy.url}/invokeBatch`, {
+        method: 'POST',
+        headers: {
+          'Content-Type': 'application/json',
+          Authorization: `Bearer ${proxy.token}`,
+        },
+        body: JSON.stringify({
+          requests: [{ question: 'q1' }, { question: 'q2' }],
+        }),
+      });
+
+      expect(response.ok).toBe(true);
+
+      const usage = proxy.getUsageMetadata();
+      expect(usage.callCount).toBe(2);
+      expect(usage.tokenUsage).toEqual({ input: 20, output: 10 });
+    } finally {
+      await proxy.shutdown();
+    }
+  });
+});
diff --git a/packages/eval/src/target-client.ts b/packages/eval/src/target-client.ts
index bb39c151..c76addaf 100644
--- a/packages/eval/src/target-client.ts
+++ b/packages/eval/src/target-client.ts
@@ -6,6 +6,8 @@
  * - AGENTV_TARGET_PROXY_TOKEN: Bearer token for authentication
  */
 
+import type { TokenUsage } from './schemas.js';
+
 /**
  * Request to invoke the target
  */
@@ -24,6 +26,7 @@ export interface TargetInvokeRequest {
 export interface TargetInvokeResponse {
   readonly output: readonly unknown[];
   readonly rawText?: string;
+  readonly tokenUsage?: TokenUsage;
 }
 
 /**