feat(ai): AI cost calculation (#4840)

vgrozdanic · web-flow · commit 063da4665b45 · 2025-06-24T15:13:11.000+02:00
Fixes problems with old way of calculating costs where we only included input and output tokens into cost calculation, and refactors the whole `calculate_ai_model_cost` to be more robust, so that there is no need to change multiple functions when we want to include new field into cost calculation. Closes [TET-648: Refactor cost calculation](https://linear.app/getsentry/issue/TET-648/refactor-cost-calculation)
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -9,6 +9,7 @@
 **Internal**:
 
 - Produce spans to the items topic. ([#4735](https://github.com/getsentry/relay/pull/4735))
+- Take into account more types of tokens when doing AI cost calculation. ([#4840](https://github.com/getsentry/relay/pull/4840))
 
 ## 25.6.1
 
diff --git a/relay-event-normalization/src/event.rs b/relay-event-normalization/src/event.rs
@@ -1502,13 +1502,12 @@ mod tests {
 
     use insta::assert_debug_snapshot;
     use itertools::Itertools;
-    use relay_common::glob2::LazyGlob;
     use relay_event_schema::protocol::{Breadcrumb, Csp, DebugMeta, DeviceContext, Values};
     use relay_protocol::{SerializableAnnotated, get_value};
     use serde_json::json;
 
     use super::*;
-    use crate::{ClientHints, MeasurementsConfig, ModelCost};
+    use crate::{ClientHints, MeasurementsConfig, ModelCostV2};
 
     const IOS_MOBILE_EVENT: &str = r#"
         {
@@ -2204,8 +2203,11 @@ mod tests {
                         "parent_span_id": "a1e13f3f06239d69",
                         "trace_id": "922dda2462ea4ac2b6a4b339bee90863",
                         "measurements": {
-                            "ai_total_tokens_used": {
-                                "value": 1230
+                            "ai_prompt_tokens_used": {
+                                "value": 1000
+                            },
+                            "ai_completion_tokens_used": {
+                                "value": 2000
                             }
                         },
                         "data": {
@@ -2244,25 +2246,28 @@ mod tests {
             &mut event,
             &NormalizationConfig {
                 ai_model_costs: Some(&ModelCosts {
-                    version: 1,
-                    costs: vec![
-                        ModelCost {
-                            model_id: LazyGlob::new("claude-2*"),
-                            for_completion: false,
-                            cost_per_1k_tokens: 1.0,
-                        },
-                        ModelCost {
-                            model_id: LazyGlob::new("gpt4-21*"),
-                            for_completion: false,
-                            cost_per_1k_tokens: 2.0,
-                        },
-                        ModelCost {
-                            model_id: LazyGlob::new("gpt4-21*"),
-                            for_completion: true,
-                            cost_per_1k_tokens: 20.0,
-                        },
-                    ],
-                    models: HashMap::new(),
+                    version: 2,
+                    costs: vec![],
+                    models: HashMap::from([
+                        (
+                            "claude-2.1".to_owned(),
+                            ModelCostV2 {
+                                input_per_token: 0.01,
+                                output_per_token: 0.02,
+                                output_reasoning_per_token: 0.03,
+                                input_cached_per_token: 0.0,
+                            },
+                        ),
+                        (
+                            "gpt4-21-04".to_owned(),
+                            ModelCostV2 {
+                                input_per_token: 0.02,
+                                output_per_token: 0.03,
+                                output_reasoning_per_token: 0.04,
+                                input_cached_per_token: 0.0,
+                            },
+                        ),
+                    ]),
                 }),
                 ..NormalizationConfig::default()
             },
@@ -2276,15 +2281,15 @@ mod tests {
                 .and_then(|span| span.value())
                 .and_then(|span| span.data.value())
                 .and_then(|data| data.gen_ai_usage_total_cost.value()),
-            Some(&Value::F64(1.23))
+            Some(&Value::F64(50.0))
         );
         assert_eq!(
             spans
                 .get(1)
                 .and_then(|span| span.value())
                 .and_then(|span| span.data.value())
                 .and_then(|data| data.gen_ai_usage_total_cost.value()),
-            Some(&Value::F64(20.0 * 2.0 + 2.0))
+            Some(&Value::F64(80.0))
         );
     }
 
@@ -2302,9 +2307,11 @@ mod tests {
                         "parent_span_id": "a1e13f3f06239d69",
                         "trace_id": "922dda2462ea4ac2b6a4b339bee90863",
                         "data": {
-                            "gen_ai.usage.total_tokens": 1230,
-                            "ai.pipeline.name": "Autofix Pipeline",
-                            "ai.model_id": "claude-2.1"
+                            "gen_ai.usage.input_tokens": 1000,
+                            "gen_ai.usage.output_tokens": 2000,
+                            "gen_ai.usage.output_tokens.reasoning": 3000,
+                            "gen_ai.usage.input_tokens.cached": 4000,
+                            "gen_ai.request.model": "claude-2.1"
                         }
                     },
                     {
@@ -2318,8 +2325,7 @@ mod tests {
                         "data": {
                             "gen_ai.usage.input_tokens": 1000,
                             "gen_ai.usage.output_tokens": 2000,
-                            "ai.pipeline.name": "Autofix Pipeline",
-                            "ai.model_id": "gpt4-21-04"
+                            "gen_ai.request.model": "gpt4-21-04"
                         }
                     }
                 ]
@@ -2332,25 +2338,28 @@ mod tests {
             &mut event,
             &NormalizationConfig {
                 ai_model_costs: Some(&ModelCosts {
-                    version: 1,
-                    costs: vec![
-                        ModelCost {
-                            model_id: LazyGlob::new("claude-2*"),
-                            for_completion: false,
-                            cost_per_1k_tokens: 1.0,
-                        },
-                        ModelCost {
-                            model_id: LazyGlob::new("gpt4-21*"),
-                            for_completion: false,
-                            cost_per_1k_tokens: 2.0,
-                        },
-                        ModelCost {
-                            model_id: LazyGlob::new("gpt4-21*"),
-                            for_completion: true,
-                            cost_per_1k_tokens: 20.0,
-                        },
-                    ],
-                    models: HashMap::new(),
+                    version: 2,
+                    costs: vec![],
+                    models: HashMap::from([
+                        (
+                            "claude-2.1".to_owned(),
+                            ModelCostV2 {
+                                input_per_token: 0.01,
+                                output_per_token: 0.02,
+                                output_reasoning_per_token: 0.03,
+                                input_cached_per_token: 0.0,
+                            },
+                        ),
+                        (
+                            "gpt4-21-04".to_owned(),
+                            ModelCostV2 {
+                                input_per_token: 0.09,
+                                output_per_token: 0.05,
+                                output_reasoning_per_token: 0.06,
+                                input_cached_per_token: 0.0,
+                            },
+                        ),
+                    ]),
                 }),
                 ..NormalizationConfig::default()
             },
@@ -2364,15 +2373,15 @@ mod tests {
                 .and_then(|span| span.value())
                 .and_then(|span| span.data.value())
                 .and_then(|data| data.gen_ai_usage_total_cost.value()),
-            Some(&Value::F64(1.23))
+            Some(&Value::F64(140.0))
         );
         assert_eq!(
             spans
                 .get(1)
                 .and_then(|span| span.value())
                 .and_then(|span| span.data.value())
                 .and_then(|data| data.gen_ai_usage_total_cost.value()),
-            Some(&Value::F64(20.0 * 2.0 + 2.0))
+            Some(&Value::F64(190.0))
         );
         assert_eq!(
             spans
diff --git a/relay-event-normalization/src/normalize/span/ai.rs b/relay-event-normalization/src/normalize/span/ai.rs
@@ -1,43 +1,43 @@
 //! AI cost calculation.
 
-use crate::ModelCosts;
+use crate::{ModelCostV2, ModelCosts};
 use relay_event_schema::protocol::{Event, Span, SpanData};
 use relay_protocol::{Annotated, Value};
 
+/// Calculates the cost of an AI model based on the model cost and the tokens used.
 /// Calculated cost is in US dollars.
-fn calculate_ai_model_cost(
-    model_id: &str,
-    prompt_tokens_used: Option<f64>,
-    completion_tokens_used: Option<f64>,
-    total_tokens_used: Option<f64>,
-    ai_model_costs: &ModelCosts,
-) -> Option<f64> {
-    if let Some(cost_per_token) = ai_model_costs.cost_per_token(model_id) {
-        let mut result = 0.0;
-
-        // If we have separate input/output token counts, use those
-        if let Some(prompt_tokens) = prompt_tokens_used {
-            result += cost_per_token.input_per_token * prompt_tokens;
-        }
-        if let Some(completion_tokens) = completion_tokens_used {
-            result += cost_per_token.output_per_token * completion_tokens;
-        }
+fn calculate_ai_model_cost(model_cost: Option<ModelCostV2>, data: &SpanData) -> Option<f64> {
+    let cost_per_token = model_cost?;
+    let input_tokens_used = data
+        .gen_ai_usage_input_tokens
+        .value()
+        .and_then(Value::as_f64)
+        .unwrap_or(0.0);
 
-        // If we only have total tokens and no breakdown, use input cost for all tokens
-        // (assuming it's more common to have input cost defined in V1 configs)
-        if prompt_tokens_used.is_none() && completion_tokens_used.is_none() {
-            if let Some(total_tokens) = total_tokens_used {
-                if cost_per_token.input_per_token > 0.0 {
-                    result += cost_per_token.input_per_token * total_tokens;
-                } else if cost_per_token.output_per_token > 0.0 {
-                    result += cost_per_token.output_per_token * total_tokens;
-                }
-            }
-        }
+    let output_tokens_used = data
+        .gen_ai_usage_output_tokens
+        .value()
+        .and_then(Value::as_f64)
+        .unwrap_or(0.0);
+    let output_reasoning_tokens_used = data
+        .gen_ai_usage_output_tokens_reasoning
+        .value()
+        .and_then(Value::as_f64)
+        .unwrap_or(0.0);
+    let input_cached_tokens_used = data
+        .gen_ai_usage_input_tokens_cached
+        .value()
+        .and_then(Value::as_f64)
+        .unwrap_or(0.0);
 
-        return Some(result);
-    }
-    None
+    let mut result = 0.0;
+
+    result += cost_per_token.input_per_token * input_tokens_used;
+    result += cost_per_token.output_per_token * output_tokens_used;
+    result += cost_per_token.output_reasoning_per_token * output_reasoning_tokens_used;
+    result += cost_per_token.input_cached_per_token * input_cached_tokens_used;
+
+    Some(result)
 }
 
 /// Maps AI-related measurements (legacy) to span data.
@@ -94,27 +94,17 @@ pub fn extract_ai_data(span: &mut Span, ai_model_costs: &ModelCosts) {
         return;
     };
 
-    let total_tokens_used = data
-        .gen_ai_usage_total_tokens
-        .value()
-        .and_then(Value::as_f64);
-    let prompt_tokens_used = data
-        .gen_ai_usage_input_tokens
-        .value()
-        .and_then(Value::as_f64);
-    let completion_tokens_used = data
-        .gen_ai_usage_output_tokens
+    if let Some(model_id) = data
+        .gen_ai_request_model
         .value()
-        .and_then(Value::as_f64);
-
-    if let Some(model_id) = data.ai_model_id.value().and_then(|val| val.as_str()) {
-        if let Some(total_cost) = calculate_ai_model_cost(
-            model_id,
-            prompt_tokens_used,
-            completion_tokens_used,
-            total_tokens_used,
-            ai_model_costs,
-        ) {
+        .and_then(|val| val.as_str())
+        // xxx (vgrozdanic): temporal fallback to legacy field, until we fix
+        // sentry conventions and standardize what SDKs send
+        .or_else(|| data.ai_model_id.value().and_then(|val| val.as_str()))
+    {
+        if let Some(total_cost) =
+            calculate_ai_model_cost(ai_model_costs.cost_per_token(model_id), data)
+        {
             data.gen_ai_usage_total_cost
                 .set_value(Value::F64(total_cost).into());
         }
diff --git a/relay-event-schema/src/protocol/span.rs b/relay-event-schema/src/protocol/span.rs
@@ -494,6 +494,10 @@ pub struct SpanData {
     #[metastructure(field = "gen_ai.response.model")]
     pub gen_ai_response_model: Annotated<Value>,
 
+    /// The name of the GenAI model a request is being made to (e.g. gpt-4)
+    #[metastructure(field = "gen_ai.request.model")]
+    pub gen_ai_request_model: Annotated<Value>,
+
     /// The total cost for the tokens used
     #[metastructure(field = "gen_ai.usage.total_cost", legacy_alias = "ai.total_cost")]
     pub gen_ai_usage_total_cost: Annotated<Value>,
@@ -1286,6 +1290,7 @@ mod tests {
             gen_ai_usage_output_tokens: ~,
             gen_ai_usage_output_tokens_reasoning: ~,
             gen_ai_response_model: ~,
+            gen_ai_request_model: ~,
             gen_ai_usage_total_cost: ~,
             browser_name: ~,
             code_filepath: String(
diff --git a/relay-event-schema/src/protocol/span/convert.rs b/relay-event-schema/src/protocol/span/convert.rs
@@ -162,6 +162,7 @@ mod tests {
                 gen_ai_usage_output_tokens: ~,
                 gen_ai_usage_output_tokens_reasoning: ~,
                 gen_ai_response_model: ~,
+                gen_ai_request_model: ~,
                 gen_ai_usage_total_cost: ~,
                 browser_name: "Chrome",
                 code_filepath: ~,
diff --git a/relay-server/src/metrics_extraction/snapshots/relay_server__metrics_extraction__event__tests__extract_span_metrics_mobile.snap b/relay-server/src/metrics_extraction/snapshots/relay_server__metrics_extraction__event__tests__extract_span_metrics_mobile.snap
@@ -144,6 +144,7 @@ expression: "(&event.value().unwrap().spans, metrics.project_metrics)"
                 gen_ai_usage_output_tokens: ~,
                 gen_ai_usage_output_tokens_reasoning: ~,
                 gen_ai_response_model: ~,
+                gen_ai_request_model: ~,
                 gen_ai_usage_total_cost: ~,
                 browser_name: ~,
                 code_filepath: ~,
@@ -806,6 +807,7 @@ expression: "(&event.value().unwrap().spans, metrics.project_metrics)"
                 gen_ai_usage_output_tokens: ~,
                 gen_ai_usage_output_tokens_reasoning: ~,
                 gen_ai_response_model: ~,
+                gen_ai_request_model: ~,
                 gen_ai_usage_total_cost: ~,
                 browser_name: ~,
                 code_filepath: ~,
@@ -995,6 +997,7 @@ expression: "(&event.value().unwrap().spans, metrics.project_metrics)"
                 gen_ai_usage_output_tokens: ~,
                 gen_ai_usage_output_tokens_reasoning: ~,
                 gen_ai_response_model: ~,
+                gen_ai_request_model: ~,
                 gen_ai_usage_total_cost: ~,
                 browser_name: ~,
                 code_filepath: ~,
@@ -1293,6 +1296,7 @@ expression: "(&event.value().unwrap().spans, metrics.project_metrics)"
                 gen_ai_usage_output_tokens: ~,
                 gen_ai_usage_output_tokens_reasoning: ~,
                 gen_ai_response_model: ~,
+                gen_ai_request_model: ~,
                 gen_ai_usage_total_cost: ~,
                 browser_name: ~,
                 code_filepath: ~,
@@ -1482,6 +1486,7 @@ expression: "(&event.value().unwrap().spans, metrics.project_metrics)"
                 gen_ai_usage_output_tokens: ~,
                 gen_ai_usage_output_tokens_reasoning: ~,
                 gen_ai_response_model: ~,
+                gen_ai_request_model: ~,
                 gen_ai_usage_total_cost: ~,
                 browser_name: ~,
                 code_filepath: ~,