Fix hate unfairness result lookup for sync red-team evaluations (Azure#44019)

slister1001 · web-flow · commit 5d5da74ed8d5 · 2025-11-14T02:31:35.000Z
* Fix hate unfairness result lookup for sync red-team evaluations

* Update changelog
diff --git a/sdk/evaluation/azure-ai-evaluation/CHANGELOG.md b/sdk/evaluation/azure-ai-evaluation/CHANGELOG.md
@@ -7,6 +7,7 @@
 - Added detection and retry handling for network errors wrapped in generic exceptions with "Error sending prompt with conversation ID" message
 - Fix results for ungrounded_attributes
 - score_mode grader improvements
+- fix for Red Team to ensure hate/unfairness evaluation rows populate when OneDP sync evaluators report results under the hate_unfairness metric name.
 
 ## 1.13.5 (2025-11-10)
 
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/red_team/_evaluation_processor.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/red_team/_evaluation_processor.py
@@ -148,13 +148,15 @@ async def evaluate_conversation(
             try:
                 self.logger.debug(f"Evaluating conversation {idx+1} for {risk_category.value}/{strategy_name}")
 
+                use_sync_endpoint = is_onedp_project(self.azure_ai_project)
+                effective_metric_name = (
+                    "hate_unfairness" if use_sync_endpoint and metric_name == "hate_fairness" else metric_name
+                )
+
                 @retry(**self.retry_config["network_retry"])
                 async def evaluate_with_rai_service_with_retry():
                     try:
-                        # Use sync_evals endpoint for OneDP projects, legacy endpoint for others
-                        if is_onedp_project(self.azure_ai_project):
-                            # If using sync API use hate_unfairness rather than hate_fairness
-                            effective_metric_name = "hate_unfairness" if metric_name == "hate_fairness" else metric_name
+                        if use_sync_endpoint:
                             return await evaluate_with_rai_service_sync(
                                 data=query_response,
                                 metric_name=effective_metric_name,
@@ -213,9 +215,12 @@ async def evaluate_with_rai_service_with_retry():
 
                     # Find the result matching our metric/risk category
                     eval_result = None
+                    lookup_names = {metric_name, risk_cat_value, effective_metric_name}
                     for result_item in results:
                         result_dict = result_item if isinstance(result_item, dict) else result_item.__dict__
-                        if result_dict.get("name") == metric_name or result_dict.get("metric") == metric_name:
+                        result_name = str(result_dict.get("name") or "")
+                        metric_field = str(result_dict.get("metric") or "")
+                        if result_name in lookup_names or metric_field in lookup_names:
                             eval_result = result_dict
                             break