[Post Mortem] Log number of errors in detail log (mlcommons#2164)

pgmpablo157321 · github-actions[bot] · web-flow · commit fd021be1b7f0 · 2025-04-15T11:33:10.000-05:00
* Log number of errors in detail log

* [Automated Commit] Format Codebase

---------

Co-authored-by: github-actions[bot] &lt;github-actions[bot]@users.noreply.github.com&gt;
diff --git a/loadgen/logging.h b/loadgen/logging.h
@@ -314,6 +314,7 @@ class AsyncLog {
   QuerySampleLatency GetMaxLatencySoFar();
   void SetUseTokens(bool use_tokens);
   void SetNeedsFirstToken(bool needs_first_token);
+  size_t GetErrorCount() { return log_error_count_; };
 
  private:
   void WriteAccuracyHeaderLocked();
diff --git a/loadgen/results.cc b/loadgen/results.cc
@@ -848,8 +848,9 @@ void PerformanceSummary::LogDetail(AsyncDetail& detail) {
         break;
       }
     }
-#endif
   }
+  MLPERF_LOG(detail, "num_errors", detail.async_log().GetErrorCount());
+#endif
 }
 }  // namespace loadgen
 }  // namespace mlperf
diff --git a/tools/submission/log_parser.py b/tools/submission/log_parser.py
@@ -128,6 +128,8 @@ def num_messages(self):
 
     def num_errors(self):
         """Get number of errors in the log."""
+        if "num_errors" in self.keys:
+            return self.__getitem__("num_errors")
         count = 0
         for message in self.messages:
             if message["metadata"]["is_error"]:
diff --git a/tools/submission/submission_checker.py b/tools/submission/submission_checker.py
@@ -1302,6 +1302,9 @@ def check_accuracy_dir(config, model, path, verbose):
     fname = os.path.join(path, "mlperf_log_detail.txt")
     if not find_error_in_detail_log(config, fname):
         is_valid = False
+        log.error(
+            "%s has loadgen errors, number of errors: %s", path, mlperf_log.num_errors()
+        )
 
     return is_valid, result_acc
 
@@ -1434,6 +1437,9 @@ def check_performance_dir(
     fname = os.path.join(path, "mlperf_log_detail.txt")
     if not find_error_in_detail_log(config, fname):
         is_valid = False
+        log.error(
+            "%s has loadgen errors, number of errors: %s", path, mlperf_log.num_errors()
+        )
 
     required_performance_sample_count = config.get_performance_sample_count(
         model)
@@ -1702,7 +1708,7 @@ def get_power_metric(config, scenario_fixed, log_path, is_valid, res):
                 samples_per_query = 8
 
             if (scenario_fixed in ["MultiStream"]
-                    ) and scenario in ["SingleStream"]:
+                ) and scenario in ["SingleStream"]:
                 power_metric = (
                     avg_power * power_duration * samples_per_query * 1000 / num_queries
                 )
@@ -1965,7 +1971,9 @@ def log_result(
         if config.version == "v4.0":
             unit = unit_dict[scenario_fixed]
         else:
-            unit = special_unit_dict.get(mlperf_model, unit_dict).get(scenario_fixed, unit_dict[scenario_fixed])
+            unit = special_unit_dict.get(
+                mlperf_model, unit_dict).get(
+                scenario_fixed, unit_dict[scenario_fixed])
         power_unit = power_unit_dict[scenario_fixed]
 
         if (power_metric <= 0) or (

Original file line number	Diff line number	Diff line change
`@@ -848,8 +848,9 @@ void PerformanceSummary::LogDetail(AsyncDetail& detail) {`
`848`	`848`	`break;`
`849`	`849`	`}`
`850`	`850`	`}`
`851`		`-#endif`
`852`	`851`	`}`
	`852`	`+ MLPERF_LOG(detail, "num_errors", detail.async_log().GetErrorCount());`
	`853`	`+#endif`
`853`	`854`	`}`
`854`	`855`	`} // namespace loadgen`
`855`	`856`	`} // namespace mlperf`