fix(eap): fix bug with data_present #6726

davidtsuk · 2025-01-08T17:38:31Z

Fixes https://github.com/getsentry/eap-planning/issues/144

Additional Context

When we perform aggregations over attributes, the function is converted into function_nameIf (e.g. countIf) which returns a default value if no rows match the condition. This means that there is no way to distinguish between an aggregate result that is 0 because it's for example a sum of values that add up to 0, and a result that is 0 because no values matched the given condition. To deal with this, we compute the number of events being aggregated even when we aren't extrapolating so we can determine if data was present or not.

codecov · 2025-01-08T18:12:43Z

❌ 1 Tests Failed:

Tests completed	Failed	Passed	Skipped
2741	1	2740	6

View the top 1 failed tests by shortest run time

tests.web.rpc.v1.test_endpoint_time_series.test_endpoint_time_series.TestTimeSeriesApi::test_with_no_data_present

Stack Traces | 0.277s run time

Traceback (most recent call last):
  File ".../v1/test_endpoint_time_series/test_endpoint_time_series.py", line 417, in test_with_no_data_present
    assert sorted(response.result_timeseries, key=lambda x: x.label) == [
AssertionError: assert [label: "avg"\nbuckets {\n  seconds: 1736236800\n}\nbuckets {\n  seconds: 1736237100\n}\nbuckets {\n  seconds: 1736237400\n}\nbuckets {\n  seconds: 1736237700\n}\nbuckets {\n  seconds: 1736238000\n}\nbuckets {\n  seconds: 1736238300\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\n,\n label: "sum"\nbuckets {\n  seconds: 1736236800\n}\nbuckets {\n  seconds: 1736237100\n}\nbuckets {\n  seconds: 1736237400\n}\nbuckets {\n  seconds: 1736237700\n}\nbuckets {\n  seconds: 1736238000\n}\nbuckets {\n  seconds: 1736238300\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\n] == [label: "avg"\nbuckets {\n  seconds: 1736236800\n}\nbuckets {\n  seconds: 1736237100\n}\nbuckets {\n  seconds: 1736237400\n}\nbuckets {\n  seconds: 1736237700\n}\nbuckets {\n  seconds: 1736238000\n}\nbuckets {\n  seconds: 1736238300\n}\ndata_points {\n  data: 1\n  data_present: true\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\n,\n label: "sum"\nbuckets {\n  seconds: 1736236800\n}\nbuckets {\n  seconds: 1736237100\n}\nbuckets {\n  seconds: 1736237400\n}\nbuckets {\n  seconds: 1736237700\n}\nbuckets {\n  seconds: 1736238000\n}\nbuckets {\n  seconds: 1736238300\n}\ndata_points {\n  data: 1\n  data_present: true\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\n]
  At index 0 diff: label: "avg"\nbuckets {\n  seconds: 1736236800\n}\nbuckets {\n  seconds: 1736237100\n}\nbuckets {\n  seconds: 1736237400\n}\nbuckets {\n  seconds: 1736237700\n}\nbuckets {\n  seconds: 1736238000\n}\nbuckets {\n  seconds: 1736238300\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\n != label: "avg"\nbuckets {\n  seconds: 1736236800\n}\nbuckets {\n  seconds: 1736237100\n}\nbuckets {\n  seconds: 1736237400\n}\nbuckets {\n  seconds: 1736237700\n}\nbuckets {\n  seconds: 1736238000\n}\nbuckets {\n  seconds: 1736238300\n}\ndata_points {\n  data: 1\n  data_present: true\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\ndata_points {\n}\n
  Full diff:
    [
     label: "avg"
    buckets {
      seconds: 1736236800
    }
    buckets {
      seconds: 1736237100
    }
    buckets {
      seconds: 1736237400
    }
    buckets {
      seconds: 1736237700
    }
    buckets {
      seconds: 1736238000
    }
    buckets {
      seconds: 1736238300
    }
    data_points {
  -   data: 1
  -   data_present: true
    }
    data_points {
    }
    data_points {
    }
    data_points {
    }
    data_points {
    }
    data_points {
    }
    ,
     label: "sum"
    buckets {
      seconds: 1736236800
    }
    buckets {
      seconds: 1736237100
    }
    buckets {
      seconds: 1736237400
    }
    buckets {
      seconds: 1736237700
    }
    buckets {
      seconds: 1736238000
    }
    buckets {
      seconds: 1736238300
    }
    data_points {
  -   data: 1
  -   data_present: true
    }
    data_points {
    }
    data_points {
    }
    data_points {
    }
    data_points {
    }
    data_points {
    }
    ,
    ]

To view more test analytics, go to the Test Analytics Dashboard
📢 Thoughts on this report? Let us know!

onkar

LGTM

onkar · 2025-01-08T20:18:15Z

snuba/web/rpc/common/aggregation.py

@@ -46,7 +46,7 @@ class ExtrapolationContext(ABC):
    sample_count: int

    @property
-    def extrapolated_data_present(self) -> bool:
+    def data_present(self) -> bool:


nit: should this be renamed for is_data_present since it returns an answer to this question?

onkar · 2025-01-08T20:29:41Z

snuba/web/rpc/common/aggregation.py

            return GenericExtrapolationContext(
                value=value,
                confidence_interval=None,
                average_sample_rate=0,
-                sample_count=0,
+                sample_count=sample_count,


I am wondering if this return can be collapsed with the return on L130 for better readability. All we are checking is if confidence_interval is None and if so, we pass None.

yeah you are right, it can be collapsed, nice catch

fix bug with data_present

0417e33

davidtsuk requested review from a team as code owners January 8, 2025 17:38

fix typing

005afd9

onkar approved these changes Jan 8, 2025

View reviewed changes

fix test

a6167b4

davidtsuk merged commit 33453a0 into master Jan 8, 2025
31 checks passed

davidtsuk deleted the david/fix/data-present-bug branch January 8, 2025 21:53

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix(eap): fix bug with data_present #6726

fix(eap): fix bug with data_present #6726

davidtsuk commented Jan 8, 2025 •

edited

Loading

codecov bot commented Jan 8, 2025 •

edited

Loading

onkar left a comment

onkar Jan 8, 2025

onkar Jan 8, 2025

davidtsuk Jan 8, 2025

fix(eap): fix bug with data_present #6726

fix(eap): fix bug with data_present #6726

Conversation

davidtsuk commented Jan 8, 2025 • edited Loading

Additional Context

codecov bot commented Jan 8, 2025 • edited Loading

❌ 1 Tests Failed:

onkar left a comment

Choose a reason for hiding this comment

onkar Jan 8, 2025

Choose a reason for hiding this comment

onkar Jan 8, 2025

Choose a reason for hiding this comment

davidtsuk Jan 8, 2025

Choose a reason for hiding this comment

davidtsuk commented Jan 8, 2025 •

edited

Loading

codecov bot commented Jan 8, 2025 •

edited

Loading