Use prometheus as a metric backend

This entails writing a metric aggregation program since each worker has its own memory, and thus own metrics because of python gunicorn. The python client is a simple wrapper that makes web requests to it.
2015-11-20 15:32:17 -05:00 · 2015-11-20 15:32:17 -05:00 · 3d9acf2fff
commit 3d9acf2fff
parent 781f2eec72
10 changed files with 502 additions and 0 deletions
--- a/util/saas/metricqueue.py
+++ b/util/saas/metricqueue.py
@ -4,12 +4,17 @@ import time

 from functools import wraps
 from Queue import Queue, Full
+from util.prometheus import Histogram, Counter

 from flask import g, request


 logger = logging.getLogger(__name__)

+resp_time = Histogram('response_time', 'HTTP response time in seconds', labelnames=['endpoint'])
+resp_code = Counter('response_code', 'HTTP response code', labelnames=['endpoint', 'code'])
+non_200 = Counter('response_non200', 'Non-200 HTTP response codes', labelnames=['endpoint'])
+
 class MetricQueue(object):
  def __init__(self):
    self._queue = None
@ -54,10 +59,14 @@ def time_after_request(name, metric_queue):
    metric_queue.put('ResponseTime', dur, dimensions=dims, unit='Seconds')
    metric_queue.put('ResponseCode', r.status_code, dimensions=dims)

+    resp_time.Observe(dur, labelvalues=[request.endpoint])
+    resp_code.Inc(labelvalues=[request.endpoint, r.status_code])
+
    if r.status_code >= 500:
      metric_queue.put('5XXResponse', 1, dimensions={'name': name})
    elif r.status_code < 200 or r.status_code >= 300:
      metric_queue.put('Non200Response', 1, dimensions={'name': name})
+      non_200.Inc(labelvalues=[request.endpoint])

    return r
  return f