server : fill usage info in embeddings and rerank responses (#10852)

* server : fill usage info in embeddings response * server : fill usage info in reranking response
2024-12-17 16:00:24 +00:00 · 2024-12-17 16:00:24 +00:00 · 05c3a444b8
commit 05c3a444b8
parent 382bc7f2e8
4 changed files with 77 additions and 10 deletions
--- a/examples/server/tests/unit/test_rerank.py
+++ b/examples/server/tests/unit/test_rerank.py
@ -53,3 +53,26 @@ def test_invalid_rerank_req(documents):
    })
    assert res.status_code == 400
    assert "error" in res.body
+
+
+@pytest.mark.parametrize(
+    "query,doc1,doc2,n_tokens",
+    [
+        ("Machine learning is", "A machine", "Learning is", 19),
+        ("Which city?", "Machine learning is ", "Paris, capitale de la", 26),
+    ]
+)
+def test_rerank_usage(query, doc1, doc2, n_tokens):
+    global server
+    server.start()
+
+    res = server.make_request("POST", "/rerank", data={
+        "query": query,
+        "documents": [
+            doc1,
+            doc2,
+        ]
+    })
+    assert res.status_code == 200
+    assert res.body['usage']['prompt_tokens'] == res.body['usage']['total_tokens']
+    assert res.body['usage']['prompt_tokens'] == n_tokens