11. september 2025Dansk

En omfattende guide til API rate limiting ved hjælp af Token Bucket-algoritmen, inklusiv implementeringsdetaljer og overvejelser for globale applikationer.

API Rate Limiting: Implementering af Token Bucket-algoritmen

I nutidens forbundne verden er API'er (Application Programming Interfaces) rygraden i utallige applikationer og tjenester. De gør det muligt for forskellige softwaresystemer at kommunikere og udveksle data problemfrit. Men API'ers popularitet og tilgængelighed udsætter dem også for potentielt misbrug og overbelastning. Uden passende sikkerhedsforanstaltninger kan API'er blive sårbare over for denial-of-service (DoS) angreb, ressourceudtømning og generel forringelse af ydeevnen. Det er her, API rate limiting kommer ind i billedet.

Rate limiting er en afgørende teknik til at beskytte API'er ved at kontrollere antallet af anmodninger, en klient kan foretage inden for en bestemt tidsperiode. Det hjælper med at sikre fair brug, forhindre misbrug og opretholde API'ens stabilitet og tilgængelighed for alle brugere. Der findes forskellige algoritmer til implementering af rate limiting, og en af de mest populære og effektive er Token Bucket-algoritmen.

Hvad er Token Bucket-algoritmen?

Token Bucket-algoritmen er en konceptuelt simpel, men kraftfuld algoritme til rate limiting. Forestil dig en spand, der kan indeholde et bestemt antal tokens. Tokens tilføjes til spanden med en foruddefineret hastighed. Hver indkommende API-anmodning bruger ét token fra spanden. Hvis spanden har nok tokens, får anmodningen lov til at fortsætte. Hvis spanden er tom (dvs. ingen tilgængelige tokens), bliver anmodningen enten afvist eller sat i kø, indtil et token bliver tilgængeligt.

Her er en oversigt over de vigtigste komponenter:

Spandstørrelse (Kapacitet): Det maksimale antal tokens, spanden kan indeholde. Dette repræsenterer burst-kapaciteten – evnen til at håndtere en pludselig bølge af anmodninger.
Genopfyldningsrate for tokens: Den hastighed, hvormed tokens tilføjes til spanden, typisk målt i tokens pr. sekund eller tokens pr. minut. Dette definerer den gennemsnitlige rate limit.
Anmodning: En indkommende API-anmodning.

Sådan virker den:

Når en anmodning ankommer, tjekker algoritmen, om der er nogen tokens i spanden.
Hvis spanden indeholder mindst ét token, fjerner algoritmen et token og lader anmodningen fortsætte.
Hvis spanden er tom, afviser eller sætter algoritmen anmodningen i kø.
Tokens tilføjes til spanden med den foruddefinerede genopfyldningsrate, op til spandens maksimale kapacitet.

Hvorfor vælge Token Bucket-algoritmen?

Token Bucket-algoritmen tilbyder adskillige fordele i forhold til andre rate limiting-teknikker, såsom tællere med fast vindue eller tællere med glidende vindue:

Burst-kapacitet: Den tillader bølger af anmodninger op til spandens størrelse, hvilket imødekommer legitime brugsmønstre, der kan involvere lejlighedsvise trafikspidser.
Jævn Rate Limiting: Genopfyldningsraten sikrer, at den gennemsnitlige anmodningsrate holder sig inden for de definerede grænser, hvilket forhindrer vedvarende overbelastning.
Konfigurerbarhed: Spandstørrelsen og genopfyldningsraten kan let justeres for at finjustere rate limiting-adfærden for forskellige API'er eller brugerniveauer.
Enkelhed: Algoritmen er relativt enkel at forstå og implementere, hvilket gør den til et praktisk valg i mange scenarier.
Fleksibilitet: Den kan tilpasses forskellige brugssituationer, herunder rate limiting baseret på IP-adresse, bruger-ID, API-nøgle eller andre kriterier.

Implementeringsdetaljer

Implementering af Token Bucket-algoritmen indebærer at styre spandens tilstand (nuværende antal tokens og seneste opdateringstidspunkt) og anvende logikken til at håndtere indkommende anmodninger. Her er en konceptuel oversigt over implementeringstrinene:

Initialisering:
- Opret en datastruktur til at repræsentere spanden, som typisk indeholder:
- `tokens`: Det nuværende antal tokens i spanden (initialiseret til spandstørrelsen).
- `last_refill`: Tidsstemplet for sidste gang, spanden blev genopfyldt.
- `bucket_size`: Det maksimale antal tokens, spanden kan indeholde.
- `refill_rate`: Den hastighed, hvormed tokens tilføjes til spanden (f.eks. tokens pr. sekund).
Håndtering af anmodninger:
- Når en anmodning ankommer, hent spanden for klienten (f.eks. baseret på IP-adresse eller API-nøgle). Hvis spanden ikke eksisterer, opret en ny.
- Beregn antallet af tokens, der skal tilføjes til spanden siden sidste genopfyldning:
- `time_elapsed = current_time - last_refill`
- `tokens_to_add = time_elapsed * refill_rate`
- Opdater spanden:
- `tokens = min(bucket_size, tokens + tokens_to_add)` (Sørg for, at antallet af tokens ikke overstiger spandstørrelsen)
- `last_refill = current_time`
- Tjek, om der er nok tokens i spanden til at servicere anmodningen:
- Hvis `tokens >= 1`:
  - Reducer antallet af tokens: `tokens = tokens - 1`
  - Tillad anmodningen at fortsætte.
- Ellers (hvis `tokens < 1`):
  - Afvis eller sæt anmodningen i kø.
  - Returner en fejl om overskredet rate limit (f.eks. HTTP-statuskode 429 Too Many Requests).
- Gem den opdaterede spandtilstand (f.eks. i en database eller cache).

Eksempel på implementering (Konceptuel)

Her er et forenklet, konceptuelt eksempel (ikke sprogspecifikt) for at illustrere de vigtigste trin:


class TokenBucket:
    def __init__(self, bucket_size, refill_rate):
        self.bucket_size = bucket_size
        self.refill_rate = refill_rate  # tokens pr. sekund
        self.tokens = bucket_size
        self.last_refill = time.time()

    def consume(self, tokens_to_consume=1):
        self._refill()
        if self.tokens >= tokens_to_consume:
            self.tokens -= tokens_to_consume
            return True  # Anmodning tilladt
        else:
            return False # Anmodning afvist (rate limit overskredet)

    def _refill(self):
        now = time.time()
        time_elapsed = now - self.last_refill
        tokens_to_add = time_elapsed * self.refill_rate
        self.tokens = min(self.bucket_size, self.tokens + tokens_to_add)
        self.last_refill = now

# Eksempel på brug:
bucket = TokenBucket(bucket_size=10, refill_rate=2)  # Spand på 10, genopfyldes med 2 tokens pr. sekund

if bucket.consume():
    # Behandl anmodningen
    print("Anmodning tilladt")
else:
    # Rate limit overskredet
    print("Rate limit overskredet")

Bemærk: Dette er et grundlæggende eksempel. En produktionsklar implementering ville kræve håndtering af samtidighed, persistens og fejlhåndtering.

Valg af de rette parametre: Spandstørrelse og Genopfyldningsrate

Valg af passende værdier for spandstørrelsen og genopfyldningsraten er afgørende for effektiv rate limiting. De optimale værdier afhænger af den specifikke API, dens tilsigtede anvendelsesformål og det ønskede beskyttelsesniveau.

Spandstørrelse: En større spandstørrelse giver mulighed for større burst-kapacitet. Dette kan være en fordel for API'er, der oplever lejlighedsvise trafikspidser, eller hvor brugere legitimt har brug for at foretage en række hurtige anmodninger. En meget stor spandstørrelse kan dog modvirke formålet med rate limiting ved at tillade længere perioder med høj volumen. Overvej dine brugeres typiske burst-mønstre, når du bestemmer spandstørrelsen. For eksempel kan en API til billedredigering have brug for en større spand for at lade brugere uploade en række billeder hurtigt.
Genopfyldningsrate: Genopfyldningsraten bestemmer den gennemsnitlige anmodningsrate, der er tilladt. En højere genopfyldningsrate tillader flere anmodninger pr. tidsenhed, mens en lavere genopfyldningsrate er mere restriktiv. Genopfyldningsraten bør vælges baseret på API'ens kapacitet og det ønskede niveau af retfærdighed blandt brugerne. Hvis din API er ressourcekrævende, vil du have en lavere genopfyldningsrate. Overvej også forskellige brugerniveauer; premium-brugere kan få en højere genopfyldningsrate end gratis brugere.

Eksempler på scenarier:

Offentlig API for en social medieplatform: En mindre spandstørrelse (f.eks. 10-20 anmodninger) og en moderat genopfyldningsrate (f.eks. 2-5 anmodninger pr. sekund) kan være passende for at forhindre misbrug og sikre fair adgang for alle brugere.
Intern API for kommunikation mellem microservices: En større spandstørrelse (f.eks. 50-100 anmodninger) og en højere genopfyldningsrate (f.eks. 10-20 anmodninger pr. sekund) kan være egnet, forudsat at det interne netværk er relativt pålideligt, og microservices har tilstrækkelig kapacitet.
API for en betalingsgateway: En mindre spandstørrelse (f.eks. 5-10 anmodninger) og en lavere genopfyldningsrate (f.eks. 1-2 anmodninger pr. sekund) er afgørende for at beskytte mod svindel og forhindre uautoriserede transaktioner.

Iterativ tilgang: Start med fornuftige startværdier for spandstørrelsen og genopfyldningsraten, og overvåg derefter API'ens ydeevne og brugsmønstre. Juster parametrene efter behov baseret på data fra den virkelige verden og feedback.

Lagring af spandens tilstand

Token Bucket-algoritmen kræver vedvarende lagring af hver spands tilstand (antal tokens og seneste genopfyldningstidspunkt). Valg af den rigtige lagringsmekanisme er afgørende for ydeevne og skalerbarhed.

Almindelige lagringsmuligheder:

In-Memory Cache (f.eks. Redis, Memcached): Tilbyder den hurtigste ydeevne, da data lagres i hukommelsen. Velegnet til API'er med høj trafik, hvor lav latenstid er kritisk. Data går dog tabt, hvis cache-serveren genstarter, så overvej at bruge replikering eller persistensmekanismer.
Relationel database (f.eks. PostgreSQL, MySQL): Giver holdbarhed og konsistens. Velegnet til API'er, hvor dataintegritet er altafgørende. Databaseoperationer kan dog være langsommere end in-memory cache-operationer, så optimer forespørgsler og brug caching-lag, hvor det er muligt.
NoSQL-database (f.eks. Cassandra, MongoDB): Tilbyder skalerbarhed og fleksibilitet. Velegnet til API'er med meget høje anmodningsvolumener, eller hvor dataskemaet udvikler sig.

Overvejelser:

Ydeevne: Vælg en lagringsmekanisme, der kan håndtere den forventede læse- og skrivebelastning med lav latenstid.
Skalerbarhed: Sørg for, at lagringsmekanismen kan skalere horisontalt for at imødekomme stigende trafik.
Holdbarhed: Overvej konsekvenserne af datatab for de forskellige lagringsmuligheder.
Omkostninger: Evaluer omkostningerne ved forskellige lagringsløsninger.

Håndtering af hændelser ved overskredet Rate Limit

Når en klient overskrider sin rate limit, er det vigtigt at håndtere hændelsen elegant og give informativ feedback.

Bedste praksis:

HTTP-statuskode: Returner den standardiserede HTTP-statuskode 429 Too Many Requests.
Retry-After Header: Inkluder `Retry-After`-headeren i svaret, som angiver det antal sekunder, klienten skal vente, før den foretager en ny anmodning. Dette hjælper klienter med at undgå at overvælde API'en med gentagne anmodninger.
Informativ fejlmeddelelse: Giv en klar og koncis fejlmeddelelse, der forklarer, at rate limit er overskredet, og foreslår, hvordan problemet kan løses (f.eks. vent, før du prøver igen).
Logning og overvågning: Log hændelser, hvor rate limit overskrides, til overvågning og analyse. Dette kan hjælpe med at identificere potentielt misbrug eller forkert konfigurerede klienter.

Eksempel på svar:


HTTP/1.1 429 Too Many Requests
Content-Type: application/json
Retry-After: 60

{
  "error": "Rate limit overskredet. Vent venligst 60 sekunder, før du prøver igen."
}

Avancerede overvejelser

Ud over den grundlæggende implementering kan flere avancerede overvejelser yderligere forbedre effektiviteten og fleksibiliteten af API rate limiting.

Niveaudelt Rate Limiting: Implementer forskellige rate limits for forskellige brugerniveauer (f.eks. gratis, basis, premium). Dette giver dig mulighed for at tilbyde varierende serviceniveauer baseret på abonnementsplaner eller andre kriterier. Gem oplysninger om brugerniveau sammen med spanden for at anvende de korrekte rate limits.
Dynamisk Rate Limiting: Juster rate limits dynamisk baseret på systembelastning i realtid eller andre faktorer. For eksempel kan du reducere genopfyldningsraten i spidsbelastningsperioder for at forhindre overbelastning. Dette kræver overvågning af systemets ydeevne og tilsvarende justering af rate limits.
Distribueret Rate Limiting: I et distribueret miljø med flere API-servere skal du implementere en distribueret rate limiting-løsning for at sikre konsistent rate limiting på tværs af alle servere. Brug en delt lagringsmekanisme (f.eks. Redis-klynge) og konsistent hashing til at distribuere spandene på tværs af serverne.
Granulær Rate Limiting: Anvend forskellige rate limits på forskellige API-endepunkter eller ressourcer baseret på deres kompleksitet og ressourceforbrug. For eksempel kan et simpelt skrivebeskyttet endepunkt have en højere rate limit end en kompleks skriveoperation.
IP-baseret vs. Brugerbaseret Rate Limiting: Overvej kompromiserne mellem rate limiting baseret på IP-adresse og rate limiting baseret på bruger-ID eller API-nøgle. IP-baseret rate limiting kan være effektivt til at blokere ondsindet trafik fra specifikke kilder, men det kan også påvirke legitime brugere, der deler en IP-adresse (f.eks. brugere bag en NAT-gateway). Brugerbaseret rate limiting giver mere præcis kontrol over individuelle brugeres forbrug. En kombination af begge kan være optimal.
Integration med API Gateway: Udnyt rate limiting-funktionerne i din API-gateway (f.eks. Kong, Tyk, Apigee) for at forenkle implementering og administration. API-gateways tilbyder ofte indbyggede rate limiting-funktioner og giver dig mulighed for at konfigurere rate limits via en centraliseret grænseflade.

Globalt perspektiv på Rate Limiting

Når du designer og implementerer API rate limiting for et globalt publikum, skal du overveje følgende:

Tidszoner: Vær opmærksom på forskellige tidszoner, når du indstiller genopfyldningsintervaller. Overvej at bruge UTC-tidsstempler for konsistens.
Netværkslatens: Netværkslatens kan variere betydeligt på tværs af forskellige regioner. Tag højde for potentiel latenstid, når du indstiller rate limits, for at undgå utilsigtet at straffe brugere på fjerntliggende steder.
Regionale regulativer: Vær opmærksom på eventuelle regionale regulativer eller overholdelseskrav, der kan påvirke API-brug. For eksempel kan nogle regioner have love om databeskyttelse, der begrænser mængden af data, der kan indsamles eller behandles.
Content Delivery Networks (CDN'er): Brug CDN'er til at distribuere API-indhold og reducere latenstid for brugere i forskellige regioner.
Sprog og lokalisering: Tilbyd fejlmeddelelser og dokumentation på flere sprog for at imødekomme et globalt publikum.

Konklusion

API rate limiting er en essentiel praksis for at beskytte API'er mod misbrug og sikre deres stabilitet og tilgængelighed. Token Bucket-algoritmen tilbyder en fleksibel og effektiv løsning til implementering af rate limiting i forskellige scenarier. Ved omhyggeligt at vælge spandstørrelse og genopfyldningsrate, lagre spandens tilstand effektivt og håndtere hændelser ved overskredet rate limit elegant, kan du skabe et robust og skalerbart rate limiting-system, der beskytter dine API'er og giver en positiv brugeroplevelse for dit globale publikum. Husk løbende at overvåge din API-brug og justere dine rate limiting-parametre efter behov for at tilpasse dig skiftende trafikmønstre og sikkerhedstrusler.

Ved at forstå principperne og implementeringsdetaljerne i Token Bucket-algoritmen kan du effektivt beskytte dine API'er og bygge pålidelige og skalerbare applikationer, der betjener brugere over hele verden.