Wat u krijgt

Slimme LLM-routing

Meerlaags routingsysteem dat automatisch het optimale AI-model selecteert voor de complexiteit van elke taak — met continue evaluatie van nieuwe modellen en automatische resourceschaling.

Niet elke vraag vereist het krachtigste (en duurste) AI-model. Een eenvoudige e-mail vereist een ander intelligentieniveau dan een strategische analyse voor de raad van bestuur. Ons meerlaags routingsysteem classificeert automatisch elke taak en leidt deze naar het optimale model — waarbij responskwaliteit en kosten in balans worden gebracht. Wij testen voortdurend nieuwe AI-modellen die op de markt verschijnen en wisselen ze in wanneer ze betere kwaliteit-prijsverhoudingen bieden. Het resultaat: enterprise AI tegen een fractie van de kosten van de "altijd het duurste model"-benadering.

Meerdere niveaus — van gratis tot premium

Het routingsysteem bestrijkt het volledige spectrum van AI-modellen: van gratis open-source modellen die lokaal op GPU-servers draaien, via middenklasse cloudmodellen, tot de krachtigste commerciële engines op de markt. Elk niveau heeft gedefinieerde parameters: kosten, maximale context, responstijd, redeneervermogens. De classifier analyseert elke vraag en wijst deze toe aan het optimale niveau — automatisch, zonder tussenkomst van de gebruiker.

Kostenoptimalisatie in de praktijk

In een typisch enterprise-scenario zijn de meeste vragen eenvoudige bewerkingen (correspondentieclassificatie, gegevensextractie, sjabloonantwoorden) die worden afgehandeld door zuinige of gratis lokale modellen. Een kleiner deel zijn taken van gemiddelde complexiteit (documentanalyse, rapportgeneratie) die naar middenklasse modellen worden geleid. Slechts een klein percentage zijn werkelijk complexe taken (bedrijfsstrategie, juridische analyse, systeemarchitectuur) waarvoor premiummodellen nodig zijn. Dit verlaagt de gemiddelde kosten per vraag meerdere keren in vergelijking met de benadering met één duurste model.

Continue evaluatie en modelwisseling

De AI-modelmarkt verandert dynamisch — elke paar weken verschijnen er nieuwe, betere modellen. De routingarchitectuur fungeert als abstractielaag: elk niveau definieert vereisten (bijv. meerlagig redeneervermogen), niet een specifiek model. Wij testen voortdurend nieuwe modellen en wisselen ze in wanneer ze betere kwaliteit-prijsverhoudingen bieden. Geen agent, geen prompt, geen workflow hoeft te worden gewijzigd tijdens zo'n wissel. Het systeem past zich zelf aan de best beschikbare technologieën aan.

Automatische schaling en dynamische GPU-resources

Bij verhoogde belasting schaalt het systeem automatisch de rekenresources. We kunnen dynamisch — op een veilige manier — meerdere GPU-providers aansluiten, zowel lokaal als cloudgebaseerd. Wanneer de organisatie meer rekenkracht nodig heeft (bijv. tijdens piekuren, massale documentverwerking), start het systeem automatisch extra instanties. Voor organisaties die gevoelig zijn voor kosten of vereisten voor gegevensresidentie hebben, bieden wij een configuratie volledig gebaseerd op lokale modellen tegen nul API-kosten — gegevens verlaten nooit de infrastructuur van de klant.

Belangrijkste kenmerken

  • Meerlagige LLM-routing
  • Meervoudige verlaging van AI-kosten
  • Modellen wisselen zonder codewijzigingen
  • Continue evaluatie van nieuwe marktmodellen
  • Automatische schaling van GPU-resources bij belasting
  • Dynamische aansluiting van meerdere GPU-providers