Viedā LLM maršrutēšana
Daudzlīmeņu maršrutēšanas sistēma, kas automātiski izvēlas optimālo MI modeli katra uzdevuma sarežģītībai — ar nepārtrauktu jaunu modeļu novērtēšanu un resursu automātisko mērogošanu.
Ne katram vaicājumam ir nepieciešams jaudīgākais (un dārgākais) MI modelis. Vienkāršam e-pastam nepieciešams cits inteliģences līmenis nekā stratēģiskai analīzei valdei. Mūsu daudzlīmeņu maršrutēšanas sistēma automātiski klasificē katru uzdevumu un novirza to uz optimālo modeli — līdzsvarojot atbildes kvalitāti ar izmaksām. Mēs nepārtraukti testējam jaunus MI modeļus, kas parādās tirgū, un aizstājam tos, kad tie piedāvā labāku kvalitātes un cenas attiecību. Rezultāts: uzņēmumu līmeņa MI par daļu no izmaksām salīdzinājumā ar pieeju "vienmēr dārgākais modelis".
Vairāki līmeņi — no bezmaksas līdz premium
Maršrutēšanas sistēma aptver pilnu MI modeļu spektru: no bezmaksas atvērtā koda modeļiem, kas darbojas lokāli uz GPU serveriem, caur vidēja līmeņa mākoņa modeļiem līdz jaudīgākajiem komerciālajiem dzinējiem tirgū. Katram līmenim ir definēti parametri: izmaksas, maksimālais konteksts, atbildes laiks, argumentācijas spējas. Klasifikators analizē katru vaicājumu un piešķir to optimālajam līmenim — automātiski, bez lietotāja iejaukšanās.
Izmaksu optimizācija praksē
Tipiskā uzņēmuma scenārijā lielākā daļa vaicājumu ir vienkāršas operācijas (korespondences klasifikācija, datu izgūšana, šablonu atbildes), ko apstrādā ekonomiski vai bezmaksas lokālie modeļi. Mazāka daļa ir vidējas sarežģītības uzdevumi (dokumentu analīze, atskaišu ģenerēšana), kas tiek novirzīti uz vidēja līmeņa modeļiem. Tikai neliela procentuālā daļa ir patiesi sarežģīti uzdevumi (biznesa stratēģija, juridiskā analīze, sistēmu arhitektūra), kam nepieciešami premium modeļi. Tas samazina vidējās izmaksas par vaicājumu vairākas reizes salīdzinājumā ar viena dārgākā modeļa pieeju.
Nepārtraukta novērtēšana un modeļu nomaiņa
MI modeļu tirgus mainās dinamiski — jauni, labāki modeļi parādās ik pa dažām nedēļām. Maršrutēšanas arhitektūra darbojas kā abstrakcijas slānis: katrs līmenis definē prasības (piemēram, daudzsoļu argumentācijas spēja), nevis konkrētu modeli. Mēs nepārtraukti testējam jaunus modeļus un aizstājam tos, kad tie piedāvā labāku kvalitātes un cenas attiecību. Nevienam aģentam, nevienam vaicājumam, nevienai darbplūsmai nav nepieciešamas izmaiņas šādas nomaiņas laikā. Sistēma pati pielāgojas labākajām pieejamajām tehnoloģijām.
Automātiskā mērogošana un dinamiski GPU resursi
Palielinātas slodzes apstākļos sistēma automātiski mērogo skaitļošanas resursus. Mēs varam dinamiski savienot — drošā veidā — vairākus GPU nodrošinātājus, gan lokālus, gan mākoņa. Kad organizācijai nepieciešama lielāka jauda (piemēram, maksimālās slodzes stundās, masveida dokumentu apstrādē), sistēma automātiski palaiž papildu instances. Organizācijām, kas ir jutīgas pret izmaksām vai kurām ir datu rezidences prasības, mēs piedāvājam konfigurāciju, kas pilnībā balstīta uz lokālajiem modeļiem ar nulles API izmaksām — dati nekad nepamet klienta infrastruktūru.
Galvenie aspekti
- Daudzlīmeņu LLM maršrutēšana
- MI izmaksu samazinājums vairākas reizes
- Modeļu nomaiņa bez koda izmaiņām
- Nepārtraukta jaunu tirgus modeļu novērtēšana
- GPU resursu automātiskā mērogošana slodzes apstākļos
- Dinamiska vairāku GPU nodrošinātāju savienošana