Как работи дестилацията
Вместо обучение само на твърди етикети, моделът ученик е обучен да имитира меките разпределения на вероятностите на модела учител. Тези меки етикети са по-информативни от твърдите - разкриват вътрешната структура на знанията на учителя.
Приложения
Най-честото приложение е компресиране на LLM модели за внедряване. Дестилираните модели обикновено запазват 90%+ от производителността при малка част от изчислителните разходи. Особено ценно за крайни и мобилни приложения.
Ограничения
Съществуват ограничения за това колко един по-малък модел може да научи от по-голям. По-малкият дестилиран модел не може да прогнозира реални ситуации, невъзможни за учителя да представи в своите изходи.