Дестилация на знания (Knowledge Distillation)

Knowledge distillation е техника, при която по-малък модел (ученик) е обучен да имитира по-голям модел (учител), прехвърляйки знания за изграждане на ефективни модели с подобна производителност.

Как работи дестилацията

Вместо обучение само на твърди етикети, моделът ученик е обучен да имитира меките разпределения на вероятностите на модела учител. Тези меки етикети са по-информативни от твърдите - разкриват вътрешната структура на знанията на учителя.

Приложения

Най-честото приложение е компресиране на LLM модели за внедряване. Дестилираните модели обикновено запазват 90%+ от производителността при малка част от изчислителните разходи. Особено ценно за крайни и мобилни приложения.

Ограничения

Съществуват ограничения за това колко един по-малък модел може да научи от по-голям. По-малкият дестилиран модел не може да прогнозира реални ситуации, невъзможни за учителя да представи в своите изходи.

Дестилация на знания (Knowledge Distillation)

Как работи дестилацията

Приложения

Ограничения

Свързани термини