Трансферно обучение

Как работи трансферното обучение

Вместо обучение на модел от нулата за всяка задача, трансферното обучение започва с предварително изграден модел, обучен на огромен корпус. Части от предварително изградения модел се запазват (улавяйки универсални представяния), добавят се нови специфични за задача слоеве и тези нови слоеве се настройват финно на специфични за задача данни.

Базови модели

Налични са много предварително изградени базови модели за трансферно обучение: езикови модели (BERT, GPT-2, Llama и техните наследници) за NLP задачи, модели за компютърно зрение (ResNet, EfficientNet) за зрителни задачи и мултимодални модели, работещи в множество модалности.

Практически ползи

Обикновено са необходими само хиляди специфични за задача данни, за да се настрои финно предварително изграден модел, за разлика от милиони, необходими за обучение от нулата. Това значително намалява бариерата за влизане за ML приложения, правейки ги осъществими за бизнеси и задачи без пълни ресурси за обучение.

Как работи трансферното обучение

Базови модели

Практически ползи

Свързани термини