ОБЗОР МЕТОДОВ ОЦЕНКИ ЕМКОСТИ МОДЕЛИ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ МАШИННОГО ОБУЧЕНИЯ

Аннотация: 
При обучении по прецедентам моделей машинного обучения исследователи сталкиваются с двумя явлениями: недообучением и переобучением. В первом случае недостаток свободных параметров алгоритма не позволяет воспроизвести генерирующее распределение вероятности, которому следуют примеры обучающей выборки. Во втором случае при избытке свободных параметров модель начинает воспроизводить не только восстанавливаемую зависимость, но и ошибки наблюдения, что приводит к потере способности модели к обобщению. Из этого делается вывод, что для всякой задачи существует оптимальная сложность модели, называемая емкостью, при которой достигается наилучшее качество обобщения. Начиная с 60-х годов было предложено несколько теорий оценки емкости различных задач. В данном обзоре рассматривается история данного вопроса, современное состояние области и основные достигнутые результаты.