ivdon3@bk.ru
В статье рассмотрены методы обнаружения выбросов, основанные на различных техниках машинного обучения: контролируемые (англ. supervised), неконтролируемые (англ. unsupervised), полуконтролируемые (англ. semi-supervised). Обозначены особенности применения тех или иных методов, указаны их достоинства и ограничения. Установлено, что не существует универсального способа обнаружения выбросов подходящего для различных данных, поэтому выбор того или иного конкретного метода для реализации исследований следует производить исходя из анализа преимуществ и ограничений присущих выбранному способу с обязательным учетом возможностей располагаемых вычислительных мощностей и характеристик имеющихся в наличии данных, в том числе включающих их классификацию на выбросы и нормальные данные, а также объем.
Ключевые слова: выбросы, машинное обучение, обнаружение выбросов, анализ данных, интеллектуальный анализ данных, большие данные, анализ главных компонент, регрессия, изолирующий лес, машина опорных векторов