Распознавание бренда одежды по изображению с использованием методов машинного обучения
Аннотация
Дата поступления статьи: 13.12.2023В статье рассматривается разработанная модель для распознавания бренда одежды по изображению. Модель не только прогнозирует тип и бренд одежды, но также может определять их схожесть. На первоначальном этапе был собран набор данных, содержащий изображения одежд различных брендов общим объемом 9000 изображений. В данной работе использовалась архитектура нейронной сети ViT (Vision Transformer) - модель для работы с изображениями, которая была представлена специалистами из Google Brain. В качестве представителя архитектуры трансформеров выступила модель vit-base-patch16-224. Перед обучением все изображения были преобразованы в черно-белый вид, а также была использована аугментация данных: поворот изображения на случайный угол, зеркальное преобразование. Все фотографии были нормализованы – координаты пикселей приведены к промежутку [0,1].
Ключевые слова: нейронная сеть, модель, машинное обучение, Vision Transformer, индустрия моды, предсказание бренда одежды, предсказание типа одежды, определение схожести брендов
.