ivdon3@bk.ru
В данной работе исследуются и сравниваются две нейронные сети - U-Net-Attention и SegGPT, использующие разные механизмы внимания, для поиска взаимосвязей между различными частями входных и выходных данных. Архитектура U-Net-Attention представляет собой нейросеть U-Net с дополнительным слоем внимания, данная нейросеть предназначена для сегментации изображений. Она имеет кодер и декодер, объединенные связями между слоями и связями, пропускающими скрытые слои, что позволяет передавать информацию о локальных свойствах карты признаков. Для улучшения качества сегментации в оригинальную архитектуру U-Net включен слой механизма внимания, который помогает усилить поиск интересующих нас признаков изображения. Модель SegGPT основана на архитектуре Visual Transformers и также использует механизм внимания. Обе модели обладают способностью фокусироваться на важных аспектах изображения и могут быть эффективными при решении различных задач. В работе производится сравнение их работы на примере сегментации трещин на изображениях дорожного полотна, для дальнейшей классификации состояния дорожного покрытия в целом. Таже произведен анализ и выводы о возможности использования архитектур Transformers для решения широкого спектра задач.
Ключевые слова: машинное обучение, нейронные сети Transformer, U-Net-Attention, SegGPT, анализ состояния дорожного полотна, компьютерное зрение
2.3.1 - Системный анализ, управление и обработка информации , 2.3.3 - Автоматизация и управление технологическими процессами и производствами
В данной статье описывается первый этап выполнения научно-исследовательской работы по разработке камеры на базе FPGA для задач идентификации транспортных средств, широко распространённых в автоматизированных пунктах весогабаритного контроля. Поскольку FPGA является альтернативой обычных процессоров, в особенности которой входит возможность выполнение нескольких задач параллельно, то камера оборудованная FPGA сможет выполнять функции обнаружения и идентификации транспортных средств одновременно. Таким образом, камера будет осуществлять не только передачу изображения, но и передачу результата обработки для проблемно-ориентированных систем управления, принятия решений и оптимизации обработки потока данных, после чего серверу будет необходимо только подтвердить или опровергнуть результаты работы камеры, что значительно снизит время обработки изображений со всех автоматизированных пунктов весогабаритного контроля. В ходе разработки была реализована простая плата VGA порта, программа статического изображения для вывода его на монитор в разращении 640х480, программа счётчика пикселей. В качестве FPGA используется EP4CE6E22C8, мощность которого для достижения результата более чем достаточно.
Ключевые слова: методы системного анализа, оптимизация, FPGA, VGA адаптер, Verilog, Камера для распознавания, разработка платы, обработка информации, статистика