add dissertation
This commit is contained in:
1
dissertation/_media/readme.md
Normal file
1
dissertation/_media/readme.md
Normal file
@@ -0,0 +1 @@
|
|||||||
|
Здесь хранятся медиафайлы (картинки, схемы)
|
||||||
124
dissertation/chapter_1/_temp_full_content.md
Normal file
124
dissertation/chapter_1/_temp_full_content.md
Normal file
@@ -0,0 +1,124 @@
|
|||||||
|
|
||||||
|
1.1 Задача возврата в точку старта в системах навигации БПЛА
|
||||||
|
|
||||||
|
Классическая навигация БПЛА основана на данных инерциальной навигационной системы (ИНС), спутниковых приёмников и, при необходимости, барометрических и радиотехнических средств. Такие комплексы обеспечивают приемлемую точность в стандартных условиях, но становятся уязвимыми при глушении или маскировании навигационных сигналов, а также при полётах в помещениях, городских «каньонах» и под навесами, где спутниковые сигналы физически недоступны.
|
||||||
|
В ответ на эти ограничения активно развиваются альтернативные средства навигации, в частности оптико‑электронные системы, использующие бортовую видеокамеру и корреляционную обработку изображений. Для малых БПЛА особое значение имеют вычислительные и массогабаритные ограничения, что требует применения алгоритмов с невысокой вычислительной сложностью и малым объёмом памяти при сохранении требуемой точности позиционирования.
|
||||||
|
В этом контексте отдельный интерес представляет задача возврата аппарата в начальную точку полёта в условиях отсутствия внешних навигационных сигналов. Типичный сценарий выглядит следующим образом: на этапе прямого полёта от старта к целевой области бортовая система формирует некоторое эталонное представление маршрута (последовательность кадров, фрагменты карты местности, 3D‑модель), а при потере внешней навигации или по команде оператора активируется режим автономного возврата. В этом режиме по текущему видеопотоку и частично известной карте необходимо корректировать курс и ориентирование БПЛА таким образом, чтобы аппарат вновь оказался в окрестности точки старта с допустимой погрешностью по координатам.
|
||||||
|
Рассмотрим типичный сценарий, лежащий в основе постановки данной работы:
|
||||||
|
Этап полёта «туда»: БПЛА стартует из начальной позиции p_0 и летит к целевой области. На этом этапе система сохраняет информацию о пройденном маршруте (последовательность видеокадров, карта местности или набор 3D-признаков). Спутниковая навигация доступна или используется периодически.
|
||||||
|
Потеря внешней навигации: при достижении целевой области БПЛА теряет спутниковый сигнал (или оператор отключает его по команде) либо входит в режим автономного полёта, когда внешняя связь перестаёт быть достоверным источником информации.
|
||||||
|
Режим возврата: активируется режим автономного возврата, в котором БПЛА должен вернуться в исходную позицию p_0 с минимальной ошибкой, опираясь только на данные бортовой видеокамеры (нижняя ориентация, смотрит вертикально вниз), ранее накопленную информацию о маршруте (карта или видеопоследовательность), при необходимости данные ИНС (гироскопы, акселерометры).
|
||||||
|
В литературе выделяются несколько направлений, в рамках которых рассматривается подобная постановка. К ним относятся методы на основе визуальной одометрии и SLAM, в которых построение карты и локализация выполняются совместно в процессе полёта, алгоритмы корреляционно‑экстремальной навигации по заранее подготовленным или формируемым во время полета эталонным картам, а также специализированные алгоритмы сопоставления видеопоследовательностей «туда» и «обратно», ориентированные непосредственно на реализацию режима «возврат в точку старта» [3].
|
||||||
|
В данной главе рассматриваются основные из этих подходов, анализируются их достоинства и ограничения применительно к малым БПЛА, а также формулируются требования к алгоритмам, ориентированным на работу в условиях ограниченных вычислительных ресурсов и возможного рассогласования между эталонной картой и текущими наблюдениями. Подробная формальная постановка задачи и выбор конкретных методов решения приводятся во второй главе.
|
||||||
|
|
||||||
|
1.2 Классификация методов навигации БПЛА
|
||||||
|
|
||||||
|
С точки зрения используемых источников информации и постановки задачи возврата в исходную точку навигационные алгоритмы для БПЛА можно условно разбить на несколько групп [1]:
|
||||||
|
интегрированные ИНС + спутниковые системы (GPS/ГЛОНАСС): используют данные инерциальной навигационной системы, корректируемые спутниковыми измерениями; возврат в точку старта в этом случае сводится к следованию по заранее вычисленной траектории в глобальных координатах, но система полностью теряет устойчивость при глушении/маскировании спутниковых сигналов [8];
|
||||||
|
визуальные и визуально‑инерциальные системы (VO/VIO): оценивают траекторию и ориентацию по видеопотоку и данным IMU, в ряде случаев строя карту окружающего пространства; могут обеспечивать возврат по оценённой траектории или по ранее построенной карте [15];
|
||||||
|
корреляционно‑экстремальные навигационные системы (КЭНС): используют сопоставление текущих изображений с эталонной цифровой картой (2D или 3D) для коррекции ИНС и реализации возврата по видовой информации; позволяют работать даже при сильных ограничениях на вычислительные ресурсы [3].
|
||||||
|
Специализированные алгоритмы «возврата по видео» сравнивают текущую видеопоследовательность с ранее записанной при полёте по маршруту «туда» и по максимуму меры сходства определяют положение БПЛА вдоль маршрута и направление движения к старту.
|
||||||
|
Для каждой группы используются свои ключевые метрики: для VO/VIO – ошибки траектории (ATE/RPE), для КЭНС — точность привязки к карте и время обработки кадра, для алгоритмов возврата — погрешность конечного положения относительно точки старта и вероятность успешного завершения возврата.
|
||||||
|
|
||||||
|
1.3 Интегрированные инерциально‑спутниковые навигационные системы
|
||||||
|
|
||||||
|
Интегрированные инерциально‑спутниковые навигационные комплексы (ИНС/ГНСС) являются классическим и наиболее распространённым решением для навигации БПЛА, на которое опираются как серийные автопилоты, так и специализированные системы управления полётом. В типичном случае такой комплекс включает инерциальный модуль (акселерометры и гироскопы, часто в составе МЭМС‑IMU), приёмник глобальной навигационной спутниковой системы (GPS/ГЛОНАСС и др.), а также барометрический высотомер и магнитометр, которые используются для уточнения высоты и курса. Инерциальная система обеспечивает высокочастотное счисление пути — оценку координат, скорости и ориентации путём интегрирования измеренных ускорений и угловых скоростей, тогда как ГНСС выдаёт абсолютные координаты и скорость в глобальной системе, компенсируя накопление ошибок ИНС на длинных интервалах времени.
|
||||||
|
Поскольку автономная ИНС подвержена дрейфу из‑за шума и систематических смещений датчиков, в интегрированных комплексах применяется алгоритмическая «сшивка» двух подсистем, чаще всего на основе расширенного фильтра Калмана или близких к нему рекуррентных оценивателей. В рамках такой фильтрационной схемы инерциальная часть играет роль модели движения (прогноза), а спутниковые измерения рассматриваются как внешние наблюдения, периодически корректирующие состояние фильтра и тем самым ограничивающие рост погрешности. На практике используются различные варианты интеграции – от «слабосвязанной», когда в фильтр поступает уже вычисленное решением ГНСС положение, до более тесной, где обрабатываются сырые псевдодальности и доплеровские измерения; при этом для малых БПЛА обычно выбирают схемы, обеспечивающие приемлемый компромисс между точностью и вычислительной сложностью.
|
||||||
|
В контексте задачи возврата в точку старта интегрированная система ИНС/ГНСС позволяет на участке от взлёта до целевой области формировать траекторию полёта в глобальных координатах и запоминать положение начальной точки. При наличии устойчивого спутникового сигнала возврат реализуется в виде режима, аналогичного режиму Return‑to‑Home в коммерческих автопилотах: бортовой контроллер либо следует по заранее заданному маршруту в обратном направлении, либо строит прямую траекторию к сохранённым координатам точки старта, используя текущие оценки положения и ориентации от интегрированного навигационного комплекса. Кратковременные выпадения или ухудшение качества ГНСС‑сигнала (затенение антенны, частичные помехи) в этом случае «переживаются» за счёт инерциальной части системы: ИНС обеспечивает непрерывность навигационного решения между обновлениями от спутников и предотвращает резкие скачки координат.
|
||||||
|
Однако в условиях, представляющих наибольший интерес для данной работы, — полётах в городских «каньонах», в помещениях, под перекрытиями, а также в зонах радиоэлектронного подавления — интегрированные ИНС/ГНСС‑комплексы демонстрируют принципиальные ограничения. При полном отсутствии или сильной деградации спутниковых сигналов навигационное решение фактически сводится к автономной ИНС: ошибка положения начинает расти во времени, и уже через относительно короткий промежуток полёта погрешности достигают величин, сопоставимых или превышающих допустимый радиус зоны возврата. Дополнительно на точность влияют многолучёвость и отражения сигналов в городской застройке, возможные атаки типа спуфинга и глушения, а также массогабаритные и энергетические ограничения малых БПЛА, не позволяющие использовать высокоточные (и дорогостоящие) инерциальные датчики и профессиональные ГНСС‑приёмники.
|
||||||
|
В результатe интегрированные ИНС/ГНСС‑системы обеспечивают надёжный и технологически отработанный механизм навигации и возврата в точку старта при наличии работоспособного спутникового канала, однако оказываются недостаточными в сценариях, где этот канал временно или полностью недоступен. Именно поэтому в современных исследованиях всё большее внимание уделяется альтернативным подходам — визуальной и визуально‑инерциальной одометрии, а также корреляционно‑экстремальной навигации по видовой информации, которые потенциально позволяют реализовать режим возврата в точку старта при отсутствии GPS/ГЛОНАСС и рассматриваются в последующих подпунктах обзора.
|
||||||
|
|
||||||
|
1.4 Визуальная и визуально-инерциальная одометрия для автономной навигации
|
||||||
|
|
||||||
|
Визуальная одометрия (VO) и визуально‑инерциальная одометрия (VIO) решают задачу оценивания траектории носителя по последовательности изображений и данным ИНС, используя методы извлечения и сопоставления признаков, построения карт и оптимизационной фильтрации.
|
||||||
|
Примером аппаратно ориентированного VIO‑решения является чип «Navion», представляющий собой энергоэффективный ускоритель визуально‑инерциальной одометрии для автономной навигации нано‑дронов [19]. В «Navion» вся VIO‑цепочка реализована на специализированной ASIC‑микросхеме: фронтенд обрабатывает моно-изображения или стереоизображения (детекция углов Харриса, трекинг по Лукасу–Канаде, стерео-сопоставление), а инерциальный фронтенд выполняет предварительное интегрирование данных IMU; на бэкенде решается нелинейная задача минимизации на фактор‑графе для оценки траектории и разреженной 3D‑карты.
|
||||||
|
Для уменьшения энергопотребления и объёма памяти в «Navion» используются сжатие изображений с блочно‑пороговой квантизацией, разрежённые структуры для хранения треков признаков и разрежённые представления матрицы Гессе в линейном решателе. Это позволяет обрабатывать стереокадры разрешения 752×480 с частотой до сотен кадров в секунду при средней потребляемой мощности порядка десятков милливатт, обеспечивая при этом среднюю ошибку траектории менее процента на сложных наборах данных для мультикоптеров. Такой подход демонстрирует, что VIO‑алгоритмы могут быть реализованы на бортовой аппаратуре малых БПЛА при строгих ограничениях по ресурсоёмкости.
|
||||||
|
Отдельный класс решений составляют фильтрационные VIO‑алгоритмы, в которых оценивание состояния (координаты, скорость, ориентация, смещения датчиков) выполняется с помощью расширенного фильтра Калмана или его модификаций [15]. В работе SP‑VIO предлагается фильтрационный VIO‑алгоритм, ориентированный на миниатюрные робототехнические платформы и условия деградации визуальной информации.
|
||||||
|
Авторы SP‑VIO показывают недостатки традиционных фильтров (например, MSCKF): накопление ошибок и проблемы с учётом наблюдаемости. Для решения используется двойная трансформация состояния (DST‑EKF) с улучшенной моделью визуальных измерений, которая полностью разделяет ошибки скорости/положения и визуальные остатки.
|
||||||
|
На популярных публичных датасетах (EuRoC, Tum‑VI, KITTI) SP‑VIO демонстрирует более низкую среднеквадратическую ошибку траектории по сравнению с рядом современных VIO‑алгоритмов (VINS‑Mono, OpenVINS и др.) при сопоставимой или лучшей вычислительной эффективности. Дополнительно реализована стратегия сглаживания траектории DST‑RTS, позволяющая существенно уменьшить накопленную ошибку при длительных потерях визуальных наблюдений и тем самым повысить робастность навигации в условиях временных «провалов» видеосигнала.
|
||||||
|
Для решаемой в диссертации задачи возврата в точку старта результаты по VIO показывают, что визуально‑инерциальные алгоритмы могут обеспечить высокоточную оценку траектории и ориентации БПЛА, однако они, как правило, ориентированы на локальную непрерывную оценку положения, а не на специальную цель прохождения замкнутого маршрута с минимальной ошибкой в конечной точке. Кроме того, полноценные VIO‑системы при высокой точности могут быть избыточно ресурсоёмкими для лёгких бортовых вычислителей малых БПЛА.
|
||||||
|
|
||||||
|
1.5 Корреляционные методы навигации по видовой информации
|
||||||
|
|
||||||
|
Корреляционно‑экстремальные навигационные системы используют сопоставление текущих изображений с эталонной картой или 3D‑моделью местности для коррекции дрейфа ИНС и решения задач типа «вернуться в уже посещённую область». В ряде современных работ эталонная карта строится по данным оптико‑электронной системы в процессе предварительного облёта, после чего в полёте БПЛА периодически сравнивает текущий вид с фрагментами этой карты и уточняет свои координаты.
|
||||||
|
В исследовании Беляева и Зикратова имитируется ситуация, когда эталонная карта и искомая область получены из разных источников (например, спутниковые снимки и бортовая видеокамера) и существенно различаются по текстуре и освещённости [2]. Для таких условий сравниваются:
|
||||||
|
автокорреляционная функция;
|
||||||
|
коэффициент корреляции Пирсона;
|
||||||
|
индекс структурного сходства SSIM;
|
||||||
|
простая нейронная сеть‑перцептрон.
|
||||||
|
Используются различные стратегии обхода карты (прямой проход, проход с перекрытием, по спирали, случайный), а метриками служат время полного обхода для заданного размера окна и успешность нахождения целевой области на зашумлённых и искажённых примерах. Вывод работы состоит в том, что автокорреляционный подход при правильном выборе шага обхода и размера окна позволяет удовлетворить ограничения по времени, оставаясь при этом достаточно точным и устойчивым к различным искажениям, что делает его хорошей основой для визуальной коррекции курса при возврате.
|
||||||
|
В серии работ по оптико‑электронным ыкорреляционно‑экстремальным системам малого БПЛА также показывается, что при разумных ограничениях на высоту, скорость и частоту съёмки возможно достигать приемлемой точности определения координат по цифровой модели местности, построенной заранее или в ходе облёта. Такие системы непосредственно решают задачу поддержания заданного маршрута и коррекции навигации, включая фазу возврата в исходную точку, и могут работать как в полностью автономном, так и в полуавтономном режимах.
|
||||||
|
Особое место занимают работы, где целью явно объявляется возврат БПЛА в точку старта по данным бортовой видеокамеры. В одной из таких статей маршрут от старта до момента потери спутниковой навигации используется для построения глобальной карты в системе географических координат, после чего возврат выполняется за счёт локализации по ранее построенной карте без её дальнейшего расширения; в экспериментах на квадрокоптере «DJI Phantom 3 Pro» авторы демонстрируют устойчивое возвращение в окрестность исходной точки. В другой работе предлагается сопоставление текущих кадров при полёте «домой» с кадрами, ранее записанными при полёте «туда», с использованием меры сходства по яркостным и текстурным признакам, что позволяет оценивать смещение вдоль маршрута и корректировать курс даже без явной 3D‑карты.
|
||||||
|
Эти примеры показывают, что корреляционно‑экстремальные методы и сопоставление видеопоследовательностей дают практически применимые решения задачи возврата в точку старта, которые могут быть реализованы на коммерческих БПЛА при относительно умеренных требованиях к вычислительным ресурсам.
|
||||||
|
Альтернативой сложным VIO‑алгоритмам для малых БПЛА являются корреляционно‑экстремальные методы, сопоставляющие текущие изображения местности с эталонной цифровой картой или ранее накопленной видеопоследовательностью. Такие методы особенно удобны в сценариях, когда доступна карта маршрута или имеется возможность сформировать эталонную базу изображений на этапе прямого полёта (предварительный облёт, съёмка при наличии GPS и т.п.).
|
||||||
|
В простейшем случае эталонная карта представляется в виде двумерного массива яркостей I_{\mathrm{ref}}(x,y), а текущий кадр бортовой камеры — как фрагмент I_{\mathrm{cur}}(u,v), соответствующий некоторой неизвестной области карты. Задача навигации сводится к поиску таких сдвигов (\Delta x,\Delta y), при которых мера сходства между I_{\mathrm{cur}} и соответствующим окном карты I_{\mathrm{ref}}(x+\Delta x,y+\Delta y) максимальна.
|
||||||
|
В работе, посвящённой исследованию автономной навигации БПЛА на основе корреляционных методов сравнения изображений, рассматривается задача поиска области соответствия между двумя изображениями одного и того же участка местности, полученными из разных источников и отличающимися по шуму, освещённости и деталям. В качестве эталона используется «карта» местности, а в качестве текущего наблюдения — искомая область, которая может быть зашумлена, затемнена или искажена; различие источников моделирует эффект смены домена между, например, спутниковыми и бортовыми изображениями.
|
||||||
|
Рассматриваются несколько базовых метрик сходства. Для двух окон изображений X={x_i} и Y={y_i} (последовательно взятые пиксели) автокорреляционная функция и коэффициент корреляции Пирсона записываются как
|
||||||
|
R_{XY}=\sum_{i}\hairsp(x_i-x)(yi-y),ρXY=i (xi-x)(yi-y)i (xi-x)2 i (yi-y)2,
|
||||||
|
где x,y — средние значения яркости в окнах. Индекс структурного сходства SSIM оценивает сходство по яркости, контрасту и структуре и обычно записывается в виде
|
||||||
|
SSIM(X,Y)=\frac{(2\mu_X\mu_Y+C_1)(2\sigma_{XY}+C_2)}{(\mu_X^2+\mu_Y^2+C_1)(\sigma_X^2+\sigma_Y^2+C_2)},
|
||||||
|
где \mu_X,\mu_Y — средние значения, \sigma_X^2,\sigma_Y^2 — дисперсии, \sigma_{XY} — ковариация, C_1,C_2 – малые постоянные для стабилизации.
|
||||||
|
В указанной работе систематически сравниваются автокорреляционная функция, коэффициент корреляции Пирсона, индекс структурного сходства SSIM и простая нейросетевая модель‑перцептрон, применяемые в режиме «скользящего окна» по эталонной карте. Используются различные стратегии обхода окна (прямой проход, проход с перекрытием, по спирали, случайный), а метриками служат время полного обхода для заданного размера окна и успешность нахождения целевой области, в том числе для зашумлённых и искажённых фрагментов карты. Полученные результаты показывают, что автокорреляционный подход при правильно выбранных параметрах окна обеспечивает наилучший компромисс между вычислительной сложностью и точностью: он демонстрирует высокую скорость обработки полного изображения и надёжно выделяет область соответствия как для оригинального, так и для искажённых фрагментов. Методы Пирсона и SSIM уступают по быстродействию при близкой или худшей точности, а нейросетевой перцептрон даёт заметно большую вычислительную нагрузку при ограниченном выигрыше по качеству.
|
||||||
|
Отдельный класс работ посвящён оптико‑электронным корреляционно‑экстремальным навигационным системам малого БПЛА. В таких системах по последовательности оптических изображений строится трёхмерная цифровая модель местности, после чего в полёте выполняется корреляционная обработка текущих и эталонных 3D‑моделей для коррекции инерциальной навигации. На основе эталонной модели M_{\mathrm{ref}} и текущих наблюдений M_{\mathrm{cur}} формируется функционал вида
|
||||||
|
J(p)=-\ Corr(M_{\mathrm{ref}},T(p)M_{\mathrm{cur}}),
|
||||||
|
где p описывает положение и ориентацию БПЛА, T(p) — оператор преобразования модели, а Corr — выбранная корреляционная метрика. Минимизация J(p) позволяет скорректировать оценку состояния инерциальной навигационной системы. В подобных работах подробно исследуется влияние высоты и скорости полёта, перекрытия кадров и периодичности коррекции ИНС на итоговую точность определения координат по эталонной 3D‑модели.
|
||||||
|
Корреляционно‑экстремальные навигационные системы в целом используют сопоставление текущих изображений с эталонной картой или 3D‑моделью местности для компенсации дрейфа ИНС и решения задач типа «вернуться в уже посещённую область». В ряде современных работ эталонная карта строится по данным оптико‑электронной системы в процессе предварительного облёта, после чего в полёте БПЛА периодически сравнивает текущий вид с фрагментами этой карты и уточняет свои координаты. При разумных ограничениях на высоту, скорость и частоту съёмки удаётся достигать приемлемой точности привязки для поддержания маршрута и коррекции навигации, включая фазу возврата в исходную точку, причём системы могут работать как в полностью автономном, так и в полуавтономном режиме.
|
||||||
|
Особое место занимают работы, где целью является возврат БПЛА в точку старта по данным бортовой видеокамеры. В одном из подходов маршрут от старта до момента потери спутниковой навигации используется для построения глобальной карты в системе географических координат, после чего на этапе возврата карта «замораживается», и полёт осуществляется за счёт локализации по ранее построенной карте без её дальнейшего расширения. Локализация сводится к сопоставлению текущих кадров с ближайшими по траектории эталонными фрагментами и оценке положения аппарата относительно координатной системы карты; по этим оценкам формируются управляющие воздействия для следования по маршруту в обратном направлении. Эксперименты, в том числе на квадрокоптере «DJI Phantom 3 Pro», показывают возможность устойчивого возвращения в окрестность исходной точки при отсутствии спутниковой навигации.
|
||||||
|
В другом подходе предлагается сопоставление текущих кадров при полёте «домой» с кадрами, ранее записанными при полёте «туда», с использованием меры сходства по яркостным и текстурным признакам. По максимальному значению меры сходства определяется индекс наиболее похожего кадра в эталонной последовательности, что фактически задаёт положение БПЛА вдоль маршрута. Это позволяет оценивать смещение вдоль трассы и корректировать курс даже без явной трёхмерной модели сцены.
|
||||||
|
Таким образом, корреляционно‑экстремальные методы и сопоставление видеопоследовательностей дают практически применимые решения задачи возврата в точку старта, которые могут быть реализованы на коммерческих БПЛА при относительно умеренных требованиях к вычислительным ресурсам. Для задачи возврата в точку старта они особенно привлекательны тем, что позволяют сопоставлять текущий кадр с локальными фрагментами эталонной карты вдоль маршрута без построения полной плотной карты сцены и без сложной фактор‑графовой оптимизации, что делает такие подходы перспективными для малогабаритных БПЛА с ограниченными ресурсами.
|
||||||
|
|
||||||
|
1.6 Алгоритмы возврата в точку старта по видеопоследовательностям
|
||||||
|
|
||||||
|
Ряд работ посвящён непосредственно задаче возврата БПЛА в начальную точку полёта по данным бортовой видеокамеры без использования GPS/ГЛОНАСС. В этих подходах используется либо видеопоследовательность, заранее записанная по маршруту, либо изображения, накопленные в ходе прямого полёта до потери спутниковых сигналов.
|
||||||
|
В статье, посвящённой визуальной навигации автономно летящего БПЛА с целью его возвращения в точку старта, предлагается алгоритм, сочетающий идеи визуальной одометрии и SLAM при явном разделении этапов картографирования и локализации. На участке от старта до потери сигналов GPS/ГЛОНАСС бортовая система по данным видеокамеры и актуальным навигационным данным строит карту местности в виде множества 3D‑точек‑признаков с известными географическими координатами.
|
||||||
|
После потери спутниковой навигации запускается миссия возврата: текущее положение БПЛА оценивается только относительно ранее построенной карты, без дальнейшего её расширения, что уменьшает вычислительные затраты и предотвращает неконтролируемый рост ошибок. Локализация заключается в сопоставлении признаков, выделенных на текущем кадре, с ближайшими по траектории участками карты и в последующей оценке положения и ориентации аппарата относительно системы координат карты; по этой оценке, формируются управляющие воздействия для следования по маршруту в обратном направлении.
|
||||||
|
Преимуществом такого подхода является отсутствие накопления ошибок, характерного для чистой визуальной одометрии и инерциальной навигации: поскольку локализация ведётся относительно фиксированной карты, ошибка не растёт без ограничений с длиной пройденного пути. Алгоритм реализован и протестирован на квадрокоптере DJI Phantom 3 Pro; по результатам экспериментов обеспечивается надёжное возвращение БПЛА в окрестность точки старта при отсутствии спутниковой навигации.
|
||||||
|
В другой работе рассматривается навигация БЛА с помощью бортовой видеокамеры, где также решается задача возврата аппарата в начальную точку полёта в автономном режиме. Предлагаемый алгоритм сопоставляет каждый текущий кадр, полученный при полёте «домой», с кадрами, записанными при полёте от исходной точки к цели, что позволяет по максимальному значению меры сходства оценивать смещение вдоль маршрута и корректировать курс.
|
||||||
|
Если заранее доступна эталонная видеопоследовательность или последовательность изображений (например, спутниковых снимков), покрывающая весь маршрут от исходной точки до точки назначения, описанный подход обеспечивает как полёт к цели, так и возврат, полностью опираясь на видовую информацию. В работе приводятся результаты компьютерного моделирования и экспериментов с использованием видеозаписей с бортовой камеры квадрокоптера «DJI Phantom», демонстрирующие возможность реализации подобного алгоритма на реальной технике.
|
||||||
|
Отмеченные алгоритмы являются прямыми примерами решения задачи возврата в точку старта, близкой к рассматриваемой в диссертации постановке. Они показывают, что раздельное ведение картографирования и локализации, а также сопоставление текущих кадров с ранее записанными, позволяют обеспечить устойчивый возврат при умеренной вычислительной сложности.
|
||||||
|
|
||||||
|
1.7 Интеграция классических и нейросетевых методов для задачи работы
|
||||||
|
|
||||||
|
С появлением мощных методов глубокого обучения задачи сопоставления изображений для навигации дополнились новыми инструментами, которые особенно актуальны при сильном рассогласовании между эталонной картой и текущими наблюдениями (domain shift).
|
||||||
|
Генеративно‑состязательные сети (GAN) позволяют трансформировать изображения из разных доменов (например, спутниковые и аэрофотоснимки с борта) к единому стилю, что облегчает последующее корреляционное сопоставление.
|
||||||
|
Сиамские сети для визуальной одометрии (SiaN‑VO) используют две ветви CNN для извлечения признаков из пары кадров и полносвязные слои для оценки либо скалярной меры сходства, либо параметров гомографии/относительного движения.
|
||||||
|
Трансформер‑модели для VO (DeepVO, VoT и др.) за счёт механизма внимания улучшают устойчивость к дрейфу и позволяют лучше учитывать долгосрочные зависимости в видеопотоке, однако требуют существенно больших вычислительных ресурсов, вплоть до использования современных GPU‑ускорителей.
|
||||||
|
В контексте разрабатываемого алгоритма возврата в точку старта такие модели могут быть использованы:
|
||||||
|
на этапе нормализации изображений (GAN) для уменьшения влияния различий по освещённости, сезону и типу съёмки;
|
||||||
|
на этапе оценки степени совпадения текущего кадра с эталонными фрагментами карты (сиамская сеть, выдающая значение сходства в диапазоне от 0 до 1);
|
||||||
|
при вычислении матрицы гомографии между кадрами, что позволяет точнее оценивать относительное смещение и поворот БПЛА при сопоставлении с эталонами.
|
||||||
|
Тем самым создаётся гибридный подход, сочетающий проверенные корреляционные методы (автокорреляция, sliding‑window‑обход и т.п.) с нейросетевыми оценщиками сходства и гомографии. Классические методы обеспечивают гарантированное быстродействие и предсказуемое поведение на борту малых БПЛА, тогда как нейросетевые компоненты повышают устойчивость к сложным условиям съёмки и рассогласованию карт, что особенно важно для устойчивого возврата в точку старта в реальных условиях эксплуатации.
|
||||||
|
|
||||||
|
1.8 Метрики оценки качества навигации и возврата
|
||||||
|
|
||||||
|
Визуально‑инерциальные алгоритмы традиционно оцениваются с использованием наборов данных EuRoC, TUM‑VI, KITTI и др., где для каждого датасета известна «истинная» траектория. Наиболее распространённые метрики:
|
||||||
|
ATE (Absolute Trajectory Error) – среднеквадратическая ошибка по положению между восстановленной и эталонной траекториями, измеряемая по всей длине маршрута; часто используется как интегральный показатель качества VIO‑алгоритма;
|
||||||
|
RPE (Relative Pose Error) – ошибка относительного смещения и поворота на фиксированном временном горизонте, характеризующая локальную стабильность и дрейф [19];
|
||||||
|
процентная ошибка по расстоянию – отношение ошибки конечного положения к длине траектории, выраженное в процентах; для ряда VIO‑решений она составляет доли процента даже на километровых дистанциях.
|
||||||
|
ATE измеряет насколько далеко в среднем лежит оцененная траектория от истинной после выравнивания. Для каждого момента времени i есть истинные позы БПЛА T_i^{gt} (ground truth) и оцененные позы T_i^{est} (estimated). Определим матрицу S, преобразовывает каждую оцененную позу таким образом, что суммарная разница между позами минимизируется. Для каждого момента времени определим ошибку
|
||||||
|
E_i=\left(T_i^{gt}\right)^{-1}ST_i^{est}
|
||||||
|
Итоговая метрика определяется следующим образом:
|
||||||
|
ATE_{RMSE}=\sqrt{\frac{1}{N}\sum_{i}\left|\left|trans\left(E_i\right)\right|\right|^2},
|
||||||
|
где trans\left(E_i\right) – норма трансляции, иными словами – смещение, а N – количество кадров. Для интуитивного понимания можно представить, что ATE характеризует насколько в среднем расходится оцененная траектория полета от истинной в каждый момент времени.
|
||||||
|
RPE измеряет локальную ошибку относительного движения на фиксированном интервале (между кадрами). Для этого в каждый момент времени i рассчитывается относительное движение истинной траектории:
|
||||||
|
\Delta T_i^{gt}=\left(T_i^{gt}\right)^{-1}T_{i+\Delta}^{gt}
|
||||||
|
И похожим образом для оцененной траектории:
|
||||||
|
\Delta T_i^{est}=\left(T_i^{est}\right)^{-1}T_{i+\Delta}^{est}
|
||||||
|
Теперь, разница между различными смещен рассчитывается по следующей формуле:
|
||||||
|
E_i^{rel}=\left(\Delta T_i^{gt}\right)^{-1}\Delta T_i^{est}
|
||||||
|
Аналогичным образом высчитывается средняя ошибка на каждый переход кадров. Преимущество RPE в том, что он не зависит от начального смещения и ориентации и лучше показывает накопление ошибок со временем.
|
||||||
|
Данные метрики применяются в различных публикациях. Например, в работе по SP‑VIO показано, что алгоритм обеспечивает более низкий ATE по сравнению с VINS‑Mono и OpenVINS как на общеизвестных датасетах (EuRoC, TUM‑VI, KITTI), так и на собственных данных, при этом сохраняется вычислительная эффективность, характерная для фильтрационных подходов. В экспериментах с автомобильной траекторией длиной порядка 4.5 км достигнута ошибка порядка долей процента, что критично для задач возврата: подобная точность позволяет вернуться в небольшую окрестность исходной точки без внешней навигации.
|
||||||
|
Для аппаратного ускорителя «Navion» оцениваются как точность траектории, так и энергетическая эффективность; средняя ошибка траектории составляет около 0.28% на сложном мультироторном датасете EuRoC, при этом потребляемая мощность — всего порядка 24 мВт при частоте обработки до 171 кадр/с. Такие характеристики демонстрируют, что при соответствующей аппаратной поддержке VIO может выступать в качестве базового навигационного ядра и для задачи возврата [15].
|
||||||
|
Для корреляционно‑экстремальных систем вводятся метрики:
|
||||||
|
максимальная ошибка привязки искомой области к карте (в пикселях карты или в метрах на местности);
|
||||||
|
вероятность правильного обнаружения области при зашумлении, затемнении и искажениях (моделируется как имитация «domain shift» между разными источниками изображений);
|
||||||
|
время обхода карты при различных стратегиях сканирования (прямой обход, обход с перекрытием, по спирали, случайный), определяющее возможность работы в реальном времени.
|
||||||
|
В исследовании Беляева и Зикратова проводится количественное сравнение нескольких корреляционных метрик (автокорреляция, коэффициент Пирсона, SSIM, однослойный перцептрон) по точности обнаружения и времени обработки при различных режимах обхода скользящего окна [3]. Показано, что автокорреляционный подход обеспечивает оптимальное сочетание точности и быстродействия, а также устойчив к зашумлению и искажению эталонной карты.
|
||||||
|
|
||||||
|
1.9 Сопоставление подходов и место данной работы
|
||||||
|
|
||||||
|
Рассмотренные подходы можно условно разделить на три группы: высокоточные VIO‑алгоритмы с плотной или разреженной картой («Navion», SP‑VIO и др.), корреляционно‑экстремальные методы навигации по эталонным картам и специализированные алгоритмы возврата в точку старта по видеопоследовательностям.
|
||||||
|
VIO‑системы обеспечивают высокую точность оценки траектории и могут работать в широком диапазоне условий, но их реализация на малых БПЛА требует либо специализированных аппаратных ускорителей (как в «Navion»), либо достаточно производительных процессоров, а также тщательной настройки фильтрационных или оптимизационных процедур. Корреляционные методы и корреляционно‑экстремальные навигационные системы менее универсальны, но гораздо проще по вычислительной схеме, что делает их привлекательными для ресурсно‑ограниченных платформ.
|
||||||
|
Алгоритмы возврата в точку старта по видеопоследовательностям, предложенные в работах Жука и др., а также Залесского и Шувалова, демонстрируют, что задача возврата может быть решена без сложной глобальной оптимизации и построения полной карты, если на этапе прямого полёта или заранее сформирована достаточная база эталонных кадров [4,5]. При этом ряд практических вопросов остаётся открытым: влияние рассогласования между эталонной и текущей картой (domain shift), устойчивость к изменениям освещённости и сезона, а также выбор метрик сходства и стратегий обхода карт, обеспечивающих минимальную погрешность конечных координат при ограниченном времени обработки.
|
||||||
|
В данной работе предполагается развить идеи корреляционно‑экстремальной навигации и алгоритмов возврата в точку старта, дополнив их современными методами глубокого обучения для сопоставления изображений. В частности, рассматривается использование генеративно‑состязательных сетей (GAN) для приведения изображений из разных доменов к единому стилю, сиамских нейросетей для оценки степени сходства текущего кадра с эталонными участками карты и для оценки матрицы гомографии между кадрами.
|
||||||
|
Таким образом, обзор показывает, что существующие решения либо обеспечивают высокую точность ценой значительных ресурсных затрат (VIO), либо ориентированы на специальные условия и не учитывают в полной мере проблему рассогласования карт и необходимость интеграции с методами глубокого обучения для обработки изображений. Это определяет актуальность разработки алгоритма навигации возврата в точку старта, сочетающего достоинства корреляционных подходов и современных методов глубокого обучения при учёте ограничений бортовой вычислительной платформы малых БПЛА.
|
||||||
7
dissertation/chapter_1/chapter_1_9.md
Normal file
7
dissertation/chapter_1/chapter_1_9.md
Normal file
@@ -0,0 +1,7 @@
|
|||||||
|
## 1.9 Сопоставление подходов и место данной работы
|
||||||
|
|
||||||
|
Рассмотренные подходы можно условно разделить на три группы: высокоточные VIO‑алгоритмы с плотной или разреженной картой («Navion», SP‑VIO и др.), корреляционно‑экстремальные методы навигации по эталонным картам и специализированные алгоритмы возврата в точку старта по видеопоследовательностям.
|
||||||
|
VIO‑системы обеспечивают высокую точность оценки траектории и могут работать в широком диапазоне условий, но их реализация на малых БПЛА требует либо специализированных аппаратных ускорителей (как в «Navion»), либо достаточно производительных процессоров, а также тщательной настройки фильтрационных или оптимизационных процедур. Корреляционные методы и корреляционно‑экстремальные навигационные системы менее универсальны, но гораздо проще по вычислительной схеме, что делает их привлекательными для ресурсно‑ограниченных платформ.
|
||||||
|
Алгоритмы возврата в точку старта по видеопоследовательностям, предложенные в работах Жука и др., а также Залесского и Шувалова, демонстрируют, что задача возврата может быть решена без сложной глобальной оптимизации и построения полной карты, если на этапе прямого полёта или заранее сформирована достаточная база эталонных кадров [4,5]. При этом ряд практических вопросов остаётся открытым: влияние рассогласования между эталонной и текущей картой (domain shift), устойчивость к изменениям освещённости и сезона, а также выбор метрик сходства и стратегий обхода карт, обеспечивающих минимальную погрешность конечных координат при ограниченном времени обработки.
|
||||||
|
В данной работе предполагается развить идеи корреляционно‑экстремальной навигации и алгоритмов возврата в точку старта, дополнив их современными методами глубокого обучения для сопоставления изображений. В частности, рассматривается использование генеративно‑состязательных сетей (GAN) для приведения изображений из разных доменов к единому стилю, сиамских нейросетей для оценки степени сходства текущего кадра с эталонными участками карты и для оценки матрицы гомографии между кадрами.
|
||||||
|
Таким образом, обзор показывает, что существующие решения либо обеспечивают высокую точность ценой значительных ресурсных затрат (VIO), либо ориентированы на специальные условия и не учитывают в полной мере проблему рассогласования карт и необходимость интеграции с методами глубокого обучения для обработки изображений. Это определяет актуальность разработки алгоритма навигации возврата в точку старта, сочетающего достоинства корреляционных подходов и современных методов глубокого обучения при учёте ограничений бортовой вычислительной платформы малых БПЛА.
|
||||||
10
dissertation/chapter_1/readme.md
Normal file
10
dissertation/chapter_1/readme.md
Normal file
@@ -0,0 +1,10 @@
|
|||||||
|
|
||||||
|
1.1 Задача возврата в точку старта в системах навигации БПЛА
|
||||||
|
1.2 Классификация методов навигации БПЛА
|
||||||
|
1.3 Интегрированные инерциально‑спутниковые навигационные системы
|
||||||
|
1.4 Визуальная и визуально-инерциальная одометрия для автономной навигации
|
||||||
|
1.5 Корреляционные методы навигации по видовой информации
|
||||||
|
1.6 Алгоритмы возврата в точку старта по видеопоследовательностям
|
||||||
|
1.7 Интеграция классических и нейросетевых методов для задачи работы
|
||||||
|
1.8 Метрики оценки качества навигации и возврата
|
||||||
|
1.9 Сопоставление подходов и место данной работы
|
||||||
2
dissertation/chapter_1/todo.md
Normal file
2
dissertation/chapter_1/todo.md
Normal file
@@ -0,0 +1,2 @@
|
|||||||
|
- Оглавление в readme.md оформить в виде таблицы
|
||||||
|
- распарсить _temp_full_content.md по файлам как chapter_1_9.md
|
||||||
131
dissertation/chapter_2/_temp_full_content.md
Normal file
131
dissertation/chapter_2/_temp_full_content.md
Normal file
@@ -0,0 +1,131 @@
|
|||||||
|
|
||||||
|
2.1 Постановка задачи возврата БПЛА в точку старта
|
||||||
|
|
||||||
|
В данной работе рассматривается задача автономного возврата беспилотного летательного аппарата в точку старта при отсутствии или потере сигналов спутниковой навигации (GPS/ГЛОНАСС) и любой другой внешней связи. Дрон оснащен:
|
||||||
|
бортовой камерой для получения изображений местности в реальном времени;
|
||||||
|
инерциальной навигационной системой, обеспечивающей измерения угловых скоростей и ускорений;
|
||||||
|
бортовым вычислителем, способным выполнять обработку изображений и управляющие вычисления.
|
||||||
|
В рамках настоящей работы предполагается только наличие бортовой камеры.
|
||||||
|
Исходные данные:
|
||||||
|
Циклический маршрут – последовательность координат точек \{p_0,p_1,\ldots,p_n\}, где p_0=p_n (первая точка совпадает с последней);
|
||||||
|
Эталонная карта местности – изображение или последовательность изображений вдоль траектории маршрута, полученная до начала полета (например, спутниковые снимки или предварительная загрузка участков карты);
|
||||||
|
Видеопоток в реальном времени – последовательности кадров, получаемых бортовой камерой в процессе полета.
|
||||||
|
Задача: разработать алгоритм навигации, который корректирует угол и направление полета таким образом, чтобы пройти через каждую заданную точку маршрута \{p_1,p_2,\ldots,p_{n-1}\}, вернуться в исходную позицию p_o с наименьшей с наименьшей погрешностью в координатах и обеспечить устойчивость к различиям между эталонной картой и реальными изображениями.
|
||||||
|
Формально говоря, цель состоит в минимизации конечной ошибки позиционирования:
|
||||||
|
e_{final}=\left|\left|p_{actual}\left(T\right)-p_0\right|\right|,
|
||||||
|
Где p_{actual}\left(T\right) – фактическое положение БПЛА в момент завершения возврата, p_0 – исходная точка старта.
|
||||||
|
Дополнительным критерием точности может выступить минимизация средней накапливаемой ошибки на каждой точке:
|
||||||
|
s_{final}=\sum_{i=1}^{P}\left|\left|p_{actual}\left(i\right)-p_i\right|\right|,
|
||||||
|
где p_{actual}\left(i\right) – фактическое положение БПЛА при прохождении через точку i, а p_i – положение точки i, P - количество точек
|
||||||
|
|
||||||
|
2.2 Базовое решение задачи
|
||||||
|
|
||||||
|
Обозначим последовательность изображений \{u_i\ |\ i\in[0..N]}, где N – итоговое количество кадров, которое было получено во время всего полета. Пусть
|
||||||
|
I_i\left(x,y\right) – интенсивность пикселя в позиции (y,\ x), где x\ \in[0..W-1] и y\ \in[0..W-1], W – ширина кадра.
|
||||||
|
Матрица H_i – матрица гомографии, которая описывает переход от кадра u_{i-1} к кадру u_i:
|
||||||
|
I_{i-1}\left(x,y\right)=I_i\left(x^\prime,y^\prime\right),
|
||||||
|
t\ast\left(\begin{matrix}x\prime\\y\prime\\1\\\end{matrix}\right)=H_i\times\left(\begin{matrix}x\\y\\1\\\end{matrix}\right)
|
||||||
|
Матрица гомографии (H) описывает проективное между двумя плоскостями и может быть представлена в следующем виде:
|
||||||
|
H=K_1\times R\times T\times{K_2}^{-1},
|
||||||
|
где K_1 и K_2 – матрицы внутренних параметров камеры, R – матрица поворотов, T – матрица трансляции.
|
||||||
|
Матрицы K_1 и K_2 представляют собой матрицы внутренних параметров и обычно равны между собой (различаются центры изображений). Однако в случаях разного разрешения картинок они могут иметь разные параметры. В общем виде такая матрица представляется следующим образом:
|
||||||
|
|
||||||
|
K_i=\left(\begin{matrix}f&\gamma&c_x^i\\0&f&c_y^i\\0&0&1\\\end{matrix}\right),
|
||||||
|
|
||||||
|
Где f – фокусное расстояние в пикселях, c_x и c_y – координаты оптического центра камеры на плоскости изображения, \gamma – коэффициент скоса, описывающий угол наклона пикселей (в рамках симуляции равен 0).
|
||||||
|
Матрицу R можно получить при помощи стандартной функции OpenCV decomposeHomographyMat, также эту матрицу можно вычислить самостоятельно, поскольку первые два столбца матрицы гомографии H инвариантны смещению.
|
||||||
|
Матрица R представляет собой следующий вид:
|
||||||
|
R=R_x\times R_y\times R_z
|
||||||
|
Где R_x,R_y,R_z – матрицы вращения вокруг осей OX,\ OY,\ OZ соответственно.
|
||||||
|
Если известны угол рыскания \psi, тангажа \theta и крена \gamma, то эти матрицы вычисляются следующим образом:
|
||||||
|
|
||||||
|
R_x\left(\gamma\right)=\left(\begin{matrix}1&0&0\\0&cos\left(\gamma\right)&-sin\left(\gamma\right)\\0&sin\left(\gamma\right)&cos\left(\gamma\right)\\\end{matrix}\right),
|
||||||
|
|
||||||
|
R_y\left(\theta\right)=\left(\begin{matrix}cos\left(\theta\right)&0&sin\left(\theta\right)\\0&1&0\\-sin\left(\theta\right)&0&cos\left(\theta\right)\\\end{matrix}\right),
|
||||||
|
|
||||||
|
R_z\left(\psi\right)=\left(\begin{matrix}cos\left(\psi\right)&-sin\left(\psi\right)&0\\sin\left(\psi\right)&cos\left(\psi\right)&0\\0&0&1\\\end{matrix}\right),
|
||||||
|
|
||||||
|
Зная матрицу H,\ K_1, K_2,\ и R, можно получить матрицу T:
|
||||||
|
|
||||||
|
T=R^{-1}\times K_1^{-1}\times H\times K_2
|
||||||
|
л.в.что:T=R-1×K1-1×K1×R×T×K2-1×K2
|
||||||
|
|
||||||
|
Матрица трансляции имеет вид:
|
||||||
|
|
||||||
|
T=\lambda0λxf0λλyf00λz=λ *10xf01yf00z
|
||||||
|
|
||||||
|
Таким образом, можно получить смещение между кадрами, зная матрицы внутренних параметров камеры и матрицу гомографии.
|
||||||
|
Чтобы получить положение БПЛА в момент времени t, достаточно получить матрицу трансляции из произведения всех промежуточных матриц гомографии (обозначим за G_t) на префиксе кадров [0..t]:
|
||||||
|
G_t=\prod_{i=1}^{t}H_i=H_1\times H_2\times\ldots\times H_t
|
||||||
|
|
||||||
|
2.3 Эталонные снимки
|
||||||
|
|
||||||
|
Основным минусом базового решения является то, что любая его реализация предполагает накопление погрешности. В таком случае корректировка позиции может стать хорошим дополнением для снижения дрейфа.
|
||||||
|
Одной из проблем такого подхода является поиск необходимого эталонного снимка. Снимки могут совершаться в разное время суток, в разных годах, при неодинаковых условиях (ветер, туман, погода, сезон года), но иметь какие-то общие схожие паттерны. Классические способы решения сопоставления таких кадров работают крайне плохо, однако модели на основе нейронных сетей справляются с этой задачей куда лучше.
|
||||||
|
|
||||||
|
2.3.1 Применение архитектуры сиамских близнецов для сопоставления кадров из различных доменов
|
||||||
|
|
||||||
|
Абстрактно, сиамские близнецы представляют собой следующую архитектуру (рисунок 1):
|
||||||
|
На вход подаются два или более объекта с одинаковой сигнатурой.
|
||||||
|
Каждая входная информация проходит одинаковый пайплайн обработки (получение признаков при помощи CNN).
|
||||||
|
Полученные наборы признаков объединяются в вектор (1\times M).
|
||||||
|
Голова модели представляет собой полносвязную нейронную сеть.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 1 – Абстрактная архитектура сиамских близнецов
|
||||||
|
|
||||||
|
В качестве входной информации выступят два кадра: текущий снимок видеокамеры и эталонный снимок, для которого точно известна позиция. Выходная информация будет представлять собой вещественное число от 0 до 1 – степень схожести двух картинок (Рисунок 2).
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 2 – Интерфейс алгоритма (входные и выходные данные)
|
||||||
|
|
||||||
|
На базе такой архитектуры реализована модель «SiaN-Similarity» с использованием фреймворка PyTorch и включает общий скелет на базе предобученной модели «ResNet18» и голову сравнения (рисунок 3). На вход подаются два изображения размером \left(B,3,256,256\right), где B – размер пакета данных (batch). Эти изображения представляют собой текущий кадр («Image 1») и кандидат-эталон «Image 2». Извлеченные при помощи «ResNet18» признаки f_1 и f_2 объединяются в вектор [f_1,f_2,f1–f2,f1*f2] размером \left(B,2048\right), так как каждый из векторов f_1 и f_2 имеет размер (B,\ 256). Все это проходит через многослойный перцептрон (MLP), где выход – вероятность схожести картинок (рисунок 3).
|
||||||
|
Обучение модели проводилось на собственном датасете «ya_go_maps» - собственный набор, состоящий из 327 пар изображений разных доменов (261 тренировочных и 66 валидационных) с бинарными метками (одинаковы или разный домен). Датасет сформирован на основе снимков из различных онлайн-карт («Яндекс.Карты» и «Google Maps»). Для обучения использовалась функция потерь Binary Cross Entropy Loss (BCELoss), которая идеально подходит для бинарной классификации схожести изображений:
|
||||||
|
l_n=-\left(y_nlog\left(x_n\right)+\left(1-y_n\right)log\left(1-x_n\right)\right),
|
||||||
|
где x_n – предсказанная вероятность, y_n – истинная метка (1 для одинаковых пар снимков, 0 – для разных). Средняя потеря по батчу вычисляется как
|
||||||
|
\frac{1}{N}\sum_{n}l_n
|
||||||
|
BCELoss выбрана из-за совместимости с сигмоидным выходом и способности эффективно различать градиенты для вероятностей, что отлично подходит для задач сопоставления изображений с доменным сдвигом.
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 3 – Архитектура модели «SiaN-Similarity»
|
||||||
|
|
||||||
|
Платформа обучения – «Kaggle» с видеокартой «Tesla P100». Весь процесс обучения занял 24 минуты и остановился на 56 эпохе (ранняя остановка). Train Loss снизилась до 0.27 и монотонно убывала на протяжении всех эпох (за небольшими исключениями. После ~30 эпохи модель начала переобучаться и сработала ранняя остановка (early stopping). Лучшая Val Loss – 0.2929 (эпоха 36) при Val Accuracy 0.90. Однако лучшая точность достигнута на последней эпохе – 0.9630, правда функция потерь в том случае слишком высокая и слишком низкий recall, что критично для дальних полетов, ведь высок риск еще большего накопления ошибок.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 4 – Графики обучения «SiaN-Similiarity»
|
||||||
|
|
||||||
|
Модель демонстрирует консервативный характер: высокий recall минимизирует пропуски истинных совпадений эталонных кадров (false negatives), что критично для коррекции траектории БПЛА. Низкая объясняется доменным сдвигом и малым размером датасета – модель склонна классифицировать неоднозначные пары как одинаковые. Это приемлемо для навигации, где false positives приводят лишь к проверке дополнительных кандидатов, а false negatives могут вызвать потерю позиции (рисунок 5).
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 5 – Матрица ошибок «SiaN-Similarity»
|
||||||
|
|
||||||
|
|
||||||
|
На рисунке 6 и 7 показаны примеры верных предсказании модели и неверных соответственно.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 6 – Верно угаданные сэмплы «SiaN-Similarity»
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Рисунок 7 – Неверно угаданные сэмплы «SiaN-Similiarity»
|
||||||
|
|
||||||
|
|
||||||
|
2.3.2 Применение архитектуры сиамских близнецов для вычисления матрицы гомографии между двумя кадрами
|
||||||
|
|
||||||
|
2.3.3 Применение архитектуры сиамских близнецов для вычисления матрицы гомографии между двумя кадрами
|
||||||
|
|
||||||
|
|
||||||
|
2.4 Датасет
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
2.5 Обучение моделей глубокого обучения
|
||||||
|
|
||||||
4
dissertation/chapter_2/readme.md
Normal file
4
dissertation/chapter_2/readme.md
Normal file
@@ -0,0 +1,4 @@
|
|||||||
|
2.1 Формализация задачи возврата БПЛА в точку старта
|
||||||
|
2.2 Базовое решение задачи
|
||||||
|
2.3 Эталонные снимки
|
||||||
|
2.3.1 Применение архитектуры сиамских близнецов для сопоставления кадров из различных доменов
|
||||||
2
dissertation/chapter_2/todo.md
Normal file
2
dissertation/chapter_2/todo.md
Normal file
@@ -0,0 +1,2 @@
|
|||||||
|
- Оглавление в readme.md оформить в виде таблицы
|
||||||
|
- распарсить _temp_full_content.md по папкам (потому что там будет большой подпункт, а внутри уже маленькие подпункты, поэтому их уже файлами). То есть ещё папка, а потом файлы уже. Создай readme.md, оформи их.
|
||||||
0
dissertation/chapter_3/readme.md
Normal file
0
dissertation/chapter_3/readme.md
Normal file
1
dissertation/chapter_3/todo.md
Normal file
1
dissertation/chapter_3/todo.md
Normal file
@@ -0,0 +1 @@
|
|||||||
|
В readme.md должно быть описание системы симуляции полета и в будущем
|
||||||
15
dissertation/instruction.md
Normal file
15
dissertation/instruction.md
Normal file
@@ -0,0 +1,15 @@
|
|||||||
|
Всегда писать понятно, четко и ясно!
|
||||||
|
|
||||||
|
|
||||||
|
Технические файлы, которые описывают как нужно писать работу:
|
||||||
|
- readme.md
|
||||||
|
- instruction.md
|
||||||
|
- todo.md
|
||||||
|
- файлы вида _<name>.md (_style.md, _references.md, и т.д.).
|
||||||
|
|
||||||
|
Технические файлы очень короткие и понятные.
|
||||||
|
Могут быть полезны для того, чтобы что-то держать в памяти и поддерживать текст связным. Наприме, избежать дублирования одной и той же аббревиатуры.
|
||||||
|
|
||||||
|
Технические файлы нужно создавать и обновлять в процессе написания, поддерживать их сжатую структуру.
|
||||||
|
|
||||||
|
Основное место для
|
||||||
10
dissertation/readme.md
Normal file
10
dissertation/readme.md
Normal file
@@ -0,0 +1,10 @@
|
|||||||
|
# Магистерская диссертация на тему "Разработка алгоритма навигации для возврата в точку старта"
|
||||||
|
|
||||||
|
План отчета (название папки)
|
||||||
|
|
||||||
|
chapter_0 - Введение
|
||||||
|
chapter_1 - Аналитический обзор современного состояния проблемы
|
||||||
|
chapter_2 - Постановка задачи и выбор методов решения
|
||||||
|
chapter_3 - Система симуляции
|
||||||
|
conclusion - Заключение
|
||||||
|
literature - Список использованных источников
|
||||||
5
dissertation/todo.md
Normal file
5
dissertation/todo.md
Normal file
@@ -0,0 +1,5 @@
|
|||||||
|
- Переписать оглавление в readme.md в вид таблицы
|
||||||
|
- Пройтись по папкам и обновить readme.md, выполнив задания
|
||||||
|
- Обновить instruction по тому, как следует писать текст
|
||||||
|
- Обновить todo.md
|
||||||
|
- Ещё давай заведём _todo_backlog.md - там будем хранить предложения, что можно сделать. А todo.md обновлять когда что-то сделано. Если все сделано, то пустой. Пока пусть перекладывание задач будет висеть на пользователь, он руками будет переносить что надо, а что нет
|
||||||
Reference in New Issue
Block a user