autopilot/dissertation/chapter_2/_temp_full_content.md at 2b137dfcccf15073798eef67d485f5229d0a2e6c

Files

russian_proger 2b137dfccc add dissertation

2026-04-01 13:21:32 +03:00

16 KiB

Raw Blame History

2.1 Постановка задачи возврата БПЛА в точку старта

В данной работе рассматривается задача автономного возврата беспилотного летательного аппарата в точку старта при отсутствии или потере сигналов спутниковой навигации (GPS/ГЛОНАСС) и любой другой внешней связи. Дрон оснащен: бортовой камерой для получения изображений местности в реальном времени; инерциальной навигационной системой, обеспечивающей измерения угловых скоростей и ускорений; бортовым вычислителем, способным выполнять обработку изображений и управляющие вычисления. В рамках настоящей работы предполагается только наличие бортовой камеры. Исходные данные: Циклический маршрут – последовательность координат точек {p_0,p_1,\ldots,p_n}, где p_0=p_n (первая точка совпадает с последней); Эталонная карта местности – изображение или последовательность изображений вдоль траектории маршрута, полученная до начала полета (например, спутниковые снимки или предварительная загрузка участков карты); Видеопоток в реальном времени – последовательности кадров, получаемых бортовой камерой в процессе полета. Задача: разработать алгоритм навигации, который корректирует угол и направление полета таким образом, чтобы пройти через каждую заданную точку маршрута {p_1,p_2,\ldots,p_{n-1}}, вернуться в исходную позицию p_o с наименьшей с наименьшей погрешностью в координатах и обеспечить устойчивость к различиям между эталонной картой и реальными изображениями. Формально говоря, цель состоит в минимизации конечной ошибки позиционирования: e_{final}=\left|\left|p_{actual}\left(T\right)-p_0\right|\right|, Где p_{actual}\left(T\right) – фактическое положение БПЛА в момент завершения возврата, p_0 – исходная точка старта. Дополнительным критерием точности может выступить минимизация средней накапливаемой ошибки на каждой точке: s_{final}=\sum_{i=1}^{P}\left|\left|p_{actual}\left(i\right)-p_i\right|\right|, где p_{actual}\left(i\right) – фактическое положение БПЛА при прохождении через точку i, а p_i – положение точки i, P - количество точек

2.2 Базовое решение задачи

Обозначим последовательность изображений {u_i\ |\ i\in[0..N]}, где N – итоговое количество кадров, которое было получено во время всего полета. Пусть I_i\left(x,y\right) – интенсивность пикселя в позиции (y,\ x), где x\ \in[0..W-1] и y\ \in[0..W-1], W – ширина кадра. Матрица H_i – матрица гомографии, которая описывает переход от кадра u_{i-1} к кадру u_i: I_{i-1}\left(x,y\right)=I_i\left(x^\prime,y^\prime\right), t\ast\left(\begin{matrix}x\prime\y\prime\1\\end{matrix}\right)=H_i\times\left(\begin{matrix}x\y\1\\end{matrix}\right) Матрица гомографии (H) описывает проективное между двумя плоскостями и может быть представлена в следующем виде: H=K_1\times R\times T\times{K_2}^{-1}, где K_1 и K_2 – матрицы внутренних параметров камеры, R – матрица поворотов, T – матрица трансляции. Матрицы K_1 и K_2 представляют собой матрицы внутренних параметров и обычно равны между собой (различаются центры изображений). Однако в случаях разного разрешения картинок они могут иметь разные параметры. В общем виде такая матрица представляется следующим образом:

K_i=\left(\begin{matrix}f&\gamma&c_x^i\0&f&c_y^i\0&0&1\\end{matrix}\right),

Где f – фокусное расстояние в пикселях, c_x и c_y – координаты оптического центра камеры на плоскости изображения, \gamma – коэффициент скоса, описывающий угол наклона пикселей (в рамках симуляции равен 0). Матрицу R можно получить при помощи стандартной функции OpenCV decomposeHomographyMat, также эту матрицу можно вычислить самостоятельно, поскольку первые два столбца матрицы гомографии H инвариантны смещению. Матрица R представляет собой следующий вид: R=R_x\times R_y\times R_z Где R_x,R_y,R_z – матрицы вращения вокруг осей OX,\ OY,\ OZ соответственно. Если известны угол рыскания \psi, тангажа \theta и крена \gamma, то эти матрицы вычисляются следующим образом:

R_x\left(\gamma\right)=\left(\begin{matrix}1&0&0\0&cos\left(\gamma\right)&-sin\left(\gamma\right)\0&sin\left(\gamma\right)&cos\left(\gamma\right)\\end{matrix}\right),

R_y\left(\theta\right)=\left(\begin{matrix}cos\left(\theta\right)&0&sin\left(\theta\right)\0&1&0\-sin\left(\theta\right)&0&cos\left(\theta\right)\\end{matrix}\right),

R_z\left(\psi\right)=\left(\begin{matrix}cos\left(\psi\right)&-sin\left(\psi\right)&0\sin\left(\psi\right)&cos\left(\psi\right)&0\0&0&1\\end{matrix}\right),

Зная матрицу H,\ K_1, K_2,\ и R, можно получить матрицу T:

T=R^{-1}\times K_1^{-1}\times H\times K_2 л.в.что:T=R-1×K1-1×K1×R×T×K2-1×K2

Матрица трансляции имеет вид:

T=\lambda0λxf0λλyf00λz=λ *10xf01yf00z

Таким образом, можно получить смещение между кадрами, зная матрицы внутренних параметров камеры и матрицу гомографии. Чтобы получить положение БПЛА в момент времени t, достаточно получить матрицу трансляции из произведения всех промежуточных матриц гомографии (обозначим за G_t) на префиксе кадров [0..t]: G_t=\prod_{i=1}^{t}H_i=H_1\times H_2\times\ldots\times H_t

2.3 Эталонные снимки

Основным минусом базового решения является то, что любая его реализация предполагает накопление погрешности. В таком случае корректировка позиции может стать хорошим дополнением для снижения дрейфа. Одной из проблем такого подхода является поиск необходимого эталонного снимка. Снимки могут совершаться в разное время суток, в разных годах, при неодинаковых условиях (ветер, туман, погода, сезон года), но иметь какие-то общие схожие паттерны. Классические способы решения сопоставления таких кадров работают крайне плохо, однако модели на основе нейронных сетей справляются с этой задачей куда лучше.

2.3.1 Применение архитектуры сиамских близнецов для сопоставления кадров из различных доменов

Абстрактно, сиамские близнецы представляют собой следующую архитектуру (рисунок 1): На вход подаются два или более объекта с одинаковой сигнатурой. Каждая входная информация проходит одинаковый пайплайн обработки (получение признаков при помощи CNN). Полученные наборы признаков объединяются в вектор (1\times M). Голова модели представляет собой полносвязную нейронную сеть.

Рисунок 1 – Абстрактная архитектура сиамских близнецов

В качестве входной информации выступят два кадра: текущий снимок видеокамеры и эталонный снимок, для которого точно известна позиция. Выходная информация будет представлять собой вещественное число от 0 до 1 – степень схожести двух картинок (Рисунок 2).

Рисунок 2 – Интерфейс алгоритма (входные и выходные данные)

На базе такой архитектуры реализована модель «SiaN-Similarity» с использованием фреймворка PyTorch и включает общий скелет на базе предобученной модели «ResNet18» и голову сравнения (рисунок 3). На вход подаются два изображения размером \left(B,3,256,256\right), где B – размер пакета данных (batch). Эти изображения представляют собой текущий кадр («Image 1») и кандидат-эталон «Image 2». Извлеченные при помощи «ResNet18» признаки f_1 и f_2 объединяются в вектор [f_1,f_2,f1–f2,f1*f2] размером \left(B,2048\right), так как каждый из векторов f_1 и f_2 имеет размер (B,\ 256). Все это проходит через многослойный перцептрон (MLP), где выход – вероятность схожести картинок (рисунок 3). Обучение модели проводилось на собственном датасете «ya_go_maps» - собственный набор, состоящий из 327 пар изображений разных доменов (261 тренировочных и 66 валидационных) с бинарными метками (одинаковы или разный домен). Датасет сформирован на основе снимков из различных онлайн-карт («Яндекс.Карты» и «Google Maps»). Для обучения использовалась функция потерь Binary Cross Entropy Loss (BCELoss), которая идеально подходит для бинарной классификации схожести изображений: l_n=-\left(y_nlog\left(x_n\right)+\left(1-y_n\right)log\left(1-x_n\right)\right), где x_n – предсказанная вероятность, y_n – истинная метка (1 для одинаковых пар снимков, 0 – для разных). Средняя потеря по батчу вычисляется как \frac{1}{N}\sum_{n}l_n BCELoss выбрана из-за совместимости с сигмоидным выходом и способности эффективно различать градиенты для вероятностей, что отлично подходит для задач сопоставления изображений с доменным сдвигом.

Рисунок 3 – Архитектура модели «SiaN-Similarity»

Платформа обучения – «Kaggle» с видеокартой «Tesla P100». Весь процесс обучения занял 24 минуты и остановился на 56 эпохе (ранняя остановка). Train Loss снизилась до 0.27 и монотонно убывала на протяжении всех эпох (за небольшими исключениями. После ~30 эпохи модель начала переобучаться и сработала ранняя остановка (early stopping). Лучшая Val Loss – 0.2929 (эпоха 36) при Val Accuracy 0.90. Однако лучшая точность достигнута на последней эпохе – 0.9630, правда функция потерь в том случае слишком высокая и слишком низкий recall, что критично для дальних полетов, ведь высок риск еще большего накопления ошибок.

Рисунок 4 – Графики обучения «SiaN-Similiarity»

Модель демонстрирует консервативный характер: высокий recall минимизирует пропуски истинных совпадений эталонных кадров (false negatives), что критично для коррекции траектории БПЛА. Низкая объясняется доменным сдвигом и малым размером датасета – модель склонна классифицировать неоднозначные пары как одинаковые. Это приемлемо для навигации, где false positives приводят лишь к проверке дополнительных кандидатов, а false negatives могут вызвать потерю позиции (рисунок 5).

Рисунок 5 – Матрица ошибок «SiaN-Similarity»

На рисунке 6 и 7 показаны примеры верных предсказании модели и неверных соответственно.

Рисунок 6 – Верно угаданные сэмплы «SiaN-Similarity»

Рисунок 7 – Неверно угаданные сэмплы «SiaN-Similiarity»

2.3.2 Применение архитектуры сиамских близнецов для вычисления матрицы гомографии между двумя кадрами

2.3.3 Применение архитектуры сиамских близнецов для вычисления матрицы гомографии между двумя кадрами

2.4 Датасет

2.5 Обучение моделей глубокого обучения

16 KiB Raw Blame History Unescape Escape

16 KiB

Raw Blame History