Сделать то, в принципе, реально. Думаю, проще делать с нуля, чем раскодировать сжатый поток с двух камер, потом обрабатывать и кодировать обратно.
В свое время делал камеру - матрица CMOS, ПЛИС, SDRAM, USB чип.
Тоже вырезал нужный кусок.
В данном случае будет то же самое, только сбор изображения с двух матриц.
Просто потребуется более мощная ПЛИС.
Вопрос тут упрется в финансовую составляющую.
Но в случае если не упрется - могу сделать