У нас проект был поменьше, но расскажу. Механизм все то же, кроме вашего п.5. Веб-сервиса не было и я не понимаю зачем он вам. Были эталонные снимки и снимки текущего выполнения. Они сравнивались автоматом (Araxis merge) и, при наличии расхождений, тестировщик сам смотрел картинки и решал верно или неверно.
Да 5 пункт и вызывает больше всего тревоги, но как уже спросили выше, чем именно вы его заменили? находили скрины вручную?
Что значит находили вручную?! У вас две папки скриншотов и еще набор результатов автоматического сравнения. Просмотрели сравнение, там где есть подозрительная разница смотрите изначальные результаты.
Сколько у вас скриншотов, что ручная работа вызывает у вас оторопь?
сейчас 43 тестов, это 129 скриншотов(изначальный, актуальный, разница) Планируется что тестов будет около 80, и потом будут дублироваться для разных размеров экрана. Они раскиданы по папкам, но все равно есть неудобство, даже сейчас.