Большое спасибо за ответы.
Есть необходимость протестировать заливку данных (45000 строк). Чтобы покрыть 100% необходимо сравнить сурс файл с экспортированным отчетом с сайта. Если обе таблицы одинаковы - профит.
Что значит одинаковы?
- Если в одном файле в полях появились концевые пробелы — это значимое отличие?
- Если разные окончания строк — это отличие?
- Важен ли формат строк, чисел, дат? ("тест" и "Тест" — это одно и тоже? А 4 и 4.0? А 22.12.2018 и 22/12/208?)
Что вам важно будет знать, если файлы вдруг неодинаковы:
- Строки, которые отличаются и дальше уже выверка глазами вручную?
- Конкретные расхождения в данных (в каком поле, как именно отличаются?)
Ну и 45 тыс. для 12 млн — это нерепрезентативная выборка для сравнения и тестирования миграции данных
В принципе, для результата хватит сравнить общее количество строк, точное совпадение всех значений поля ACCOUNT (оно не уникально в данной таблице) и уже визуально сравнить с десяток строк полностью.
Я решал вопрос пока полуавтоматизировано. Сделал в экселе view side by side, отсортировала по полю ACCOUNT и бегло синхронно скролил вниз. Отличий не было. количество строк совпало - все ОК. Но небыстро.
Полностью строки сравнивать в моем случае смысла нет, т.к. экспортированный отчет с сайта может содержать лишние поля и значения.
На выходе мне бы подсветить разными цветами строки, которые отсутсвуют в одном файле и присутствуют в другом (по значению поля ACCOUNT).
Если по-простому, то подсветить надо количество строк, которе отличается по полю ACCOUNT (например в одной табличке 7 строк с акаунтом 263478230, а в другой 11, то надо во второй табличке подсветить 4 нижние).
Если по-сложному, то проверять всю строку и подсвечивать отличающиеся.