Типы несоответствия данных
1. Различие формата данных.
«пр. Ленина, 123−1» или «Ленина, д. 123, стр.1»; «8(903)123−45−67» или «8−903−123−45−56».
2. Различие в представлении значений Например, некая организация может быть записана в отдельных источниках как «Томский политехнический университет», «Национальный исследовательский Томский политехнический университет», «ТПУ».
3. Потеря актуальности данных одним из источников Например, смена должности сотрудника: в одной БД записана новая должность, в другой старая, и они не совпадают.
4. Наличие ошибок операторского ввода (или ошибок распознавания бланков) в отдельных источниках данных Сюда относятся механические опечатки, ошибки восприятия на слух сложнопроизносимых имен/названий, отсутствие единых стандартов транскрипции с иностранных языков.
5. Намеренное внесение искажений с целью затруднить идентификацию сущностей Например, Ковин и Кoвuн.
Задача несоответствия данных
- — Перечисленные различия приводят к дублированию записей при интеграции данных в одну БД. Разрешение перечисленных проблем и устранение дублирования записей вручную практически невозможно. Имеется множество методов для ее автоматического и полуавтоматического решения.
- — По-русски задача не имеет устоявшегося термина (применяются «сопоставление записей», «вероятностное соединение», «нестрогое соединение», «нестрогое соответствие»). В зарубежных работах эта задача носит название Identity resolution, или Record linkage (есть и другие синонимы).