Помощь в написании студенческих работ
Антистрессовый сервис

Типы несоответствия данных. 
Задача несоответствия данных

РефератПомощь в написанииУзнать стоимостьмоей работы

По-русски задача не имеет устоявшегося термина (применяются «сопоставление записей», «вероятностное соединение», «нестрогое соединение», «нестрогое соответствие»). В зарубежных работах эта задача носит название Identity resolution, или Record linkage (есть и другие синонимы). Различие в представлении значений Например, некая организация может быть записана в отдельных источниках как «Томский… Читать ещё >

Типы несоответствия данных. Задача несоответствия данных (реферат, курсовая, диплом, контрольная)

Типы несоответствия данных

1. Различие формата данных.

«пр. Ленина, 123−1» или «Ленина, д. 123, стр.1»; «8(903)123−45−67» или «8−903−123−45−56».

2. Различие в представлении значений Например, некая организация может быть записана в отдельных источниках как «Томский политехнический университет», «Национальный исследовательский Томский политехнический университет», «ТПУ».

3. Потеря актуальности данных одним из источников Например, смена должности сотрудника: в одной БД записана новая должность, в другой старая, и они не совпадают.

4. Наличие ошибок операторского ввода (или ошибок распознавания бланков) в отдельных источниках данных Сюда относятся механические опечатки, ошибки восприятия на слух сложнопроизносимых имен/названий, отсутствие единых стандартов транскрипции с иностранных языков.

5. Намеренное внесение искажений с целью затруднить идентификацию сущностей Например, Ковин и Кoвuн.

Задача несоответствия данных

  • — Перечисленные различия приводят к дублированию записей при интеграции данных в одну БД. Разрешение перечисленных проблем и устранение дублирования записей вручную практически невозможно. Имеется множество методов для ее автоматического и полуавтоматического решения.
  • — По-русски задача не имеет устоявшегося термина (применяются «сопоставление записей», «вероятностное соединение», «нестрогое соединение», «нестрогое соответствие»). В зарубежных работах эта задача носит название Identity resolution, или Record linkage (есть и другие синонимы).
Показать весь текст
Заполнить форму текущей работой