Назад до блогу

Чому ми публікуємо відкриті дані

3 хв читання дані відкриті дані

Ми в AUTOMOTO живемо з даних. Агрегуємо автомобільні оголошення з десятків джерел, нормалізуємо, збагачуємо, віддаємо користувачам. Кожен день наші пайплайни розбирають тисячі записів, де одна й та сама Toyota може бути записана як TOYOTA, Toyota, ТОЙОТА або навіть ТОУОТА. І це ще квіточки.

Що не так з державними даними

Міністерство внутрішніх справ публікує реєстр транспортних засобів на data.gov.ua — 146 CSV-файлів за 2013–2026 роки, приблизно 46.8 ГБ сирих даних. Звучить добре. На практиці — це каталог болю:

  • Кодування — файли змішують UTF-8 і Windows-1251. Українські літери є, і, ї перетворюються на кракозябри.
  • Дублікати — дані публікуються кумулятивними снепшотами. У 2023 році з ~32.3 млн рядків лише ~3.7 млн унікальних — 88% дублікатів.
  • Назви колонок — змінюються між роками. MAKE_YEAR, VYP, rik_vypusku — це одне й те саме поле.
  • Роздільники — де-факто ;, але деякі файли використовують ,. Розширення файлів іноді написані кириличною с замість латинської.
  • KOATUU-коди — втрачені провідні нулі (класична проблема Excel), 100+ кодів не знаходяться в жодному публічному довіднику.
  • БрендиMERCEDES-BENZ, MERSEDES-BENZ, МЕРСЕДЕС БЕНЦ, МЕРСЕДЕС-БЕНЗ — це все один виробник.
  • Плейсхолдери — замість null: "невизначено", пробіл, дефіс, нуль, рядок "NULL".

І це лише 7 з 12 задокументованих проблем. Щомісяця ми витрачали ресурси на розбір одних і тих самих граблів.

Чому ми це опублікували

Не з альтруїзму. З прагматизму.

Ми вже очистили ці дані для себе. Побудували пайплайн: детекція кодувань, маппінг колонок, дедуплікація через SHA-256, нормалізація брендів. ~24 млн унікальних записів стиснуті з 46.8 ГБ CSV до ~907 МБ Parquet.

Подібна ситуація з адміністративними кодами. KOATUU (старий класифікатор, ~48 700 записів) і KATOTTG (новий, ~31 993 записи) — потрібні для будь-якої геоприв'язки в Україні. Ми зібрали обидва, включно з неактивними кодами, яких немає в жодному іншому публічному джерелі.

Тримати це всередині — значить щоразу, коли хтось зовні хоче працювати з цими даними, він проходить той самий шлях. Дослідники, журналісти, інші компанії — всі наступають на ті ж граблі. А коли хтось знаходить помилку, ми першими хочемо про це дізнатися.

Чим кращий екосистемний рівень якості даних — тим дешевше нам самим.

І є ще один момент. Кожен pull request від когось ззовні — це безкоштовний буст якості. Хтось знайшов помилку в маппінгу бренду, хтось помітив зниклий KOATUU-код, хтось запропонував кращу логіку парсингу ваги — ми отримуємо покращення без витрат на дослідження. Відкритий код перетворює користувачів даних на контриб'юторів.

Що ми опублікували

UA Vehicle Registry — Data Quality Edition — очищений реєстр транспортних засобів МВС. ~24 млн унікальних записів, 27 публічних колонок (із 80+ у повному пайплайні), формат Apache Parquet + CSV. Помісячні та річні релізи з 2013 по 2026 рік. Кожен реліз супроводжується DQ-звітом. Ліцензія CC BY 4.0.

UA Administrative Codes — KOATUU (~48 700 записів) та KATOTTG (~31 993 записи). Включає активні та неактивні коди. Формат Apache Parquet + CSV. Ліцензія CC BY 4.0.

Обидва датасети пов'язані: реєстр ТЗ використовує KOATUU-коди для геоприв'язки, а довідник адмінкодів — єдине джерело, де можна знайти ті самі 100+ «зниклих» кодів.

Що далі

Дані оновлюються щомісяця разом з новими публікаціями МВС. Ми продовжуємо вдосконалювати нормалізацію брендів і моделей, рекончиляцію KOATUU-кодів та автоматичні DQ-перевірки.

Якщо працюєте з українськими даними — пробуйте, відкривайте issues, пропонуйте виправлення. Чим більше очей бачить ці дані, тим кращими вони стають для всіх.

(0)

Коментарі (0)