Ми в AUTOMOTO живемо з даних. Агрегуємо автомобільні оголошення з десятків джерел, нормалізуємо, збагачуємо, віддаємо користувачам. Кожен день наші пайплайни розбирають тисячі записів, де одна й та сама Toyota може бути записана як TOYOTA, Toyota, ТОЙОТА або навіть ТОУОТА. І це ще квіточки.
Що не так з державними даними
Міністерство внутрішніх справ публікує реєстр транспортних засобів на data.gov.ua — 146 CSV-файлів за 2013–2026 роки, приблизно 46.8 ГБ сирих даних. Звучить добре. На практиці — це каталог болю:
- Кодування — файли змішують UTF-8 і Windows-1251. Українські літери
є,і,їперетворюються на кракозябри. - Дублікати — дані публікуються кумулятивними снепшотами. У 2023 році з ~32.3 млн рядків лише ~3.7 млн унікальних — 88% дублікатів.
- Назви колонок — змінюються між роками.
MAKE_YEAR,VYP,rik_vypusku— це одне й те саме поле. - Роздільники — де-факто
;, але деякі файли використовують,. Розширення файлів іноді написані кириличноюсзамість латинської. - KOATUU-коди — втрачені провідні нулі (класична проблема Excel), 100+ кодів не знаходяться в жодному публічному довіднику.
- Бренди —
MERCEDES-BENZ,MERSEDES-BENZ,МЕРСЕДЕС БЕНЦ,МЕРСЕДЕС-БЕНЗ— це все один виробник. - Плейсхолдери — замість null:
"невизначено", пробіл, дефіс, нуль, рядок"NULL".
І це лише 7 з 12 задокументованих проблем. Щомісяця ми витрачали ресурси на розбір одних і тих самих граблів.
Чому ми це опублікували
Не з альтруїзму. З прагматизму.
Ми вже очистили ці дані для себе. Побудували пайплайн: детекція кодувань, маппінг колонок, дедуплікація через SHA-256, нормалізація брендів. ~24 млн унікальних записів стиснуті з 46.8 ГБ CSV до ~907 МБ Parquet.
Подібна ситуація з адміністративними кодами. KOATUU (старий класифікатор, ~48 700 записів) і KATOTTG (новий, ~31 993 записи) — потрібні для будь-якої геоприв'язки в Україні. Ми зібрали обидва, включно з неактивними кодами, яких немає в жодному іншому публічному джерелі.
Тримати це всередині — значить щоразу, коли хтось зовні хоче працювати з цими даними, він проходить той самий шлях. Дослідники, журналісти, інші компанії — всі наступають на ті ж граблі. А коли хтось знаходить помилку, ми першими хочемо про це дізнатися.
Чим кращий екосистемний рівень якості даних — тим дешевше нам самим.
І є ще один момент. Кожен pull request від когось ззовні — це безкоштовний буст якості. Хтось знайшов помилку в маппінгу бренду, хтось помітив зниклий KOATUU-код, хтось запропонував кращу логіку парсингу ваги — ми отримуємо покращення без витрат на дослідження. Відкритий код перетворює користувачів даних на контриб'юторів.
Що ми опублікували
UA Vehicle Registry — Data Quality Edition — очищений реєстр транспортних засобів МВС. ~24 млн унікальних записів, 27 публічних колонок (із 80+ у повному пайплайні), формат Apache Parquet + CSV. Помісячні та річні релізи з 2013 по 2026 рік. Кожен реліз супроводжується DQ-звітом. Ліцензія CC BY 4.0.
UA Administrative Codes — KOATUU (~48 700 записів) та KATOTTG (~31 993 записи). Включає активні та неактивні коди. Формат Apache Parquet + CSV. Ліцензія CC BY 4.0.
Обидва датасети пов'язані: реєстр ТЗ використовує KOATUU-коди для геоприв'язки, а довідник адмінкодів — єдине джерело, де можна знайти ті самі 100+ «зниклих» кодів.
Що далі
Дані оновлюються щомісяця разом з новими публікаціями МВС. Ми продовжуємо вдосконалювати нормалізацію брендів і моделей, рекончиляцію KOATUU-кодів та автоматичні DQ-перевірки.
Якщо працюєте з українськими даними — пробуйте, відкривайте issues, пропонуйте виправлення. Чим більше очей бачить ці дані, тим кращими вони стають для всіх.