Мы в AUTOMOTO живём с данных. Агрегируем автомобильные объявления из десятков источников, нормализуем, обогащаем, отдаём пользователям. Каждый день наши пайплайны разбирают тысячи записей, где одна и та же Toyota может быть записана как TOYOTA, Toyota, ТОЙОТА или даже ТОУОТА. И это ещё цветочки.
Что не так с государственными данными
Министерство внутренних дел публикует реестр транспортных средств на data.gov.ua — 146 CSV-файлов за 2013–2026 годы, примерно 46.8 ГБ сырых данных. Звучит хорошо. На практике — это каталог боли:
- Кодировка — файлы смешивают UTF-8 и Windows-1251. Украинские буквы
є,і,їпревращаются в кракозябры. - Дубликаты — данные публикуются кумулятивными снепшотами. В 2023 году из ~32.3 млн строк лишь ~3.7 млн уникальных — 88% дубликатов.
- Названия колонок — меняются между годами.
MAKE_YEAR,VYP,rik_vypusku— это одно и то же поле. - Разделители — де-факто
;, но некоторые файлы используют,. Расширения файлов иногда написаны кириллическойсвместо латинской. - КОАТУУ-коды — потерянные ведущие нули (классическая проблема Excel), 100+ кодов не находятся ни в одном публичном справочнике.
- Бренды —
MERCEDES-BENZ,MERSEDES-BENZ,МЕРСЕДЕС БЕНЦ,МЕРСЕДЕС-БЕНЗ— это всё один производитель. - Плейсхолдеры — вместо null:
"невизначено", пробел, дефис, ноль, строка"NULL".
И это лишь 7 из 12 задокументированных проблем. Каждый месяц мы тратили ресурсы на разбор одних и тех же граблей.
Почему мы это опубликовали
Не из альтруизма. Из прагматизма.
Мы уже очистили эти данные для себя. Построили пайплайн: детекция кодировок, маппинг колонок, дедупликация через SHA-256, нормализация брендов. ~24 млн уникальных записей сжаты из 46.8 ГБ CSV до ~907 МБ Parquet.
Аналогичная ситуация с административными кодами. КОАТУУ (старый классификатор, ~48 700 записей) и КАТОТТГ (новый, ~31 993 записи) — нужны для любой геопривязки в Украине. Мы собрали оба, включая неактивные коды, которых нет ни в одном другом публичном источнике.
Держать это внутри — значит каждый раз, когда кто-то извне хочет работать с этими данными, он проходит тот же путь. Исследователи, журналисты, другие компании — все наступают на те же грабли. А когда кто-то находит ошибку, мы первыми хотим об этом узнать.
Чем лучше экосистемный уровень качества данных — тем дешевле нам самим.
И есть ещё один момент. Каждый pull request от кого-то извне — это бесплатный буст качества. Кто-то нашёл ошибку в маппинге бренда, кто-то заметил пропавший КОАТУУ-код, кто-то предложил лучшую логику парсинга веса — мы получаем улучшения без затрат на исследование. Открытый код превращает потребителей данных в контрибьюторов.
Что мы опубликовали
UA Vehicle Registry — Data Quality Edition — очищенный реестр транспортных средств МВД. ~24 млн уникальных записей, 27 публичных колонок (из 80+ в полном пайплайне), формат Apache Parquet + CSV. Помесячные и годовые релизы с 2013 по 2026 год. Каждый релиз сопровождается DQ-отчётом. Лицензия CC BY 4.0.
UA Administrative Codes — КОАТУУ (~48 700 записей) и КАТОТТГ (~31 993 записи). Включает активные и неактивные коды. Формат Apache Parquet + CSV. Лицензия CC BY 4.0.
Оба датасета связаны: реестр ТС использует КОАТУУ-коды для геопривязки, а справочник админкодов — единственный источник, где можно найти те самые 100+ «пропавших» кодов.
Что дальше
Данные обновляются ежемесячно вместе с новыми публикациями МВД. Мы продолжаем совершенствовать нормализацию брендов и моделей, рекончиляцию КОАТУУ-кодов и автоматические DQ-проверки.
Если работаете с украинскими данными — пробуйте, открывайте issues, предлагайте исправления. Чем больше глаз видит эти данные, тем лучше они становятся для всех.