Назад к блогу

Почему мы публикуем открытые данные

3 мин чтения данные открытые данные

Мы в AUTOMOTO живём с данных. Агрегируем автомобильные объявления из десятков источников, нормализуем, обогащаем, отдаём пользователям. Каждый день наши пайплайны разбирают тысячи записей, где одна и та же Toyota может быть записана как TOYOTA, Toyota, ТОЙОТА или даже ТОУОТА. И это ещё цветочки.

Что не так с государственными данными

Министерство внутренних дел публикует реестр транспортных средств на data.gov.ua — 146 CSV-файлов за 2013–2026 годы, примерно 46.8 ГБ сырых данных. Звучит хорошо. На практике — это каталог боли:

  • Кодировка — файлы смешивают UTF-8 и Windows-1251. Украинские буквы є, і, ї превращаются в кракозябры.
  • Дубликаты — данные публикуются кумулятивными снепшотами. В 2023 году из ~32.3 млн строк лишь ~3.7 млн уникальных — 88% дубликатов.
  • Названия колонок — меняются между годами. MAKE_YEAR, VYP, rik_vypusku — это одно и то же поле.
  • Разделители — де-факто ;, но некоторые файлы используют ,. Расширения файлов иногда написаны кириллической с вместо латинской.
  • КОАТУУ-коды — потерянные ведущие нули (классическая проблема Excel), 100+ кодов не находятся ни в одном публичном справочнике.
  • БрендыMERCEDES-BENZ, MERSEDES-BENZ, МЕРСЕДЕС БЕНЦ, МЕРСЕДЕС-БЕНЗ — это всё один производитель.
  • Плейсхолдеры — вместо null: "невизначено", пробел, дефис, ноль, строка "NULL".

И это лишь 7 из 12 задокументированных проблем. Каждый месяц мы тратили ресурсы на разбор одних и тех же граблей.

Почему мы это опубликовали

Не из альтруизма. Из прагматизма.

Мы уже очистили эти данные для себя. Построили пайплайн: детекция кодировок, маппинг колонок, дедупликация через SHA-256, нормализация брендов. ~24 млн уникальных записей сжаты из 46.8 ГБ CSV до ~907 МБ Parquet.

Аналогичная ситуация с административными кодами. КОАТУУ (старый классификатор, ~48 700 записей) и КАТОТТГ (новый, ~31 993 записи) — нужны для любой геопривязки в Украине. Мы собрали оба, включая неактивные коды, которых нет ни в одном другом публичном источнике.

Держать это внутри — значит каждый раз, когда кто-то извне хочет работать с этими данными, он проходит тот же путь. Исследователи, журналисты, другие компании — все наступают на те же грабли. А когда кто-то находит ошибку, мы первыми хотим об этом узнать.

Чем лучше экосистемный уровень качества данных — тем дешевле нам самим.

И есть ещё один момент. Каждый pull request от кого-то извне — это бесплатный буст качества. Кто-то нашёл ошибку в маппинге бренда, кто-то заметил пропавший КОАТУУ-код, кто-то предложил лучшую логику парсинга веса — мы получаем улучшения без затрат на исследование. Открытый код превращает потребителей данных в контрибьюторов.

Что мы опубликовали

UA Vehicle Registry — Data Quality Edition — очищенный реестр транспортных средств МВД. ~24 млн уникальных записей, 27 публичных колонок (из 80+ в полном пайплайне), формат Apache Parquet + CSV. Помесячные и годовые релизы с 2013 по 2026 год. Каждый релиз сопровождается DQ-отчётом. Лицензия CC BY 4.0.

UA Administrative Codes — КОАТУУ (~48 700 записей) и КАТОТТГ (~31 993 записи). Включает активные и неактивные коды. Формат Apache Parquet + CSV. Лицензия CC BY 4.0.

Оба датасета связаны: реестр ТС использует КОАТУУ-коды для геопривязки, а справочник админкодов — единственный источник, где можно найти те самые 100+ «пропавших» кодов.

Что дальше

Данные обновляются ежемесячно вместе с новыми публикациями МВД. Мы продолжаем совершенствовать нормализацию брендов и моделей, рекончиляцию КОАТУУ-кодов и автоматические DQ-проверки.

Если работаете с украинскими данными — пробуйте, открывайте issues, предлагайте исправления. Чем больше глаз видит эти данные, тем лучше они становятся для всех.

(0)

Комментарии (0)