Аналоговые часы как слабое место искусственного интеллекта
25.11.2025
Искусственный интеллект давно научился выполнять задачи, которые ещё несколько лет назад казались почти невозможными: он пишет код, анализирует рентгеновские снимки, генерирует видео и даже способен вести осмысленный диалог. Однако новое исследование сразу нескольких научных групп указывает на неожиданную слабость: современные ИИ-модели плохо справляются с тем, что большинство людей усваивают в начальной школе, — они не могут точно определить время по обычным стрелочным часам.
Эта проблема на первый взгляд кажется незначительной, но на деле она раскрывает фундаментальные ограничения в работе современных ИИ-систем.
Одно из наиболее подробных исследований, посвящённых этой теме, — проект ClockBench, где сравнивались результаты людей и 11 ведущих моделей искусственного интеллекта. Испытуемым и моделям было предложено определить время на 180 специально подготовленных изображениях аналоговых часов.
Итоги эксперимента оказались показательными:
- средняя точность человека — 89,1%;
- лучшая модель — 13,3% (Google Gemini 2.5 Pro).
Резульаты исследований ClockBench
Причём разница проявилась не только в количестве ошибок, но и в их природе. Когда человек ошибался, отклонение составляло несколько минут. В случае ИИ ошибки доходили до одного-трёх часов, что фактически совпадает с вероятностью попадания случайным образом.
Исследователи отмечают, чтение аналоговых часов — многоуровневая задача.
ИИ нужно:
- определить расположение стрелок;
- понять, какая стрелка за что отвечает;
- оценить угол наклона относительно цифр;
- перевести пространственное расположение в цифровое время.
Проблемы начинаются уже на первом этапе. Модели путают стрелки, теряются на ярких фонах, неправильно интерпретируют римские цифры или нестандартный дизайн.
Ключевая причина подобных ошибок — отсутствие у ИИ «телесного опыта».
Человек с раннего возраста взаимодействует с реальными объектами, наблюдает их под разными углами, вращает предметы, двигается в пространстве и напрямую связывает зрительные и моторные сигналы. Пространственная ориентация формируется естественным путём: мы физически понимаем, где находится «верх», «низ», «право» и «лево», как меняется изображение при поворотах, наклонах или перемещении. ИИ не имеет подобного опыта. Модель учится на статичных 2D-изображениях, не имеющих глубины, направления и физического наполнения. Её «пространственное мышление» — это статистическая корреляция пикселей, а не понимание пространственных отношений.
Отсюда возникают типичные проблемы:
- модели не могут мысленно «повернуть» объект;
- путают направление вращения;
- не различают зеркальные трансформации;
- воспринимают нестандартные изображения как полностью новые, даже если логика остаётся прежней.
Даже тесты, в которых изображения искажались по принципу картин Сальвадора Дали, показали: там, где человек видит узнаваемый объект, ИИ теряет ориентиры и ошибается в базовых вещах.
Картина Сальвадора Дали
Другая группа исследователей создала датасет из 43 тысяч синтетических изображений часов и протестировала четыре мультимодальные модели, способные анализировать текст и визуальные данные. Первичный результат снова оказался крайне слабым: ни одна модель не справилась с задачей на приемлемом уровне.
Когда разработчики попытались улучшить результаты с помощью дополнительного набора из 5 тысяч изображений, точность повысилась, но только на похожих данных. Стоило изменить внешний вид часов, цвет, фон или стиль циферблата — показатели резко падали. Это указывает на ключевое ограничение современных ИИ: они запоминают примеры, но плохо обобщают опыт.
На первый взгляд кажется, что невозможность прочитать время — безобидная мелочь.
Но она указывает на риски в реальных задачах:
- медицинская диагностика,
- управление беспилотным транспортом,
- промышленная автоматизация,
- анализ изображений в критических системах.
Если модель путает стрелки на изображении, она может также неверно интерпретировать медицинский маркер на рентгене или положение объекта на дороге.
Учёные сходятся во мнении: чтобы ИИ по-настоящему понял визуальный мир, нужны новые подходы. Простое увеличение объёма тренировочных данных проблему не решает. Модели должны научиться формировать не статистические «угадывания», а внутреннее представление о пространстве, подобное человеческому.
И как иронично отметили исследователи:
«Сможет ли ИИ научиться читать аналоговые часы? Только время покажет».