Аналоговые часы как слабое место искусственного интеллекта
25.11.2025

Искусственный интеллект давно научился выполнять задачи, которые ещё несколько лет назад казались почти невозможными: он пишет код, анализирует рентгеновские снимки, генерирует видео и даже способен вести осмысленный диалог. Однако новое исследование сразу нескольких научных групп указывает на неожиданную слабость: современные ИИ-модели плохо справляются с тем, что большинство людей усваивают в начальной школе, — они не могут точно определить время по обычным стрелочным часам.

Эта проблема на первый взгляд кажется незначительной, но на деле она раскрывает фундаментальные ограничения в работе современных ИИ-систем.

Одно из наиболее подробных исследований, посвящённых этой теме, — проект ClockBench, где сравнивались результаты людей и 11 ведущих моделей искусственного интеллекта. Испытуемым и моделям было предложено определить время на 180 специально подготовленных изображениях аналоговых часов.

Итоги эксперимента оказались показательными:

резульаты ClockBench
Резульаты исследований ClockBench

Причём разница проявилась не только в количестве ошибок, но и в их природе. Когда человек ошибался, отклонение составляло несколько минут. В случае ИИ ошибки доходили до одного-трёх часов, что фактически совпадает с вероятностью попадания случайным образом.

Исследователи отмечают, чтение аналоговых часов — многоуровневая задача.

ИИ нужно:

Проблемы начинаются уже на первом этапе. Модели путают стрелки, теряются на ярких фонах, неправильно интерпретируют римские цифры или нестандартный дизайн.

Ключевая причина подобных ошибок — отсутствие у ИИ «телесного опыта».

Человек с раннего возраста взаимодействует с реальными объектами, наблюдает их под разными углами, вращает предметы, двигается в пространстве и напрямую связывает зрительные и моторные сигналы. Пространственная ориентация формируется естественным путём: мы физически понимаем, где находится «верх», «низ», «право» и «лево», как меняется изображение при поворотах, наклонах или перемещении. ИИ не имеет подобного опыта. Модель учится на статичных 2D-изображениях, не имеющих глубины, направления и физического наполнения. Её «пространственное мышление» — это статистическая корреляция пикселей, а не понимание пространственных отношений.

Отсюда возникают типичные проблемы:

Даже тесты, в которых изображения искажались по принципу картин Сальвадора Дали, показали: там, где человек видит узнаваемый объект, ИИ теряет ориентиры и ошибается в базовых вещах.

картина Сальвадора Дали
Картина Сальвадора Дали

Другая группа исследователей создала датасет из 43 тысяч синтетических изображений часов и протестировала четыре мультимодальные модели, способные анализировать текст и визуальные данные. Первичный результат снова оказался крайне слабым: ни одна модель не справилась с задачей на приемлемом уровне.

Когда разработчики попытались улучшить результаты с помощью дополнительного набора из 5 тысяч изображений, точность повысилась, но только на похожих данных. Стоило изменить внешний вид часов, цвет, фон или стиль циферблата — показатели резко падали. Это указывает на ключевое ограничение современных ИИ: они запоминают примеры, но плохо обобщают опыт.

На первый взгляд кажется, что невозможность прочитать время — безобидная мелочь. Но она указывает на риски в реальных задачах:

Если модель путает стрелки на изображении, она может также неверно интерпретировать медицинский маркер на рентгене или положение объекта на дороге.

Учёные сходятся во мнении: чтобы ИИ по-настоящему понял визуальный мир, нужны новые подходы. Простое увеличение объёма тренировочных данных проблему не решает. Модели должны научиться формировать не статистические «угадывания», а внутреннее представление о пространстве, подобное человеческому.

И как иронично отметили исследователи:
«Сможет ли ИИ научиться читать аналоговые часы? Только время покажет».