Здравствуйте, hi_octane, Вы писали:
_>Человечков всё-таки миллионы лет эволюция хардкодила на 3-х мерный мир, живое/неживое, выделение контуров, и так далее. Ребёнку очень легко отделить кошку от окружения просто за счёт того что кошка движется и видно какие её части как связаны. Плюс у нас есть умение "вычитать всё известное из картинки". Вот сидит на траве неведомый зверь, и ребёнку говорят "кошка", и он сразу понимает что трава уже известна и название у неё другое, значит минус траву, ветка вообще неживая, минус и ветку, и т.д. а то что осталось — получается кошка. Для нейросетей такие алгоритмы "дообучения" ещё только придумывают, улучшают. Тот же Stable Diffusion уже можно "дообучить" на конкретных фотках, без нееобходимости обучать с нуля. Про ещё более передовые вещи можно узнать только из публикаций, написанных достаточно сложным языком.
_>Пока компу приходится увидеть кошку много раз просто чтобы понять где заканчиваются кошачьи пиксели и начинаются пиксели окружающего мира. При этом в 140 тысячах фоток и кошки разные и их окружение разное. Компу в каком-то смысле даже сложнее.
Со всем согласен, но ему достаточно увидеть ее один или несколько раз, и он запомнит. И траву достаточно увидеть несколько раз. И все остальное. Нет ничего такого, что ему надо увидеть 140000 раз, чтобы разобраться.
Кстати, и попиксельно (под микроскопом) он кошку не изучает. Взглянул несколько раз, сказали ему, как она называется — и все, связка "нечто, имеющее такой вид — кошка" в мозгу сформирована.
И узнает он ее теперь в положении сидя, лежа, сзади и во всех прочих кошачьих позах.
А из этого следует, что механизмы принципиально отличаются. Вот в этом и проблема.