Мне не очень понятно, чего ты хочешь добиться.
Понять как запрограммировать ИИ, чтобы он наблюдал изображения и пользовался словами?
Был такой эксперимент (не помню сайт).
Там можно было создать своего бота-пета, потом на изображениях наговорить ему слов,
а потом он с другими ботами обменивался мнениями по поводу других изображений.
Изучал другие слова и у всех роботов формировался словарный запас (у каждого свой)
Погуглил, сейчас ищутся рабо́ты на основе временны́х последовательностей,
ро́боты мобильные и анализируют не только сказанные слова, но
и их связи во времени со своими действиями.