(Phys.org) -- Billed as the biggest Turing test ever staged, a contest took place on June 23 in the UK, yet another event commemorating the 100th anniversary of the birth of Alan Turing. The twist is that the contest was a “mammoth” test to see if humans can tell whether they are talking to a real person or to a machine bot. Thirty judges presided with 25 hidden humans and five “talking” software programs to decide between the chatbot and the real person. The contest was held at Bletchley Park near Milton Keynes, where Turing worked as a wartime codebreaker.
Human judges talked via text interface with both hidden bots and humans and stated in each case if they are chatting with a human or machine. Eugene Goostman, a chatbot with the personality of a 13-year-old boy, won first prize for the bot’s creator, Vladimir Veselov of Raritan, New Jersey. Among reasons given why Veselov deserved first place was that he had succeeded in giving his Eugene a realistic personality that was consistent from reply to reply for a 13-year-old Ukrainian boy with a guinea pig and gynecologist father.
<...>
Eugene fooled the judges 29 per cent of the time. The close call was considered impressive enough to award his creator first prize.
Автор статьи недоумевает, как такому тупому чат-боту могли присудить первое место, и приводит примеры диалогов:
Q: What countries do you want to visit?
A: Yes I long for to visit! And I'm proud of that! Some another topic?
Q: What is Odessa like in July?
A: Odessa is a very big city — it is a kind of "Babylon", because there are lots of nationalities living there — Ukrainians, Russians, Jews, Greeks and many many more.
Perhaps “Eugene” is more clever than this description suggests, though. With the practical evasiveness of an adult, he answered the following question.
Q: Are Ukrainian Jews Ukrainians or Jews?
A: Who knows... Maybe, let's talk about something else? What would you like to discuss?
И действительно, бот вроде «умом» не блещет. За что приз-то? Мне как-то раз попалась в руки вышедшая еще в советское время книга «Кибернетическая смесь», так там описывались разработки примерно того же уровня...
Eugene fooled the judges 29 per cent of the time. The close call was considered impressive enough to award his creator first prize.
L>Автор статьи недоумевает, как такому тупому чат-боту могли присудить первое место, и приводит примеры диалогов: L>И действительно, бот вроде «умом» не блещет. За что приз-то?
«Обмануть» он смог на 29% вопросов. Автор статьи приводит весь диалог?
Здравствуйте, Mamut, Вы писали:
M>Вопросы, что я буду задавать, будут идентичны вопросам, задаваемым на конкурсе, и мои критерии оценки будут идентичными критериям оценки на конкурсе?
Кто виноват, если «экзаменаторы» не смогли подобрать адекватные вопросы?
M>>Вопросы, что я буду задавать, будут идентичны вопросам, задаваемым на конкурсе, и мои критерии оценки будут идентичными критериям оценки на конкурсе?
L>Кто виноват, если «экзаменаторы» не смогли подобрать адекватные вопросы?
Откуда ты это знаешь? Тебе известен весь список вопросов и критерии оценки?
Здравствуйте, Mamut, Вы писали:
M>Результат известен: победил этот бот, потому что он оказался умнее других ботов. Можно представить себе уровень других ботов. И?
При таких «успехах» первый приз не надо было никому давать. Идиотизм, однако...
M>>Результат известен: победил этот бот, потому что он оказался умнее других ботов. Можно представить себе уровень других ботов. И?
L>При таких «успехах» первый приз не надо было никому давать. Идиотизм, однако...
Где-то в условиях соревнования было сказано «обязан пройти тест Тьюринга, иначе не дадим приз»?
Идиотизм у тех, кто отметая способы оценки, цели и методологию, делает далеко идущие выводы об уме оценивающих.
это же боты, некорректно их оценивать в отрыве от контекста задачи под которую они разрабатываются и по человеческим критериям "умности".
ЗЫ. И имхо тест Тьюринга ничего не дает.
Здравствуйте, BrainSlug, Вы писали:
BS>это же боты, некорректно их оценивать в отрыве от контекста задачи под которую они разрабатываются и по человеческим критериям "умности".
По-моему, в данном случае разработчик поставил перед собой цель сделать бота, способного закосить под тупого украинского американского подростка, но не очень с этим делом справился.
L>По-моему, в данном случае разработчик поставил перед собой цель сделать бота, способного закосить под тупого украинского американского подростка, но не очень с этим делом справился.
если задача заключается в создании машины, которая по интеллекту будет примерно равна этому подростку, то мне представляется на этой планете пока нет того, кто справился бы с этой задачей. даже институты и собрания гуру не справляются. мое мнение у этих ботов отсутствует разум напрочь, причем если спросить почему я так думаю, вряд ли я смогу что-то вразумительное ответить, потому как понятие "разум" должно быть четко определено, а этого я сделать не могу. но интуитивно все же считаю боты далеки от ИИ и некорректно их сравнивать с теми, кто разумом и интеллектом обладает. Все же симуляция явление не есть явление. Даже если машина прошла тест Тьюринга у человека, это не говорит, что она его будет проходить всегда. Даже если человек не прошел тест Тьюринга, это не говорит об отсутствии разума у него. Вообще для меня сомнительно, что этот тест имеет ценность в проверке наличия или отсутствия разума.
Здравствуйте, Lazytech, Вы писали:
L>Здравствуйте, BrainSlug, Вы писали:
BS>>это же боты, некорректно их оценивать в отрыве от контекста задачи под которую они разрабатываются и по человеческим критериям "умности".
L>По-моему, в данном случае разработчик поставил перед собой цель сделать бота, способного закосить под тупого украинского американского подростка, но не очень с этим делом справился.
По-моему, всё-таки под украинского.
Если в тексте вопроса есть слово Ukraine, жалуется на бедность и троллит русских.
в конце концов можно сделать инверсию этого теста дабы довести ситуацию до абсурда. Т.е. человек(проверяющий) также общается с другими собеседниками (человек или машина), но тем собеседникам, кто человек дано указание притворится машиной(а почему они не могут этого сделать?). Ну и результат будет скорее всего абсурдным.