Разработанный больше 70 лет назад тест Тьюринга сегодня применяется для определения способности чат-ботов к тому, чтобы выдавать себя за человека. Американские специалисты из Университета штата Калифорния в Сан-Диего разработали онлайн-версию этого теста, в которой решили выяснить, кто лучше сможет притвориться человеком — созданный в 1966 году чат-бот «Элайза», пародирующий психоаналитика, или современные GPT-4 и GPT-3.5.
© Shutterstock/FOTODOM
Согласно публикации в arXiv, в испытаниях приняли участие 652 человека, которые провели больше тысячи сессий общения с моделями искусственного интеллекта (ИИ) или остальными участниками. После проведенной сессии от испытуемых требовалось ответить, общались ли они с ботом или другим человеком.
Отмечается, что людей в качестве собеседников испытуемые определяли в 63 % случаев, а в 37 % их принимали за ИИ. Чат-ботам GPT-4 и GPT-3.5 удалось выдать себя за человека в 41 % и 14 % случаев, а «Элайзе» это неожиданно удалось в 27 %, что почти вдвое больше, чем у GPT-3.5.
Успех древней модели объясняется тем, что ее ответы были весьма консервативны и создавали иллюзию «несговорчивого собеседника». Кроме того, она не отличалась присущим современным моделям дружелюбностью и многословием, а также некоторые из испытуемых сочли чат-бот слишком плохим, чтобы быть моделью ИИ, поэтому они приняли его за человека.
Как заметили ученые, полученные результаты указали на несостоятельность теста Тьюринга из-за того, что он может недостаточно точно оценивать способности ИИ.