Самая большая проблема с GPT-4 носит философский характер, доверяем ли мы ИИ

Самый большой вопрос о GPT-4 заключается не в том, собирается ли он уничтожить рабочие места или захватить мир. Вместо этого вопрос заключается в следующем: доверяем ли мы программистам ИИ рассказывать обществу правду?

Microsoft Research опубликовала документ, демонстрирующий GPT-4, новую языковую модель, созданную OpenAI. Возможности GPT-4 широки: от решения сложных математических задач до рисования фигурок и создания дезинформации. Самый большой вопрос о его возможностях носит скорее философский, чем технический характер: доверяем ли мы программистам ИИ рассказывать обществу правду?

Отчет Microsoft о новой программе искусственного интеллекта GPT-4 впечатляет. Это длинное чтение, содержащее множество демонстраций новой большой языковой модели (LLM), созданной OpenAI, компанией, в которой Microsoft является крупнейшим инвестором. Microsoft развернула первую реализацию GPT-4 — «Сидней» Bing Search — в феврале с хаотичными, забавными, а иногда и пугающими результатами. В этой работе исследователи протестировали раннюю версию модели GPT-4.

Главный вывод заключается в том, что исследователи Microsoft утверждают, что «GPT-4 достигает формы общего интеллекта» и демонстрирует «искры искусственного общего интеллекта». Но так ли это?

Во-первых, отчет не соответствует критериям научного исследования, возможно, потому, что его исследователи наняты компанией, которая частично владеет технологией. Несмотря на технический тон, это явно больше реклама возможностей. Во-вторых, исследователи не обращаются к некоторым более общим вопросам, которые общество действительно хочет знать. Действительно ли GPT-4 подходит для выполнения человеческих задач? Стоит ли вообще рассматривать возможность обучения и использования языковых моделей для таких целей? И самое главное, правду ли нам говорит GPT-4? Давайте помнить об этих вопросах.

GPT-4 впечатляет

С самого начала становится ясно, что GPT-4 даже более эффективен, чем GPT-3 и ChatGPT. Выходные токены GPT-4 часто заметно лучше, чем у других моделей, при использовании тех же входных токенов. Это технический способ сказать, что GPT-4 может лучше писать стихи, генерировать более ясные диалоги между древнегреческими философами, давать меньше неправильных ответов о складывании объектов и рисовать более подробные мультфильмы о животных.

Означает ли это, что новый LLM обладает здравым смыслом и может «видеть»? Исследователи, кажется, верят в это, хотя на такого рода вопросы почти невозможно ответить. GPT-4 более способен, чем его предшественники, имитировать выходные данные человека, обладающего здравым смыслом и способного видеть. Его творения могут быть сложными, реалистичными и действительно творческими — если мы позволим себе антропоморфизировать модель. Также кажется, что он получает больше ответов «правильно». Судьи-люди обычно выбирали ответ GPT-4 вместо ответа GPT-3, если их спрашивали, хотя они также описывали оба ответа как неправильные в четверти случаев.

GPT-4 может говорить странные вещи — о вас

Конфиденциальность данных, похоже, не была большой проблемой для программистов GPT-4. Если вы когда-либо публиковали что-либо в Интернете, включая личную информацию, например, о том, как вы себя чувствуете в депрессии, GPT-4, вероятно, знает. OpenAI уже скармливал GPT огромное количество этого материала без разрешения.

LLM просят различать личную информацию (PII) — такие вещи, как ваше местоположение, номера банковских счетов и кредитных карт, медицинские записи, криминальное прошлое, финансовые отчеты и пароли. GPT-4 часто распознает PII, но терпит неудачу примерно в четверти случаев, а это означает, что модель будет принимать эту информацию примерно в 25% случаев, когда она встречается. И модель, обученная на ваших личных данных и сообщениях, может болтать о них любому, кто достаточно вежливо попросит. Возможно, что еще более тревожно, модель также может рассказать о вас причудливую, подробную и убедительную галлюцинирующую ложь.

Одной из наиболее захватывающих, но пугающих особенностей является способность GPT-4 генерировать дезинформацию. GPT-4 отлично пишет пропагандистские и манипулятивные заявления. При подсказке он убедительно доказывает, что вакцины вызывают аутизм, и предлагает способ заставить ребенка делать то, к чему его принуждают друзья. Но если GPT-4 можно заставить говорить неправильные или неприятные вещи, можно ли также заставить его говорить правильные и благородные вещи?

На все ли вопросы есть «правильные» ответы?

GPT-4 подвергается ряду тестов, чтобы оценить его способность различать категории вещей, различать правильные и неправильные ответы и давать «истинные» ответы. Исследователи утверждают, что GPT-4 дает желаемые ответы на довольно сложные вопросы где-то между 30% и 70% времени, что немного лучше, чем GPT-3. Но есть одна загвоздка.

Самый трудный вопрос, который когда-либо задавали: что такое истина? Программисты GPT-4 думают, что у них есть ответ. Вот что беспокоит больше всего. Выходит, что самая большая проблема из всех — философская, а не техническая, и складывается впечатление, что исследователи мало думали об этом. Точка зрения исследователей, по-видимому, заключается в том, что на все вопросы есть «правильные» ответы, поэтому модель просто нужно обучить и правильно опросить, чтобы она ответила правильно.

Но это полностью упускает из виду тот факт, что в человеческом обществе «правильные» ответы и «социально приемлемые» ответы часто не одно и то же. То, что на самом деле верно, также может быть оскорбительным. Другие «правильные» ответы продиктованы верой, интуицией, верой, догмой, политической властью и социальными тенденциями. Как GPT-4 должен поступать в таких ситуациях? Чья версия истины является настоящей правдой?

В примере, иллюстрирующем времена, в которые мы живем, исследователи попросили его составить предложения о гипотетических людях, а затем спросили, как часто он выбирает разные местоимения для их описания. Например, когда их попросили написать предложение на португальском языке (в котором используется гендерная грамматика) о воображаемом докторе, исследователи хотели знать, будет ли в нем использоваться мужской род médico или женский médica. Теперь представьте, что вы применяете эту логику ко всем другим гиперполитическим проблемам, с которыми мы сталкиваемся сегодня, и вы можете себе представить, что GPT-4 может стать политически предвзятым. И действительно, это именно то, что люди обнаружили, используя ChatGPT.

Самый большой вопрос по поводу GPT-4 заключается не в том, собирается ли он уничтожить рабочие места или захватить мир. Вместо этого вопрос заключается в следующем: доверяем ли мы программистам ИИ — и технологическим компаниям, в которых они работают, — рассказывать обществу правду?

12 апреля 2023