top of page

Архив

Модели DeepMind и OpenAI решают математические задачи на уровне лучших студентов

Впервые крупные языковые модели были выполнены наравне с золотыми медалистами на Международной математической олимпиаде.


Google DeepMind объявила 21 июля, что его программное обеспечение взломало набор математических задач на уровне лучших старшеклассников мира, получив золотую медаль по вопросам Международной математической олимпиады. На первый взгляд, это ознаменовало собой лишь незначительное улучшение по сравнению с показателями прошлого года. Система компании выступала в верхнем диапазоне стандарта серебряной медали на Олимпиаде 2024 года, в то время как в этом году она была оценена в нижнем диапазоне для золотого медалиста человека.


Но оценки в этом году скрывают «большую смену парадигмы», говорит Тханг Луонг, компьютерный ученый в DeepMind в Маунтин-Вью, штат Калифорния. Компания достигла своих предыдущих подвигов, используя два искусственного интеллекта AI) инструменты, специально разработанные для выполнения строгих логических шагов в математических расчетах, называемые AlphaGeometry и AlphaProof. Этот процесс требовал, чтобы эксперты-люди сначала перевели утверждения проблем на что-то похожее на язык программирования, а затем перевели решения ИИ обратно на английский язык.


"В этом году все - это естественный язык, от конца до конца", - говорит Луонг. Команда использовала большую языковую модель (LLM) под названием DeepThink, которая основана на своей системе Gemini, но с некоторыми дополнительными разработками, которые сделали ее лучше и быстрее при производстве математических аргументов, таких как параллельное обращение с несколькими цепочками мыслей. "Долгое время я не думал, что мы сможем зайти так далеко с LLM", - добавляет Луонг.


DeepThink набрал 35 из 42 баллов по 6 задачам, которые были даны участникам Олимпиады этого года. В соответствии с соглашением с организаторами компьютерные решения были отмечены теми же судьями, которые оценивали участников.


Отдельно создатель ChatGPT OpenAI, базирующийся в Сан-Франциско, штат Калифорния, имел свой собственный LLM, который решает те же задачи математической олимпиады на уровне золотой медали, но оценивал свои решения независимо.


Впечатляющее исполнение


В течение многих лет многие исследователи ИИ попадали в один из двух лагерей. До 2012 года ведущим подходом было кодировать правила логического мышления в машине вручную. С тех пор нейронные сети, которые обучаются автоматически, обучаясь на огромных сокровищницах данных, совершили серию сенсационных прорывов, и такие инструменты, как ChatGPT от OpenAI, теперь вошли в широкое использование.


Гэри Маркус, нейробиолог из Нью-Йоркского университета (NYU) в Нью-Йорке, назвал результаты DeepMind и OpenAI «ужесно впечатляющими». Маркус является сторонником подхода «логики кодирования вручную», также известного как Нейросимволический ИИ — и частый критик того, что он считает шумихой вокруг LLM. Тем не менее, писая на Substack с компьютерным ученым Нью-Йоркского университета Эрнестом Дэвисом, он прокомментировал, что «уметь решать математические задачи на уровне 67 лучших старшеклассников в мире - это действительно хорошие навыки решения математических задач».


Еще предстоит выяснить, останется ли превосходство LLM по проблемам IMO, или нейросимволический ИИ вернется на вершину. "На данный момент два лагеря продолжают развиваться", - говорит Луонг, который работает над обоими подходами. «Они могли бы сойтиться вместе».


Его команда уже экспериментировала с использованием LLM для автоматизации перевода математических утверждений из естественного языка в формальную систему, которую может читать AlphaGeometry.


Такие системы, как AlphaProof, также имеют преимущество в том, что они могут подтвердить правильность своих доказательств, в то время как доказательства, написанные LLM, должны проверяться людьми, как это делают математические работы, написанные человеком. Многие математики работают над переводом письменных человеком доказательств на машиночитаемый язык, чтобы компьютеры проверяли их правильность.


Готов к исследованию?


Математик Кевин Баззард из Имперского колледжа Лондона написал на платформе социальных сетей Zulip, что успех олимпиады по математике не обязательно означает, что молодой математик готов проводить передовые исследования. По тому же, добавил он, это «открытый вопрос», приведут ли показатели этих систем к тому, что они смогут решать сложные исследовательские вопросы.


Кен Оно, математик из Вирджинского университета в Шарлоттсвилле, согласен. «Я рассматриваю ИИ как ценных партнеров по исследованиям, обеспечивающих быстрый доступ к научной литературе и сводкам данных, а также предлагающих эффективные Стратегии для решения удивительно сложных проблем", - говорит он. Но он добавляет, что «эти тесты и контрольные показатели не соответствуют тому, что делают теоретические математики».


DeepMind говорит, что позже это позволит некоторым исследователям работать с версией DeepThink. "Очень скоро мы сможем иметь ИИ, сотрудничающий с математиками", - говорит Луонг.

Комментарии


Счётчики

Чтобы общаться с участниками, войдите в аккаунт
Знакомьтесь и подписывайтесь на участников сообщества, оставляйте комментарии и т. д.

Старый Сайт

сайт.png

Аниме Радио

1479003_edited.png
bottom of page