Алексей Таций о продукте и нейросетях

Нейробаттл: DeepSeek против всех 🐳

Проверил языковые модели на математико-лингвистической задаче. Кто решил, а кто сдался перед мощью русских числительных?

📌 Условия задачи

Определи закономерность в ряду чисел и дополни ряд ещё 5 числами:
4, 3, 3, 6, 4, 5, 4, 6, 6, 6, 11, 10, 10, 12, 10
Задача требует работы с русским языком и числительными. Минимум вычислений, простая логика. Но не для всех 😈.
Пока вы думаете над ответом, давайте оценим наших участников.

Откуда я взял список нейронок для теста?

Вот отсюда:
Согласно рейтингу, Дипсик круче всех! Неудивительно: это же рейтинг самого Дипсика! 😀
Предстартовые тесты показали, что задача сложна для нейронок (спойлер: не для всех), поэтому будет загружаться в 3 этапа:

Тело

Определи закономерность в этом числовом ряду и дополни ряд ещё 5 числами
4, 3, 3, 6, 4, 5, 4, 6, 6, 6, 10, 9, 10, 10, 9

Подсказка 1

анализируй количество букв в словах, но не только в этом числовом ряду

Подсказка 2

анализируй количество букв в словах стандартного числового ряда

Ответ:

стандартный ряд чисел (1-15) представлен в виде слов-числительных. По количеству букв в получившихся словах составлен новый числовой ряд. Правильный ответ: 11 10 12 12

🏆 Результаты тестирования


🔬 Анализ

  • GPT 4o работал как типичный студент на экзамене — уверенно рассуждал, писал умные вещи, но ответ не нашёл 🫠.
  • GPT o1 методично копался в задаче и, спустя 3 минуты 27 секунд, догадался. Наш герой 🦸.
  • DeepSeek решил, что лингвистика — это не его уровень, и пошёл искать математику. Но в итоге справился после подсказки 🦾.
  • Claude-3.5 выбрал первое попавшееся решение и остался доволен. Самоуверенность — залог успеха (нет) 🙈.
  • Qwen 2.5 предлагал идеи, но сломался об русский язык. Не он первый, не он последний 🐭.
  • YandexGPT 4 Pro даже не пытался. «Нет данных — нет решения» — вот и вся логика 🪿.
Анализ показал, что у нейросетей есть проблемы с русскими числительными и буквами. Например, GPT o1 не считает мягкий знак и «ы» полноценными буквами. Но, несмотря на это, задачу она всё-таки решила. Учитывая, что 95% работы TATSY PRODUCTION с продуктами идёт на русском языке, способность модели разбираться именно в русском для меня особенно важна.

📢 Вывод

Пока DeepSeek в центре хайпа. Но в этот тест показал, что для анализа данных на русском языке DeepSeek не лучший выбор. Хорошая новость: работает без VPN. Плохая новость: не лучше всех.
👉 Мораль: русские числительные — хороший тест для нейросетей.