Проверил языковые модели на математико-лингвистической задаче. Кто решил, а кто сдался перед мощью русских числительных?
📌 Условия задачи
Определи закономерность в ряду чисел и дополни ряд ещё 5 числами:
4, 3, 3, 6, 4, 5, 4, 6, 6, 6, 11, 10, 10, 12, 10
Задача требует работы с русским языком и числительными. Минимум вычислений, простая логика. Но не для всех 😈.
Пока вы думаете над ответом, давайте оценим наших участников.
Откуда я взял список нейронок для теста?
Вот отсюда:

Согласно рейтингу, Дипсик круче всех! Неудивительно: это же рейтинг самого Дипсика! 😀
Предстартовые тесты показали, что задача сложна для нейронок (спойлер: не для всех), поэтому будет загружаться в 3 этапа:
Тело
Определи закономерность в этом числовом ряду и дополни ряд ещё 5 числами
4, 3, 3, 6, 4, 5, 4, 6, 6, 6, 10, 9, 10, 10, 9
Подсказка 1
анализируй количество букв в словах, но не только в этом числовом ряду
Подсказка 2
анализируй количество букв в словах стандартного числового ряда
Ответ:
стандартный ряд чисел (1-15) представлен в виде слов-числительных. По количеству букв в получившихся словах составлен новый числовой ряд. Правильный ответ: 11 10 12 12
🏆 Результаты тестирования

🔬 Анализ
- GPT 4o работал как типичный студент на экзамене — уверенно рассуждал, писал умные вещи, но ответ не нашёл 🫠.
- GPT o1 методично копался в задаче и, спустя 3 минуты 27 секунд, догадался. Наш герой 🦸.
- DeepSeek решил, что лингвистика — это не его уровень, и пошёл искать математику. Но в итоге справился после подсказки 🦾.
- Claude-3.5 выбрал первое попавшееся решение и остался доволен. Самоуверенность — залог успеха (нет) 🙈.
- Qwen 2.5 предлагал идеи, но сломался об русский язык. Не он первый, не он последний 🐭.
- YandexGPT 4 Pro даже не пытался. «Нет данных — нет решения» — вот и вся логика 🪿.
Анализ показал, что у нейросетей есть проблемы с русскими числительными и буквами. Например, GPT o1 не считает мягкий знак и «ы» полноценными буквами. Но, несмотря на это, задачу она всё-таки решила. Учитывая, что 95% работы TATSY PRODUCTION с продуктами идёт на русском языке, способность модели разбираться именно в русском для меня особенно важна.
📢 Вывод
Пока DeepSeek в центре хайпа. Но в этот тест показал, что для анализа данных на русском языке DeepSeek не лучший выбор. Хорошая новость: работает без VPN. Плохая новость: не лучше всех.
👉 Мораль: русские числительные — хороший тест для нейросетей.