Алексей Таций о продукте и нейросетях

Как нейросети обрабатывают данные в таблицах

Проблемы и решения при использовании нейросетей для анализа данных

Современные генеративные языковые нейросети, такие как GPT от OpenAI, демонстрируют невероятные способности в обработке текстов и решении сложных задач. Однако их применение для анализа данных, особенно таблиц, сопровождается рядом проблем. В этой статье мы разберем основные сложности и предложим возможные пути их решения.

Сложности в анализе данных нейросетями

  1. Одномерность обучения: Большинство языковых моделей обучаются на текстах, которые представляют собой последовательности слов, организованных линейно. Однако таблицы имеют двухмерную структуру, где важны как строки, так и столбцы. Например, перестановка строк и столбцов в таблице не меняет её смысла, но такая же перестановка в тексте приводит к потере смысла. Это делает стандартные модели менее эффективными при работе с таблицами.
  2. Ограничения вертикального анализа: Задачи, такие как поиск пропущенных значений или определение соответствия столбцов, требуют анализа данных по вертикали. Языковые модели часто "думают" слева направо, что ограничивает их способность распознавать вертикальные зависимости.
  3. Чувствительность к порядку данных: Нейросети могут быть излишне чувствительны к порядку столбцов. Например, перемещение столбцов в таблице может привести к неправильным результатам, хотя для человека смысл данных останется прежним.
  4. Разнородность данных: Таблицы часто содержат текстовые и числовые данные, требующие разного подхода к обработке. Нейросети, обученные преимущественно на текстах, не всегда справляются с такой разнородностью.
  5. Миф о универсальности: Хотя нейросети способны справляться с широким кругом задач, они не идеальны для всех случаев. Многие задачи требуют специализированных решений, которые нельзя реализовать универсальной моделью.

Решения для улучшения работы нейросетей с данными

  1. Тюнинг моделей под таблицы: Одним из подходов является дообучение моделей на задачах, связанных с таблицами. Например, метод "table-tuning" включает обучение нейросети с использованием множества задач, синтезированных на основе реальных таблиц. Это помогает модели лучше понимать структуру данных и улучшает её способность к анализу таблиц.
  2. Синтез данных для обучения: Для увеличения объёма тренировочных данных можно использовать синтезированные таблицы, которые включают разнообразные задачи: от поиска пропущенных значений до преобразования данных. Это позволяет модели обучаться на большем количестве примеров и становится менее склонной к ошибкам.
  3. Инструкция-тюнинг: Метод, разработанный для улучшения понимания текстовых инструкций, может быть адаптирован и для таблиц. Использование разнообразных инструкций, связанных с таблицами, помогает нейросетям лучше интерпретировать задачи и корректно выполнять их.
  4. Введение цепочки рассуждений: Добавление этапа логического рассуждения перед выдачей результата улучшает точность. Например, при определении ошибок в таблицах модель сначала анализирует каждую строку и столбец, объясняя свои выводы, а затем предлагает решение.
  5. Использование специализированных моделей: Создание специализированных моделей, таких как Table-GPT, которые заточены под задачи с таблицами, даёт значительные улучшения. Эти модели обучены работать с двусторонними данными и учитывать контекст, как по строкам, так и по столбцам.

Примеры задач и их решение

  1. Поиск пропущенных значений: Задача: Найти пустую ячейку в таблице и определить её координаты. Решение: Table-GPT показывает точность более 70% при обучении на синтезированных данных, в то время как стандартные модели редко достигают 40%.
  2. Сопоставление схем: Задача: Сравнить два набора данных и определить, какие столбцы соответствуют друг другу. Решение: Использование дополнительных данных для настройки модели позволяет повысить точность сопоставления до 90%.
  3. Обработка вертикальных данных: Задача: Анализировать данные по столбцам, например, находить средние значения или аномалии. Решение: Специализированные нейросети с дообучением на вертикальных задачах успешно справляются с такими задачами.

Выводы

Несмотря на существующие проблемы, нейросети имеют огромный потенциал в анализе данных. Их адаптация под таблицы, использование методов дообучения и создания специализированных моделей позволяет значительно улучшить точность и эффективность. Развитие таких подходов открывает новые горизонты для автоматизации обработки данных в самых разных областях, от финансов до медицины.
Работа в этом направлении требует как технических улучшений, так и более глубокого понимания ограничений и возможностей нейросетей. Это позволит не только решать текущие задачи, но и задавать новые стандарты работы с данными.

Источник:
Table-GPT: Table-tuned GPT for Diverse Table Tasks Peng Li† , Yeye He‡ , Dror Yashar, Weiwei Cui, Song Ge, Haidong Zhang, Danielle Rifinski Fainman, Dongmei Zhang, Surajit Chaudhuri Microsoft Corporation