← Назад к блогу
ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

Контекст и цели бенчмарка

OpenAI представила бенчмарк LifeSciBench, который оценивает, насколько искусственный интеллект способен решать реальные научные задачи, а не просто отвечать на вопросы по биологии. Этот тест отличается от традиционных бенчмарков, которые проверяют запоминание фактов. В LifeSciBench задачи формулируются так, как это делают ученые в лаборатории: