
ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench
Контекст и цели бенчмарка
OpenAI представила бенчмарк LifeSciBench, который оценивает, насколько искусственный интеллект способен решать реальные научные задачи, а не просто отвечать на вопросы по биологии. Этот тест отличается от традиционных бенчмарков, которые проверяют запоминание фактов. В LifeSciBench задачи формулируются так, как это делают ученые в лаборатории: