die "agentic future" wurde jetzt mal getestet und selbst die größten sprachmodelle haben von die ihnen zur erledigung überantworteten aufgaben zu ganzen 3 % gelöst.
ich würde sagen, das ist wahrscheinlich sogar mehr, als hätte man ne horde schimpansen an die computer gesetzt. wir sind also dran. https://arxiv.org/pdf/2510.26787