Mich würde auch interessieren, wie GPT-4.1 mit „rohen“ Videos umgeht, also ob es wirklich relevante Szenen erkennt oder nur grob das Geschehen wiedergibt – gerade bei Tutorials, wo’s manchmal auf Details im Ablauf ankommt. 🤔
Bin mir da selbst nicht 100% sicher… aber ich stell’s mir schwierig vor, wenn zum Beispiel ein Video 2 Stunden dauert und die wichtigen Infos verstreut sind. Ob das Modell dann wirklich den Gesamtzusammenhang durchcheckt oder eher einzelne Highlights rausgreift? Vielleicht hängt das auch stark davon ab, wie das Video „aufbereitet“ wird, also ob Frames extrahiert oder Audiospur transkribiert wird. Wär schon nice, wenn’s echt klappen würde… naja, vielleicht hat ja einer hier schon damit rumprobiert.