π le performance di un modello non si misurano in base a quel che dichiara il produttore del modello o a quel che dichiarano i concorrenti del produttore del modello
Un paio di link:
- lnkd.in/dCZJBVN6
- lnkd.in/dMC6tHUx
@albertopi.bsky.social
Journalist, Director, Media analyst
π le performance di un modello non si misurano in base a quel che dichiara il produttore del modello o a quel che dichiarano i concorrenti del produttore del modello
Un paio di link:
- lnkd.in/dCZJBVN6
- lnkd.in/dMC6tHUx
π le performance di un modello non si misurano in base a come ha risposto una volta a me o a te. Γ complicato. Ci sono progetti come Lmarena che aiutano a vedere come va in generale (pure lΓ¬ si puΓ² barare un poβ, ovviamente)
31.01.2025 23:18 β π 1 π 0 π¬ 1 π 0π i βguardrailβ dei LLM si possono superare (o provare a superare): con strategie metatestuali, usando i numeri al posto delle lettere, con tecniche di PNL, bla la. Ci sono interi progetti dedicati a questo (come il Redarena)
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0π ogni LLM ha punti di forza e di debolezza. Tipo: sΓ¬, abbiamo capito che β le versioni precedenti di β ChatGPT non sa contare quante r ci sono nella parola strawberry. In generale, se vedi errori di questo genere fanno parte del funzionamento del modello e poi si correggono
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0DeepSeek non parla di Piazza Tienanmen, ChatGPT fa mooooolta fatica a perorare la causa dei palestinesi e via dicendo
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0π ogni LLM ha le sue regole imposte da chi li ha programmati e i suoi guardrail. Faccio esempi sparsi: i limiti sono molti altri Gemini non risponde a domande di politica, Claude 2.1 non dice parolacce manco sotto tortura,
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0π non ha molto senso chiedere a un LLM di fare citazioni letterali, a meno che non si sia fatto un fine-tuning su testi specifici e un poβ di lavoro sul tema. Tendenzialmente, inventerΓ le citazioni letterali
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0Se puΓ² andare sul web e glie lo chiedi magari prenderΓ informazioni da lΓ¬. In ogni caso, se non sa chi sei tu non vuol dire che non funzioni
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0π non ha molto senso chiedere a un LLM βChi sono ioβ. Se questa informazione cβΓ¨ nei suoi dati di addestramento, probabilmente risponderΓ abbastanza correttamente. Se no, inventerΓ .
31.01.2025 23:18 β π 0 π 0 π¬ 1 π 0Qui un rapido riepilogo (se mi viene in mente altro aggiungo e se mi suggerite ancora meglio):
π sΓ¬, gli LLM possono βinventareβ le risposte
π ha poco senso proporre conclusioni definitive rispetto a un nuovo modello, fare affermazioni tipo βquesto cambia tuttoβ o altre cose apodittiche
Mi ero illuso che dopo il primo giro di ubriacatura per ChatGPT fosse piΓΉ chiaro cosa siano gli LLM e come non sprecare troppo tempo, attenzione, risorse, spazi, soprattutto nella produzione dei contenuti. Ma poi Γ¨ arrivato DeepSeek e abbiamo ricominciato da capo, come in un eterno gioco dellβoca.
31.01.2025 23:18 β π 5 π 1 π¬ 1 π 0Typical media tech coverage: AI is unstoppable! ... AI is over!
ChatGPT loses users for first time, shaking faith in AI revolution https://www.washingtonpost.com/technology/2023/07/07/chatgpt-users-decline-future-ai-openai/
Bluesky is a public benefit corp with the mission βto develop and drive large-scale adoption of technologies for open and decentralized public conversation.β
The PBC status allows us to pursue our mission above profit, but we still need to make this open ecosystem sustainable.