Alberto Puliafito @albertopi

📌 le performance di un modello non si misurano in base a quel che dichiara il produttore del modello o a quel che dichiarano i concorrenti del produttore del modello

Un paio di link:
- lnkd.in/dCZJBVN6
- lnkd.in/dMC6tHUx

31.01.2025 23:18 — 👍 4 🔁 0 💬 0 📌 0

📌 le performance di un modello non si misurano in base a come ha risposto una volta a me o a te. È complicato. Ci sono progetti come Lmarena che aiutano a vedere come va in generale (pure lì si può barare un po’, ovviamente)

31.01.2025 23:18 — 👍 1 🔁 0 💬 1 📌 0

📌 i “guardrail” dei LLM si possono superare (o provare a superare): con strategie metatestuali, usando i numeri al posto delle lettere, con tecniche di PNL, bla la. Ci sono interi progetti dedicati a questo (come il Redarena)

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

📌 ogni LLM ha punti di forza e di debolezza. Tipo: sì, abbiamo capito che – le versioni precedenti di – ChatGPT non sa contare quante r ci sono nella parola strawberry. In generale, se vedi errori di questo genere fanno parte del funzionamento del modello e poi si correggono

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

DeepSeek non parla di Piazza Tienanmen, ChatGPT fa mooooolta fatica a perorare la causa dei palestinesi e via dicendo

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

📌 ogni LLM ha le sue regole imposte da chi li ha programmati e i suoi guardrail. Faccio esempi sparsi: i limiti sono molti altri Gemini non risponde a domande di politica, Claude 2.1 non dice parolacce manco sotto tortura,

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

📌 non ha molto senso chiedere a un LLM di fare citazioni letterali, a meno che non si sia fatto un fine-tuning su testi specifici e un po’ di lavoro sul tema. Tendenzialmente, inventerà le citazioni letterali

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

Se può andare sul web e glie lo chiedi magari prenderà informazioni da lì. In ogni caso, se non sa chi sei tu non vuol dire che non funzioni

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

📌 non ha molto senso chiedere a un LLM “Chi sono io”. Se questa informazione c’è nei suoi dati di addestramento, probabilmente risponderà abbastanza correttamente. Se no, inventerà.

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

Qui un rapido riepilogo (se mi viene in mente altro aggiungo e se mi suggerite ancora meglio):

📌 sì, gli LLM possono “inventare” le risposte
📌 ha poco senso proporre conclusioni definitive rispetto a un nuovo modello, fare affermazioni tipo “questo cambia tutto” o altre cose apodittiche

31.01.2025 23:18 — 👍 0 🔁 0 💬 1 📌 0

Mi ero illuso che dopo il primo giro di ubriacatura per ChatGPT fosse più chiaro cosa siano gli LLM e come non sprecare troppo tempo, attenzione, risorse, spazi, soprattutto nella produzione dei contenuti. Ma poi è arrivato DeepSeek e abbiamo ricominciato da capo, come in un eterno gioco dell’oca.

31.01.2025 23:18 — 👍 5 🔁 1 💬 1 📌 0

ChatGPT loses users for first time, shaking faith in AI revolution OpenAI's chatbot has been heralded as spurring a revolution in the tech world. But its spectacular growth has suddenly slowed down.

Typical media tech coverage: AI is unstoppable! ... AI is over!

ChatGPT loses users for first time, shaking faith in AI revolution https://www.washingtonpost.com/technology/2023/07/07/chatgpt-users-decline-future-ai-openai/

08.07.2023 10:04 — 👍 4 🔁 3 💬 0 📌 0

Bluesky is a public benefit corp with the mission “to develop and drive large-scale adoption of technologies for open and decentralized public conversation.”

The PBC status allows us to pursue our mission above profit, but we still need to make this open ecosystem sustainable.

05.07.2023 21:11 — 👍 1061 🔁 194 💬 36 📌 47

Alberto Puliafito

Latest posts by albertopi.bsky.social on Bluesky

@albertopi is following 18 prominent accounts