If you want to scale up to around 1 000 000 rows, you might want consider the 2021 Canadian census pumf dataset.
mountainmath.github.io/canpumf/
@coulsim.bsky.social
Gosseux d'données/pelleteux de cloud. Economist turned data scientist in the insurance industry. EN/FR #rstats en production #opendata blog: www.simoncoulombe.com github: simoncoulombe
If you want to scale up to around 1 000 000 rows, you might want consider the 2021 Canadian census pumf dataset.
mountainmath.github.io/canpumf/
I am taking over a report that currently wrangles the 5 millions of rows :
**90 minutes** when using dplyr starting from a .rds file
**72 seconds** when using duckdb + dbplyr from a parquet file.
There's probably room for optimising the dplyrworkflow, but "let's try {duckdb+ dbplyr} worked.
nice! Air France ended up paying my family 9600$ after they took off the Quebec-Paris plane at 2AM after we boarded it.
They didnt have enough meals.
The plane took off without us and ~40 other people and we got to our destination 2 days later.
thanks!
Now I remember that exact image from reading the r4ds book years ago, guess it bit me until now!
I had just written a for loop that compared the sums of all the columns in two supposedly identical data frames just for a quick test and I was surprised that one had a sum of "nearly 0".
thanks!
works your way too that would work too -- i have to admit i find that
sum(data[["column_name"]])
with the double brackets look better :)
Hey #rstats, any idea why sum(data$column_name) doesnt return the same value as sum(data["column_name"]) for my column? I guess it's related to it being a stupid integer64..
23.01.2026 20:38 — 👍 4 🔁 1 💬 2 📌 0 group_by() + summarize()
too old to switch to the other approach
lol, i had to see it to believe it
09.01.2026 05:51 — 👍 0 🔁 0 💬 1 📌 0Ooh! Tres bon indice, ca me donne une direction - merci :)
02.01.2026 04:00 — 👍 1 🔁 0 💬 0 📌 0Help - ca fait 30 ans passés que je dis « tu continusses passé la flaque de popsicle fondu ». J’imagine ça vient d´un sketch de RBO? Entk Google ne trouve rien pantoute
02.01.2026 02:00 — 👍 1 🔁 0 💬 1 📌 0I'm pretty sure a bin-fluencer is the first person on the street who puts their recycling/composting/waste bin by the street, allowing everyone else to copy them instead of looking up the waste collection calendar.
28.12.2025 14:47 — 👍 0 🔁 0 💬 0 📌 0y.yarn.co/e3cbfdce-cb2...
27.12.2025 06:53 — 👍 4 🔁 0 💬 0 📌 0What do you mean, stricter seat belt and impaired driving laws… arent they mandatory/forbidden on your side of the border
26.12.2025 23:45 — 👍 0 🔁 0 💬 0 📌 0Canadian here, I dont feel our roads are designed any differently than on the US, so I have no idea why the death rate would be half. Any theory?
26.12.2025 23:40 — 👍 0 🔁 0 💬 1 📌 0Happy « Learn new board games rules Day » to all those who celebrate!
25.12.2025 20:53 — 👍 5 🔁 1 💬 0 📌 0"AOL addresses are for noobs"
16.12.2025 13:41 — 👍 2 🔁 0 💬 0 📌 0Oubliez pas de réclamer votre (probablement 50$) si vous avez déjà acheté du pain au cartel du pain.
Vous avez jusqu'au 12 décembre pour réclamer
reglementpainquebec.ca/fr
C'est avec une grande fierté que mes gamins et moi vous annonçons le lancement de www.proutgpt.com, "le chat bot le plus con du monde".
Les enfants sont responsables du system prompt et ont évidemment demandé des blagues de pets. Comme llama est un anglo, ils fait des jokes d'animaux de compagnie.
doesnt have to be "best practices", just "quality of life" qualifies too :)
01.12.2025 15:37 — 👍 0 🔁 0 💬 0 📌 0Is there a resource (blog post maybe?) to help people catch up with changes in R best practices in the last 5 years or so?
This blog post by @simonpcouch.com mentioning cli::cli_abort() makes me wonder what else I'm missing.
tidyverse.org/blog/2025/01...
dear @proton.me , I dont care about Lumo and other AI features. All I care about is being able to use rclone to sync my data to proton drive.
01.12.2025 03:09 — 👍 0 🔁 0 💬 0 📌 0Teaching my kids about "hedging bets" by renting them skis for the season, buying a big-ass shovel and cancelling the snow renoval contract in my driveway.
... and now I'm going back out to shovel :)
At some point embarrassment MUST come
11.11.2025 19:22 — 👍 1421 🔁 213 💬 120 📌 292can'T wait to watch it. I must have tried 4 times now, the most memorable being the time I broke my ubuntu's system python so everything was a black screen and I had to reinstall the whole OS :)
09.11.2025 02:58 — 👍 1 🔁 0 💬 0 📌 0Are they using the square's "side" to represent the life expectancy? Because my eyes sure are seeing the square's area.
And doubling the side quadruples the area.
those are some satisfying clicks!
06.11.2025 18:02 — 👍 0 🔁 0 💬 1 📌 0100% d'accord
J'en ai pour mon argent.
Le problème c'est que je ne paie pas les externalités. C'est juste possible de m'offrir ce prix là pcq on viole le droit d'auteur, on pollue sans payer de taxe carbone et des investisseurs sont prêts à perdre des milliards pour voir si ça marche.
J'ai aussi eu des cas où j'avais quelque chose de relativement trivial à faire et que j'avais la flemme alors je lui ai demandé. Il a essayé de ré-écrire beaucoup plus de choses que ce qui était nécessaire.
Bref, pas une panacée, mais mon programme aujourd'hui est pas mal meilleur que sans.
Honnêtement, j'ai eu quelques cas dans les derniers 3 mois où j'étais en mode " ça fait 3 jours que je me casse les dents sur ce programme et je ne sais plus quoi essayer" et j'ai donné ça à Claude pour voir et il m'a arrangé ça vite fait bien fait et il m'a même expliqué pourquoi.
03.11.2025 14:35 — 👍 2 🔁 0 💬 1 📌 0Il faut voir le bon côté des choses, je vias pouvoir ajotuer les anniversaires de tous mes amis à mon agenda sans avoir besoin de leur demander c'est quand leur fête.
www.lapresse.ca/actualites/2...