simon coulombe's Avatar

simon coulombe

@coulsim.bsky.social

Gosseux d'données/pelleteux de cloud. Economist turned data scientist in the insurance industry. EN/FR #rstats en production #opendata blog: www.simoncoulombe.com github: simoncoulombe

1,487 Followers  |  171 Following  |  270 Posts  |  Joined: 31.08.2023  |  1.6834

Latest posts by coulsim.bsky.social on Bluesky

Parse StatCan PUMF files Facilitate working with StatCan Public Use Microdata Files (PUMF) Parses the SPSS Command Files or other metadata to infer the layout structure, variable labels and value labels as well as missing dat...

If you want to scale up to around 1 000 000 rows, you might want consider the 2021 Canadian census pumf dataset.

mountainmath.github.io/canpumf/

26.01.2026 04:28 — 👍 1    🔁 0    💬 0    📌 0

I am taking over a report that currently wrangles the 5 millions of rows :

**90 minutes** when using dplyr starting from a .rds file

**72 seconds** when using duckdb + dbplyr from a parquet file.

There's probably room for optimising the dplyrworkflow, but "let's try {duckdb+ dbplyr} worked.

26.01.2026 03:32 — 👍 2    🔁 0    💬 1    📌 0

nice! Air France ended up paying my family 9600$ after they took off the Quebec-Paris plane at 2AM after we boarded it.

They didnt have enough meals.

The plane took off without us and ~40 other people and we got to our destination 2 days later.

25.01.2026 03:03 — 👍 1    🔁 1    💬 0    📌 0
Post image

thanks!
Now I remember that exact image from reading the r4ds book years ago, guess it bit me until now!

I had just written a for loop that compared the sums of all the columns in two supposedly identical data frames just for a quick test and I was surprised that one had a sum of "nearly 0".

24.01.2026 02:24 — 👍 2    🔁 1    💬 0    📌 0
Post image

thanks!
works your way too that would work too -- i have to admit i find that
sum(data[["column_name"]])
with the double brackets look better :)

24.01.2026 02:20 — 👍 1    🔁 0    💬 0    📌 0
Post image

Hey #rstats, any idea why sum(data$column_name) doesnt return the same value as sum(data["column_name"]) for my column? I guess it's related to it being a stupid integer64..

23.01.2026 20:38 — 👍 4    🔁 1    💬 2    📌 0

group_by() + summarize()

too old to switch to the other approach

20.01.2026 14:43 — 👍 8    🔁 0    💬 0    📌 0
Post image

lol, i had to see it to believe it

09.01.2026 05:51 — 👍 0    🔁 0    💬 1    📌 0

Ooh! Tres bon indice, ca me donne une direction - merci :)

02.01.2026 04:00 — 👍 1    🔁 0    💬 0    📌 0

Help - ca fait 30 ans passés que je dis « tu continusses passé la flaque de popsicle fondu ». J’imagine ça vient d´un sketch de RBO? Entk Google ne trouve rien pantoute

02.01.2026 02:00 — 👍 1    🔁 0    💬 1    📌 0

I'm pretty sure a bin-fluencer is the first person on the street who puts their recycling/composting/waste bin by the street, allowing everyone else to copy them instead of looking up the waste collection calendar.

28.12.2025 14:47 — 👍 0    🔁 0    💬 0    📌 0
Video thumbnail

y.yarn.co/e3cbfdce-cb2...

27.12.2025 06:53 — 👍 4    🔁 0    💬 0    📌 0
Post image

What do you mean, stricter seat belt and impaired driving laws… arent they mandatory/forbidden on your side of the border

26.12.2025 23:45 — 👍 0    🔁 0    💬 0    📌 0

Canadian here, I dont feel our roads are designed any differently than on the US, so I have no idea why the death rate would be half. Any theory?

26.12.2025 23:40 — 👍 0    🔁 0    💬 1    📌 0

Happy « Learn new board games rules Day » to all those who celebrate!

25.12.2025 20:53 — 👍 5    🔁 1    💬 0    📌 0

"AOL addresses are for noobs"

16.12.2025 13:41 — 👍 2    🔁 0    💬 0    📌 0

Oubliez pas de réclamer votre (probablement 50$) si vous avez déjà acheté du pain au cartel du pain.

Vous avez jusqu'au 12 décembre pour réclamer
reglementpainquebec.ca/fr

10.12.2025 00:12 — 👍 1    🔁 0    💬 0    📌 0
Post image

C'est avec une grande fierté que mes gamins et moi vous annonçons le lancement de www.proutgpt.com, "le chat bot le plus con du monde".

Les enfants sont responsables du system prompt et ont évidemment demandé des blagues de pets. Comme llama est un anglo, ils fait des jokes d'animaux de compagnie.

05.12.2025 15:50 — 👍 1    🔁 0    💬 0    📌 0

doesnt have to be "best practices", just "quality of life" qualifies too :)

01.12.2025 15:37 — 👍 0    🔁 0    💬 0    📌 0

Is there a resource (blog post maybe?) to help people catch up with changes in R best practices in the last 5 years or so?

This blog post by @simonpcouch.com mentioning cli::cli_abort() makes me wonder what else I'm missing.

tidyverse.org/blog/2025/01...

01.12.2025 15:36 — 👍 0    🔁 0    💬 1    📌 0

dear @proton.me , I dont care about Lumo and other AI features. All I care about is being able to use rclone to sync my data to proton drive.

01.12.2025 03:09 — 👍 0    🔁 0    💬 0    📌 0

Teaching my kids about "hedging bets" by renting them skis for the season, buying a big-ass shovel and cancelling the snow renoval contract in my driveway.

... and now I'm going back out to shovel :)

01.12.2025 00:40 — 👍 1    🔁 0    💬 0    📌 0
Post image

At some point embarrassment MUST come

11.11.2025 19:22 — 👍 1421    🔁 213    💬 120    📌 292

can'T wait to watch it. I must have tried 4 times now, the most memorable being the time I broke my ubuntu's system python so everything was a black screen and I had to reinstall the whole OS :)

09.11.2025 02:58 — 👍 1    🔁 0    💬 0    📌 0

Are they using the square's "side" to represent the life expectancy? Because my eyes sure are seeing the square's area.

And doubling the side quadruples the area.

07.11.2025 12:46 — 👍 1    🔁 0    💬 0    📌 0

those are some satisfying clicks!

06.11.2025 18:02 — 👍 0    🔁 0    💬 1    📌 0

100% d'accord

J'en ai pour mon argent.

Le problème c'est que je ne paie pas les externalités. C'est juste possible de m'offrir ce prix là pcq on viole le droit d'auteur, on pollue sans payer de taxe carbone et des investisseurs sont prêts à perdre des milliards pour voir si ça marche.

03.11.2025 15:03 — 👍 2    🔁 0    💬 0    📌 0

J'ai aussi eu des cas où j'avais quelque chose de relativement trivial à faire et que j'avais la flemme alors je lui ai demandé. Il a essayé de ré-écrire beaucoup plus de choses que ce qui était nécessaire.
Bref, pas une panacée, mais mon programme aujourd'hui est pas mal meilleur que sans.

03.11.2025 14:39 — 👍 1    🔁 0    💬 1    📌 0

Honnêtement, j'ai eu quelques cas dans les derniers 3 mois où j'étais en mode " ça fait 3 jours que je me casse les dents sur ce programme et je ne sais plus quoi essayer" et j'ai donné ça à Claude pour voir et il m'a arrangé ça vite fait bien fait et il m'a même expliqué pourquoi.

03.11.2025 14:35 — 👍 2    🔁 0    💬 1    📌 0
Preview
Fuite de renseignements chez Desjardins | Les données de près de quatre millions de clients publiées Les informations personnelles sensibles de plus d’un Québécois sur trois sont maintenant accessibles gratuitement sur le web clandestin (dark web). La publication par le groupe de pirates informatique...

Il faut voir le bon côté des choses, je vias pouvoir ajotuer les anniversaires de tous mes amis à mon agenda sans avoir besoin de leur demander c'est quand leur fête.

www.lapresse.ca/actualites/2...

03.11.2025 13:59 — 👍 1    🔁 0    💬 0    📌 0

@coulsim is following 20 prominent accounts