インフラの質問したときにGemini の方がChatGPTより正しいことが多くなってきた気がする
28.02.2026 12:42 — 👍 1 🔁 0 💬 0 📌 0インフラの質問したときにGemini の方がChatGPTより正しいことが多くなってきた気がする
28.02.2026 12:42 — 👍 1 🔁 0 💬 0 📌 0coding agentとかskillsとかのおかげでローカルで開発しやすいような基盤作りが大事になっている気がする
26.02.2026 00:23 — 👍 2 🔁 0 💬 0 📌 0なんとなくハンターハンターを読み返し始めたら止まらなくなってしまった(n回目)
23.02.2026 07:20 — 👍 1 🔁 0 💬 0 📌 0最近(以前から?)ZennにAI生成のアウトプットをわずかに手直ししただけのような記事が増えてる気がする
23.02.2026 04:01 — 👍 0 🔁 0 💬 1 📌 0
Netflixのtext-to-DSLの事例。hallucinationを防ぐために、使えるフィールド名や値を埋め込みを使ってretrieveして文脈を制約し、その範囲内でLLMにクエリを組み立てさせるという構成にしている
netflixtechblog.com/the-ai-evolu...
最近コーディングエージェントをできるだけ使って自分で書く量を減らす訓練をしてるけど、同じリポジトリにある依存先サービスの仕様を完全に理解しきれず細かい修正指示を繰り返さないといけなかったりする。でもgpt 5.1 codexとかopus 4.5でかなり良いコードが出てくるようになってきた
26.01.2026 04:58 — 👍 2 🔁 0 💬 0 📌 0
blogged
yng87.page/blog/2026/bo...
データ分析失敗事例集を読み返しているけどやっぱりすごく良い。生成AI時代になってより価値が増している
www.amazon.co.jp/dp/4320125673
The Batchのnew year issue、科学的発見のためには分布のtailの予測に強いモデルが必要というのは確かにと思った
www.deeplearning.ai/the-batch/is...
あけましておめでとうございます。今年もよろしくお願いします
31.12.2025 23:14 — 👍 5 🔁 0 💬 0 📌 0同じ課題感です…。やろうと思えばやりようはありますが、考えることが多くて神経使いますよね。
23.12.2025 09:56 — 👍 2 🔁 0 💬 0 📌 0各社どうやってるんですかね?ユーザー向けの重要な機能だとABテストしたいですが、インデックス新規追加するのとか面倒で腰が重くなりがちです…
23.12.2025 06:58 — 👍 0 🔁 0 💬 1 📌 0結局やるんだけど
23.12.2025 06:24 — 👍 0 🔁 0 💬 0 📌 0埋め込みの更新とか考えるのめんどくさいので、最近はあまりベクトル検索作りたくなくなってきてる
23.12.2025 06:23 — 👍 2 🔁 0 💬 1 📌 0
テキストログをFAQに変換するパイプラインの構築事例。参考になる
www.m3tech.blog/entry/2025/1...
人手による検索関連度アノテーションをLLMで置き換えるというPinterest の事例。人手データをある程度集めた上でそれを使ってモデルを学習してスケールさせるというのがやっぱり王道っぽい
medium.com/pinterest-en...
正しく作るのが結局一番早いというのはやはりあって、最近の新しいものをいろいろ試すために必要なものをスキップしますみたいなのはPoCの先に行くのに苦労しがち
18.12.2025 03:28 — 👍 2 🔁 1 💬 0 📌 0規定のワークフローを通さなかったがために発生する問題を解決するために対処療法的な実装を追加するのではなく規定のワークフローを通せばその問題は起きないんだからちゃんとワークフローを通す仕組みにしましょう、みたいな話
18.12.2025 02:00 — 👍 2 🔁 1 💬 0 📌 0ジョブキューは一本にして単に設定ファイル上(記事では簡略化のためCLIパラメーターになってますが)で指定してます。コンピューティング環境側に色々なインスタンスを詰めてBatchに適切なものを選ばせている感じですね
17.12.2025 08:58 — 👍 1 🔁 0 💬 1 📌 0
社のアドベントカレンダー書きました
hack.nikkei.com/blog/advent2...
#HackTheNikkei
実際のサービス開発してる人達はLLMで合成データをたくさん作るより、少数でいいので実際のプロダクション環境から失敗例を集めたり、エキスパートの人間による評価を集めるべしと言っているのでそういうことだよね
12.12.2025 07:23 — 👍 2 🔁 0 💬 0 📌 0失敗例を集めるためにわざと弱いモデルを使うのは賢い
11.12.2025 11:34 — 👍 0 🔁 0 💬 0 📌 0
LLM as judgeを作る上でのめちゃ実用的な記事だ…
eugeneyan.com/writing/prod...
RecSys 2025の論文で、ショート動画の試聴時間予測をするのに直接回帰するのではなく、分布を指数+Gaussian mixture と置いてそのパラメータをフィットしに行くというのがあって面白かった
arxiv.org/abs/2508.12665
django 6.0でFastAPIのバックグラウンドタスク的なものが実装されたのかと思ったが、ワーカーは自分で実装することが前提のようでちょっと違った
roam.be/notes/2025/a...
素粒子現象論をやっていた者としては、天文の解析論文は同じ対象でも著者が変わって解析の仮定が変わればかなり結果が変わるという印象がある。あと例のプレスリリースはWIMPにしては消滅断面積が大きすぎると思うので、理論モデルとして解があるのか怪しい
28.11.2025 04:38 — 👍 3 🔁 0 💬 0 📌 0
主に向こうのSNSで話題になっている例のWIMP検出(?)論文だけど、一般論として、観測波長によらず、ああいったdiffuseな輻射に対して観測機器由来のアーティファクトやゴースト、前景輻射を含む他のソースからのコンタミを適切に差し引いた上で評価するのは極めて難しいことは認識されておくべきだと思う。
(当該論文は斜め読みしただけだし専門外なので評価しないけど)少なくてもinstrumentationとデータ解析と想定されうるコンタミ輻射に対する極めて精緻な知見と慎重な態度を持った人が実施した研究でない限り、正直文言通り受け入れるのは難しい成果ではないだろうか。
自分が最近Xを見ないのは、技術界隈すらClickbait的な投稿が多くて見ていてキツいからというのがある。驚き屋だけではなく、不確実な事象に断定的な口調を取ることでポジションを取ろうみたいな投稿が多くあるように感じる
28.11.2025 01:17 — 👍 6 🔁 1 💬 0 📌 1三井住友銀行アプリ、カード利用通知の許諾でOliveのキャンペーン頻繁に送ってきて本当に腹立つ
27.11.2025 07:10 — 👍 0 🔁 0 💬 0 📌 0論文実装リポジトリを雑に信頼して使ってたらnn.ModuleListではなくただのリストに重みを入れている部分があって死んだ
24.11.2025 06:14 — 👍 1 🔁 0 💬 0 📌 0