Bilzard's Avatar

Bilzard

@bilzard.bsky.social

Kaggle Master lizard I’m now testing BlueSky’s user experience for the time being My original account: https://x.com/bilzrd

29 Followers  |  43 Following  |  18 Posts  |  Joined: 22.08.2024  |  1.5446

Latest posts by bilzard.bsky.social on Bluesky

They probably save the spoilers until the very end.

I’m not read the all part, but I believe we can take something from data curation part.

17.12.2024 23:38 — 👍 1    🔁 0    💬 0    📌 0

This is number 1 on MTEB Leaderboard, but the VRAM requirement may be higher than its peers since the base model is gemma-2-9b-it.

16.12.2024 21:13 — 👍 22    🔁 5    💬 0    📌 0
Post image

The Phi-4 research team called the human-generated dataset “organic.” Indeed, it must be 100% pesticide-free.

17.12.2024 00:36 — 👍 2    🔁 0    💬 1    📌 0

The approach resembles MCTS decoding in a sense that the token which contributes the most for success of the task is likely to choose. However, their approach is more direct: the optimal path is learned by the token probability itself. No need for additional search computation in inference time.

16.12.2024 23:56 — 👍 0    🔁 0    💬 0    📌 0
Post image

After finding pivotal token, they created synthetic preference dataset which includes (context + accepted token) with positives and (context + rejected token) as negatives.

16.12.2024 23:48 — 👍 0    🔁 0    💬 1    📌 0

Especially, they used Pivotal Token Search (PTS) as their post training. In PTS, the model focus of the specific token where it contributes/degenerate success rate by a large margin. The found token is called “pivotal token”.

16.12.2024 23:46 — 👍 0    🔁 0    💬 1    📌 0
Post image

According to their technical report, Phi-4 uses different approach than Marco-o1 has: careful data curation and enhanced DPO (post training).

arxiv.org/abs/2412.08905

16.12.2024 23:46 — 👍 2    🔁 0    💬 1    📌 0

They say Phi-4 14B surpasses Qwen2.5 14B in Math test by a remarkable margin. Is it another o1-like model?

16.12.2024 22:19 — 👍 1    🔁 0    💬 0    📌 0

Marco-o1のMCTSちゃんと理解できてなかったのだけど、本来1) 生成モデル、2) 評価関数モデル、3) 報酬モデルの3つが必要だけど、2-3を1のモデルの対数確率で代替しているっぽい。

もしこの簡易アーキテクチャで元のMCTSと同等の性能が出せるならかなり画期的と言える。

後で裏どりする。

16.12.2024 13:43 — 👍 0    🔁 0    💬 0    📌 0
Preview
OpenAI o1再現モデルまとめ(2024年12月時点)|はち はじめに 2024年9月にo1で新しい言語モデルのあり方をOpenAIが示し、注目を集めました。2024年9月にo1-preview、o1-miniが発表され、最近o1(-full)とo1-proが公開されました。 いまだにo1のような推論モデル(Reasoning Model)の開発方法は絶対にこれだろう!というものはわかってきてはいませんが、o1再現を目指す取り組みがちらほら出てきており、...

以下のブログに詳細な解説がある。

note.com/hatti8/n/nf8...

16.12.2024 13:39 — 👍 0    🔁 0    💬 1    📌 0
Preview
GitHub - Hajime-Y/reasoning-model Contribute to Hajime-Y/reasoning-model development by creating an account on GitHub.

Translate: a Japanese contributor published a third party code of MCTS decoder for transformer.
This decode method was used in OpenAI’s o1-like model: Marco-o1.

github.com/Hajime-Y/rea...

16.12.2024 13:25 — 👍 1    🔁 0    💬 1    📌 0
Preview
GitHub - Hajime-Y/reasoning-model Contribute to Hajime-Y/reasoning-model development by creating an account on GitHub.

Marco o1のモンテカルロ探索のコードはまだ公開されてないのだけど、個人で実装された方がいる。

github.com/Hajime-Y/rea...

16.12.2024 13:21 — 👍 3    🔁 0    💬 1    📌 0

I think absence of instant translation tool (like twitter have) will be a wall between cross lingual user communities.

Maybe I should post all my post in English. (I believe Japanese Kagglers would permit it.)

16.12.2024 12:52 — 👍 1    🔁 0    💬 0    📌 0

流石に英語で呟くか。日本人でもKaggleユーザならまぁ英語でも許容されそう。

16.12.2024 12:47 — 👍 0    🔁 0    💬 0    📌 0

翻訳ツールがないのが地味に痛い(言語の壁)

16.12.2024 12:46 — 👍 0    🔁 0    💬 0    📌 0

今の所マイナーなサービスに先行して集まった同志感がある

16.12.2024 12:41 — 👍 0    🔁 0    💬 0    📌 0
Post image

Kaggle Startar Packなるものを紹介された
go.bsky.app/VFijtNt

16.12.2024 12:40 — 👍 2    🔁 0    💬 0    📌 0

超役にたつコンテンツをBlueSkyのみで呟く人が何人か出てきたら流石にアカウントくらい作っとく気になる人が増えるのでは?

16.12.2024 12:38 — 👍 0    🔁 0    💬 0    📌 0

BlueSky、それなりに支持者を獲得するのか、徐々に廃れるのか今の所何とも判断がつかない。

大御所が(アカウントだけでなく)投稿先を次々移行したら簡単に民族大移動できそうだけど。

16.12.2024 10:46 — 👍 1    🔁 0    💬 0    📌 0

@bilzard is following 18 prominent accounts