Crypto Knight @cryptoknightai

原神之父搞出毒舌AI猫娘了🚨 米哈游创始人新出的AnuNeko聊天软件，俩角色直接封神——温柔橙猫治愈陪伴，短毛猫毒舌怼人超解压，接梗比损友还溜

它不卷智商只拼情商，逻辑题可能翻车，但陪你吐槽、唠嗑超上头，互动越聊越有专属感。这可不是普通聊天工具，是米哈游在AI+游戏领域的大试水，未来游戏NPC说不定就这么有灵魂

06.12.2025 08:37 — 👍 1 🔁 0 💬 0 📌 0

千问App最新版本重磅接入阿里两大顶尖视觉模型Qwen-Image与Wan 2.5，打造一站式AI创作体验

Qwen-Image凭超强视觉逻辑与主体一致性，轻松实现精准修图、多图融合，霸榜多项开源榜单；Wan 2.5支持原生音画同步，60秒即可生成1080P有声视频

通过无缝多模态工作流，用户可一键完成图生视频，免费解锁准商业级创作效果。无需专业技能，手机端就能搞定创意设计、短视频制作

05.12.2025 09:08 — 👍 1 🔁 0 💬 0 📌 0

最近谷歌官宣AI代理构建工具Google Workspace Studio可用，依托Gemini3多模态能力，让普通员工几分钟内即可零代码创建自定义AI代理，彻底打破传统自动化的技术门槛

工具内置海量场景模板，支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作，能自动化处理从邮件分类到复杂流程编排的全场景任务

它具备端到端自动化与一键共享功能，可打通信息孤岛，Alpha测试阶段已完成超2000万次任务执行，将手动规划时间缩短90%以上，推动企业从重复劳动转向高价值创造

04.12.2025 07:46 — 👍 1 🔁 0 💬 0 📌 0

字节跳动新发布视频模型Vidi2，视频理解能力超越Gemini 3 Pro，革新智能剪辑体验

核心突破端到端时空定位，靠分解注意力机制降低计算复杂度，可处理长达一小时视频流。关键指标vIoU-Int.达60.3%，近乎GPT-5的两倍，能精准锁定视频关键细节

输入数小时素材和提示，即可生成含剪辑位置、台词等的详细指令，已集成到TikTok功能及火山引擎API，后续将开源7B版本arxiv.org/pdf/2511.19529

03.12.2025 08:09 — 👍 1 🔁 0 💬 0 📌 0

最近DeepSeek AI推出DeepSeek-V3.2系列模型，含标准版与高计算增强版Speciale，以创新技术对标GPT-5、Gemini3.0Pro，缩小开源与闭源模型差距

核心亮点是独有DSA稀疏注意力机制，将长文本计算复杂度大幅降低，推理速度提升2-3倍，API成本直降50%以上。模型主打Agent优先特性，带专属思考模式，经大规模Agent任务训练，泛化能力拉满，Agent评估居开源模型顶尖

标准版已上线网页端、App及API，支持日常推理与开发；Speciale版专攻极限推理，在IMO等赛事获金牌，仅开放临时API。目前V3.2模型权重已在Hugging Face开源

02.12.2025 04:25 — 👍 1 🔁 0 💬 0 📌 0

StepFun AI最近推出音频大语言模型Step-Audio-R1，破解传统音频模型长推理链准确率下降难题，靠创新技术实现从“转文字理解”到“听声音推理”的突破

模型摒弃“文本替代推理”弊端，以“模态化推理蒸馏”提取真实声学特征，确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形，经适配器下采样后，由Qwen2.5 32B解码器生成文本，推理过程清晰可控

经500万例样本冷启动训练及强化学习优化，其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro，论文arxiv.org/pdf/2511.15848

01.12.2025 14:34 — 👍 2 🔁 0 💬 0 📌 0

最近快手新一代旗舰多模态模型Keye-VL-671B-A37B正式发布并开源，以6710亿参数实现“善看会想”核心能力

在视觉理解、视频分析等26项基准测试中斩获18项第一，能精准识别细节、规避视觉错觉，视频时序把握精准

通过三阶段预训练与多轮后训练提升性能，兼顾精度与效率，未来将强化工具调用能力，已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

30.11.2025 02:24 — 👍 1 🔁 0 💬 0 📌 0

阿里通义Z-Image生图模型发布即火，首日登顶Hugging Face趋势榜，下载量达50万次。仅6亿参数便实现照片级真实感，能精细还原皮肤、发丝等细节，光影与构图兼具美学质感

系列版本适配多元需求，Z-Image-Turbo仅需8步推理，可精准渲染中英混合文本，适配快速创作场景；Z-Image-Edit能精准执行复合编辑指令，修改中保持画面一致性

依托单流扩散架构提升参数利用率，搭配提示词增强器实现理解式创作，现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image

29.11.2025 02:03 — 👍 1 🔁 0 💬 0 📌 0

DeepSeek-Math-V2最近正式发布，作为全球首个开源达IMO金牌水平的数学推理大模型，以6850亿参数打造创新“生成-验证”双模型闭环，可自我审查修正推理漏洞

在IMO赛事中正确率达83.3%获金牌，Putnam竞赛近乎满分，多项基准测试成绩领先。模型以Apache2.0协议开源，权重及训练细节全公开，助力高可信度AI场景落地，已在Hugging Face、GitHub上线

28.11.2025 06:49 — 👍 1 🔁 0 💬 0 📌 0

最近OpenAI和Anthropic这对竞品居然联手了！共同推出MCP Apps提案，直接给AI交互升级“图形化界面”，堪称AI界的交互革命

以前AI只能发文字、传数据，现在能直接给可视化界面——要分析数据就弹交互式仪表盘，要配参数就出勾选表单，不用再啃枯燥代码。提案靠标准化模式打通UI资源和工具，还支持双向通信，沙盒化运行保障安全，Postman、Shopify等已经在用相关SDK

这波操作有望成为行业通用范式，不管是开发者还是普通用户，未来用AI都会更简单高效

27.11.2025 09:40 — 👍 1 🔁 0 💬 0 📌 0

DeepSeek最近新开源了一个负载均衡工具LPLB，专门优化AI模型里的专家并行分配，解决部分专家超负荷、GPU忙闲不均的问题

靠动态排序、建副本、算最优分配三步调平负载，还搭配英伟达工具提速。不过目前还在早期研究阶段，有延迟、忽略部分计算成本等小局限，性能还在慢慢测试优化

26.11.2025 08:22 — 👍 1 🔁 0 💬 0 📌 0

谷歌Nano Banana Pro（Gemini 3 Pro Image）最近正式亮相了，它深度融合Gemini 3 Pro的推理能力与世界知识，革新AI图像生成体验

该模型可生成2K、4K高清图像，适配多类长宽比，能融合14张参考图像且保持5个人物的一致性。其文字渲染效果出色，支持多语言文本生成，借知识库保障视觉内容的事实准确性

目前它已上线Gemini App、Google Ads等多款产品，也可通过Gemini API等渠道付费预览使用

25.11.2025 12:25 — 👍 1 🔁 0 💬 1 📌 0

最近阿里通义实验室开源智能体自进化系统AgentEvolver，凭三大核心模块达成自主能力迭代，已在GitHub上线并同步发布技术报告，大幅降低智能体开发门槛

系统依托自我提问、自我导航、自我归因模块，搭配Master节点调度，形成数据-探索-反馈自动化闭环，主动合成训练任务、规避盲目试错、提升优化效率

性能亮眼，14B模型任务平均完成率从29.8%升至57.6%，7B模型提升显著，强化后14B模型可越级超越更大参数量模型，兼具极速收敛效率与强跨域泛化性，论文arxiv.org/pdf/2511.10395

24.11.2025 09:52 — 👍 1 🔁 0 💬 0 📌 0

谷歌Gemini 3正式亮相，被定义为通往AGI的重要一步，多模态与交互能力全面升级。Gemini 3 Pro以1501 Elo高分登顶LMArena榜单，WebDev Arena排行第一，碾压前代及主流竞品

原生多模态架构加持，解析复杂图表、动态视频流游刃有余，Deep Think模式强化推理能力。融合多模态信息适配学习、开发等场景，现已全面开放，深度思考模式未来几周上线，普通用户与开发者均可便捷使用

23.11.2025 09:54 — 👍 1 🔁 0 💬 1 📌 0

最近字节Seed康炳易团队推出Depth Anything 3（DA3）模型，凭极简架构实现3D视觉突破，获AI学者谢赛宁高度认可

DA3仅以普通视觉Transformer为基础，聚焦深度与光线双目标预测，可从单图、多视角照片及视频中精准算深度、还原相机位置，拼完整3D场景并补全未拍摄视角

性能亮眼，相机定位精度提35.7%，几何重建准确率涨23.6%，超前代DA2。采用师生蒸馏策略，降低高精度数据依赖，适配虚拟漫游、数字孪生等多场景，论文arxiv.org/pdf/2511.10647

22.11.2025 10:30 — 👍 1 🔁 0 💬 0 📌 0

拍我AI（PixVerse）V5 Fast版本重磅上线，视频生成速度提升超30%，5秒高清视频不到一分钟就能产出，效率大幅飞跃

新增Modify精修功能，支持端到端编辑，单帧修改可同步全片一致化处理。能实物级替换元素、背景，精准调风格光影，还可调整人物年龄、服装与气质，创作自由又可控

彻底打破AI视频慢且难改痛点，降低创作门槛，适配专业团队、商用制作及普通用户，灵感落地更高效

21.11.2025 05:42 — 👍 1 🔁 0 💬 1 📌 0

美国PI公司推出机器人基础模型π0.6，以“视觉-语言-动作”VLA架构为核心，凭Recap创新训练法打破技术瓶颈，具身智能落地再进一步

Recap训练分三步：模仿学习打基础，纠正式指导补误差，强化学习自主精进，攻克纯模仿学习易出错、难持续的问题

模型在制咖啡、叠衣物、组装纸箱等任务中表现亮眼，制咖啡成功率与吞吐量翻倍，整体任务成功率超90%，可在未知环境稳定连续运行，论文https://website.pi-asset.com/pi06star/PI06_model_card.pdf

20.11.2025 07:48 — 👍 1 🔁 0 💬 0 📌 0

马斯克的xAI低调推送Grok 4.1，向所有用户免费开放！双模式设计太能打：思考模式登顶LMArena排行榜，即时模式稳居第二，碾压前代及多款主流模型

情感智能EQ-Bench3夺冠，创意写作跻身前列，细微意图感知超敏锐，人格更连贯；通过智能体式奖励模型优化，事实幻觉率大降，实用性拉满

无需复杂操作，X平台、官网及移动端均可直接用，免费用户也能解锁高水准AI交互，日常沟通、创意输出都适配

19.11.2025 08:11 — 👍 1 🔁 0 💬 0 📌 0

复旦与阶跃星辰联合推出AI合照模型WithAnyone，凭创新技术打破传统生成的“克隆感”，成ID一致性与可控性双料冠军

核心亮点拉满：依托超200万张合照+百万单人图训练，双通道编码+对比式学习，既精准还原人物身份，又支持多角度、多表情自由变化，多人同框互动超自然。首创MultiID-Bench基准与“复制粘贴”指标，彻底解决同质化问题

现已全面开源，支持ComfyUI部署，个人纪念、创意设计、电商拍摄等场景直接受益，AI合照终于有了“真实氛围感”

18.11.2025 09:38 — 👍 1 🔁 0 💬 0 📌 0

陈天桥EverMind团队发布AI长期记忆操作系统EverMemOS，在LoCoMo等主流评测中斩获SOTA成绩，为智能体注入持久、连贯的“记忆核心”

其核心亮点超惊艳：仿人脑设计四层架构（代理层=前额叶、记忆层=大脑皮层等），兼顾记忆存储、高效检索与外部交互；支持公私记忆隔离、多智能体协作，从陪伴到复杂任务全场景适配

现已开源可本地部署，云服务版后续上线，彻底解决AI“健忘”的问题

17.11.2025 08:15 — 👍 1 🔁 0 💬 1 📌 0

字节跳动TRAE SOLO正式版重磅发布，定位升级为“The Responsive Coding Agent”，国际版全面开放且限时免费体验中

相比Beta版，正式版搭载双智能体架构：SOLO Builder负责“从0到1”快速搭建应用，新增的SOLO Coder专攻“从1到100”的复杂编码、重构与Bug修复。核心亮点拉满——多任务并行支持同时推进多个模块，上下文压缩解决长链路失忆问题，代码变更追踪让每处修改透明可见，Plan模式先规划后执行更可控

兼容VS Code扩展与多系统，还能免费调用GPT-4o、Claude 3.5等顶级模型，完美贴合专业研发 workflow

16.11.2025 10:10 — 👍 2 🔁 0 💬 0 📌 0

Google DeepMind推出多模态智能体SIMA2（研究预览版），依托Gemini2.5Flash-lite模型，任务成功率较初代翻倍，成为通用智能与机器人领域的重要突破

核心亮点拉满：首创自生成数据循环，无需人工标注即可自我迭代；能读懂文本、颜色符号甚至emoji指令，在未见过的游戏环境中自主完成复杂任务。搭配Genie生成式世界模型，可在即时创建的3D场景中精准交互，构建“看懂-推断-规划”的高层行为闭环

目前聚焦决策层能力，暂不涉及底层机械控制，团队正寻求合作探索向实体机器人迁移路径，AGI落地的虚拟训练场已初具雏形

14.11.2025 10:23 — 👍 1 🔁 0 💬 0 📌 0

最近李飞飞创立的World Labs（估值超12.5亿美元）推出首款商业产品Marble3D公测版，凭多模态生成能力重塑AI内容边界

只需文本、图片、视频或粗糙3D布局，10分钟即可生成连贯可导航的3D虚拟世界，支持“结构+风格”分离编辑，还能一键扩展组合场景。导出高斯溅射、三角网格等多格式，无缝适配游戏开发、VR、影视制作等场景，物理真实性拉满

免费版提供4次基础生成，20美元/月起的付费计划解锁商用权限，网友已实现VR游戏、专业渲染等创意落地，3D创作的“ChatGPT时刻”真的来了

13.11.2025 14:30 — 👍 1 🔁 0 💬 0 📌 0

🔥谷歌Gemini Live重磅更新，AI语音正式迈入拟人化2.0时代

五大核心能力直接碾压ChatGPT语音：口令实时变速、感知情绪调语气，还能切换伦敦腔、牛仔腔等个性口音，兼顾无障碍优化与谷歌生态无缝衔接

基于Gemini2.5Flash优化，精准模拟人类呼吸与节奏，从“能说”升级为“懂你”。既是高效助手，也是会共情的对话伙伴，重新定义智能交互，隐私保护也到位

13.11.2025 08:14 — 👍 1 🔁 0 💬 0 📌 0

清华等四机构联合发布全球首个MCP架构开源RAG框架UltraRAG2.1，以“零代码配置+全链路工程化”重塑技术范式

其核心亮点拉满：几行YAML配置即可搭建多模态检索系统，原生支持图文/PDF跨模态检索，MinerU深度集成实现知识库全自动构建；兼容主流检索引擎与大模型，内置标准化评估体系让结果可量化优化

基于MCP协议的模块化设计（AI界“超级转接头”），让检索、生成等模块灵活组合，大幅降低企业级RAG落地门槛，为科研、办公等场景注入高效智能动力

12.11.2025 09:00 — 👍 1 🔁 0 💬 0 📌 0

字节新出的编程神器Doubao-Seed-Code太顶了

登顶SWE-Bench榜单，性能直接拉满，256K长上下文+视觉理解，看设计稿就能生成代码，bug修复秒级响应～关键价格卷到离谱，9.9元套餐堪比咖啡钱，比行业均价低62%

原生兼容Claude API，老用户零成本切换，TRAE、Cursor都能直接用。实测做网页、改代码、工程重构都顺到飞起，开发者有福了

11.11.2025 10:11 — 👍 1 🔁 0 💬 0 📌 0

最近OpenAI宣布为Codex CLI及IDE扩展新增轻量级模型GPT-5 Codex Mini

该模型是GPT-5 Codex的轻量版本，具备更小体积与更高性价比，能提供约4倍的使用量，ChatGPT订阅用户可受益。当用户调用量达到5小时使用上限的90%时，Codex CLI与IDE扩展将自动提示切换至该模型

同时，OpenAI将ChatGPT Plus、Business和Edu用户的Codex速率限制提高了50%，ChatGPT Pro和Enterprise用户则享有优先处理待遇。此外，OpenAI还对Codex的底层进行了优化，确保开发者能获得更稳定的服务体验

10.11.2025 09:32 — 👍 1 🔁 0 💬 0 📌 0

最近Firecrawl推出创新性工具Branding Format API，用户输入目标网站URL，即可一次性提取完整品牌DNA

该API能自动识别并提取配色方案、标志与Logo、设计框架等品牌视觉元素。其输出为结构化JSON数据，包含十六进制颜色代码、字体系列和资产URL等，兼容Figma和Adobe Creative Suite等设计平台

对于设计师和创业者来说，Branding Format API可帮助他们快速了解或模仿某一品牌的视觉风格，节省大量手动研究时间，早期 adopters 报告称其在品牌研究阶段可节省30%-50%的时间

09.11.2025 04:52 — 👍 1 🔁 0 💬 0 📌 0

两人小团队仅花两周复刻DeepSeek-OCR，推出开源模型DeepOCR。其精准还原“视觉模态压缩”核心，用250个视觉token替代数千文本token，大幅降低大模型长文本处理算力开销

解码器替换为兼容性更强的Qwen2-7B-Instruct，落地门槛更低，两张H200即可完成训练。实测中，英文识别、表格解析表现突出，部分任务优于原版，后续将优化复杂场景性能，项目主页：https://pkulium.github.io/DeepOCR_website/

08.11.2025 15:45 — 👍 1 🔁 0 💬 0 📌 0

最近月之暗面开源了新一代大模型Kimi K2 Thinking，这是基于“模型即Agent”理念训练的新一代Thinking Agent，原生掌握“边思考，边使用工具”的能力

在人类终极考试中，Kimi K2 Thinking取得了44.9%的SOTA成绩，超过了GPT-5、Claude 4.5等先进模型，其Heavy版本分数更可达51%。在评估AI Agent网络浏览能力的BrowseComp测试中，他获得了60.2%的成绩

该模型参数规模高达万亿，训练成本为460万美元，运行成本低，API价格远低于GPT-5。它还具备INT 4量化、持续交互和Agent驱动等特点

08.11.2025 07:23 — 👍 1 🔁 0 💬 0 📌 0

Crypto Knight

Latest posts by cryptoknightai.bsky.social on Bluesky

@cryptoknightai is following 4 prominent accounts