Crypto Knight's Avatar

Crypto Knight

@cryptoknightai.bsky.social

It’s Crypto Knight, crypto, and AI, Innovations are my playground.

17 Followers  |  4 Following  |  373 Posts  |  Joined: 22.06.2025  |  1.8388

Latest posts by cryptoknightai.bsky.social on Bluesky

Post image Post image

原神之父搞出毒舌AI猫娘了🚨 米哈游创始人新出的AnuNeko聊天软件,俩角色直接封神——温柔橙猫治愈陪伴,短毛猫毒舌怼人超解压,接梗比损友还溜

它不卷智商只拼情商,逻辑题可能翻车,但陪你吐槽、唠嗑超上头,互动越聊越有专属感。这可不是普通聊天工具,是米哈游在AI+游戏领域的大试水,未来游戏NPC说不定就这么有灵魂

06.12.2025 08:37 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

千问App最新版本重磅接入阿里两大顶尖视觉模型Qwen-Image与Wan 2.5,打造一站式AI创作体验

Qwen-Image凭超强视觉逻辑与主体一致性,轻松实现精准修图、多图融合,霸榜多项开源榜单;Wan 2.5支持原生音画同步,60秒即可生成1080P有声视频

通过无缝多模态工作流,用户可一键完成图生视频,免费解锁准商业级创作效果。无需专业技能,手机端就能搞定创意设计、短视频制作

05.12.2025 09:08 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image

最近谷歌官宣AI代理构建工具Google Workspace Studio可用,依托Gemini3多模态能力,让普通员工几分钟内即可零代码创建自定义AI代理,彻底打破传统自动化的技术门槛

工具内置海量场景模板,支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作,能自动化处理从邮件分类到复杂流程编排的全场景任务

它具备端到端自动化与一键共享功能,可打通信息孤岛,Alpha测试阶段已完成超2000万次任务执行,将手动规划时间缩短90%以上,推动企业从重复劳动转向高价值创造

04.12.2025 07:46 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

字节跳动新发布视频模型Vidi2,视频理解能力超越Gemini 3 Pro,革新智能剪辑体验

核心突破端到端时空定位,靠分解注意力机制降低计算复杂度,可处理长达一小时视频流。关键指标vIoU-Int.达60.3%,近乎GPT-5的两倍,能精准锁定视频关键细节

输入数小时素材和提示,即可生成含剪辑位置、台词等的详细指令,已集成到TikTok功能及火山引擎API,后续将开源7B版本arxiv.org/pdf/2511.19529

03.12.2025 08:09 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image

最近DeepSeek AI推出DeepSeek-V3.2系列模型,含标准版与高计算增强版Speciale,以创新技术对标GPT-5、Gemini3.0Pro,缩小开源与闭源模型差距

核心亮点是独有DSA稀疏注意力机制,将长文本计算复杂度大幅降低,推理速度提升2-3倍,API成本直降50%以上。模型主打Agent优先特性,带专属思考模式,经大规模Agent任务训练,泛化能力拉满,Agent评估居开源模型顶尖

标准版已上线网页端、App及API,支持日常推理与开发;Speciale版专攻极限推理,在IMO等赛事获金牌,仅开放临时API。目前V3.2模型权重已在Hugging Face开源

02.12.2025 04:25 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

StepFun AI最近推出音频大语言模型Step-Audio-R1,破解传统音频模型长推理链准确率下降难题,靠创新技术实现从“转文字理解”到“听声音推理”的突破

模型摒弃“文本替代推理”弊端,以“模态化推理蒸馏”提取真实声学特征,确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形,经适配器下采样后,由Qwen2.5 32B解码器生成文本,推理过程清晰可控

经500万例样本冷启动训练及强化学习优化,其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro,论文arxiv.org/pdf/2511.15848

01.12.2025 14:34 — 👍 2    🔁 0    💬 0    📌 0
Post image Post image Post image

最近快手新一代旗舰多模态模型Keye-VL-671B-A37B正式发布并开源,以6710亿参数实现“善看会想”核心能力

在视觉理解、视频分析等26项基准测试中斩获18项第一,能精准识别细节、规避视觉错觉,视频时序把握精准

通过三阶段预训练与多轮后训练提升性能,兼顾精度与效率,未来将强化工具调用能力,已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

30.11.2025 02:24 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

阿里通义Z-Image生图模型发布即火,首日登顶Hugging Face趋势榜,下载量达50万次。仅6亿参数便实现照片级真实感,能精细还原皮肤、发丝等细节,光影与构图兼具美学质感

系列版本适配多元需求,Z-Image-Turbo仅需8步推理,可精准渲染中英混合文本,适配快速创作场景;Z-Image-Edit能精准执行复合编辑指令,修改中保持画面一致性

依托单流扩散架构提升参数利用率,搭配提示词增强器实现理解式创作,现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image

29.11.2025 02:03 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image

DeepSeek-Math-V2最近正式发布,作为全球首个开源达IMO金牌水平的数学推理大模型,以6850亿参数打造创新“生成-验证”双模型闭环,可自我审查修正推理漏洞

在IMO赛事中正确率达83.3%获金牌,Putnam竞赛近乎满分,多项基准测试成绩领先。模型以Apache2.0协议开源,权重及训练细节全公开,助力高可信度AI场景落地,已在Hugging Face、GitHub上线

28.11.2025 06:49 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

最近OpenAI和Anthropic这对竞品居然联手了!共同推出MCP Apps提案,直接给AI交互升级“图形化界面”,堪称AI界的交互革命

以前AI只能发文字、传数据,现在能直接给可视化界面——要分析数据就弹交互式仪表盘,要配参数就出勾选表单,不用再啃枯燥代码。提案靠标准化模式打通UI资源和工具,还支持双向通信,沙盒化运行保障安全,Postman、Shopify等已经在用相关SDK

这波操作有望成为行业通用范式,不管是开发者还是普通用户,未来用AI都会更简单高效

27.11.2025 09:40 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image

DeepSeek最近新开源了一个负载均衡工具LPLB,专门优化AI模型里的专家并行分配,解决部分专家超负荷、GPU忙闲不均的问题

靠动态排序、建副本、算最优分配三步调平负载,还搭配英伟达工具提速。不过目前还在早期研究阶段,有延迟、忽略部分计算成本等小局限,性能还在慢慢测试优化

26.11.2025 08:22 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

谷歌Nano Banana Pro(Gemini 3 Pro Image)最近正式亮相了,它深度融合Gemini 3 Pro的推理能力与世界知识,革新AI图像生成体验

该模型可生成2K、4K高清图像,适配多类长宽比,能融合14张参考图像且保持5个人物的一致性。其文字渲染效果出色,支持多语言文本生成,借知识库保障视觉内容的事实准确性

目前它已上线Gemini App、Google Ads等多款产品,也可通过Gemini API等渠道付费预览使用

25.11.2025 12:25 — 👍 1    🔁 0    💬 1    📌 0
Post image Post image Post image Post image

最近阿里通义实验室开源智能体自进化系统AgentEvolver,凭三大核心模块达成自主能力迭代,已在GitHub上线并同步发布技术报告,大幅降低智能体开发门槛

系统依托自我提问、自我导航、自我归因模块,搭配Master节点调度,形成数据-探索-反馈自动化闭环,主动合成训练任务、规避盲目试错、提升优化效率

性能亮眼,14B模型任务平均完成率从29.8%升至57.6%,7B模型提升显著,强化后14B模型可越级超越更大参数量模型,兼具极速收敛效率与强跨域泛化性,论文arxiv.org/pdf/2511.10395

24.11.2025 09:52 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image

谷歌Gemini 3正式亮相,被定义为通往AGI的重要一步,多模态与交互能力全面升级。Gemini 3 Pro以1501 Elo高分登顶LMArena榜单,WebDev Arena排行第一,碾压前代及主流竞品

原生多模态架构加持,解析复杂图表、动态视频流游刃有余,Deep Think模式强化推理能力。融合多模态信息适配学习、开发等场景,现已全面开放,深度思考模式未来几周上线,普通用户与开发者均可便捷使用

23.11.2025 09:54 — 👍 1    🔁 0    💬 1    📌 0
Post image Post image Post image Post image

最近字节Seed康炳易团队推出Depth Anything 3(DA3)模型,凭极简架构实现3D视觉突破,获AI学者谢赛宁高度认可

DA3仅以普通视觉Transformer为基础,聚焦深度与光线双目标预测,可从单图、多视角照片及视频中精准算深度、还原相机位置,拼完整3D场景并补全未拍摄视角

性能亮眼,相机定位精度提35.7%,几何重建准确率涨23.6%,超前代DA2。采用师生蒸馏策略,降低高精度数据依赖,适配虚拟漫游、数字孪生等多场景,论文arxiv.org/pdf/2511.10647

22.11.2025 10:30 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image

拍我AI(PixVerse)V5 Fast版本重磅上线,视频生成速度提升超30%,5秒高清视频不到一分钟就能产出,效率大幅飞跃

新增Modify精修功能,支持端到端编辑,单帧修改可同步全片一致化处理。能实物级替换元素、背景,精准调风格光影,还可调整人物年龄、服装与气质,创作自由又可控

彻底打破AI视频慢且难改痛点,降低创作门槛,适配专业团队、商用制作及普通用户,灵感落地更高效

21.11.2025 05:42 — 👍 1    🔁 0    💬 1    📌 0
Post image Post image Post image Post image

美国PI公司推出机器人基础模型π0.6,以“视觉-语言-动作”VLA架构为核心,凭Recap创新训练法打破技术瓶颈,具身智能落地再进一步

Recap训练分三步:模仿学习打基础,纠正式指导补误差,强化学习自主精进,攻克纯模仿学习易出错、难持续的问题

模型在制咖啡、叠衣物、组装纸箱等任务中表现亮眼,制咖啡成功率与吞吐量翻倍,整体任务成功率超90%,可在未知环境稳定连续运行,论文https://website.pi-asset.com/pi06star/PI06_model_card.pdf

20.11.2025 07:48 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

马斯克的xAI低调推送Grok 4.1,向所有用户免费开放!双模式设计太能打:思考模式登顶LMArena排行榜,即时模式稳居第二,碾压前代及多款主流模型

情感智能EQ-Bench3夺冠,创意写作跻身前列,细微意图感知超敏锐,人格更连贯;通过智能体式奖励模型优化,事实幻觉率大降,实用性拉满

无需复杂操作,X平台、官网及移动端均可直接用,免费用户也能解锁高水准AI交互,日常沟通、创意输出都适配

19.11.2025 08:11 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

复旦与阶跃星辰联合推出AI合照模型WithAnyone,凭创新技术打破传统生成的“克隆感”,成ID一致性与可控性双料冠军

核心亮点拉满:依托超200万张合照+百万单人图训练,双通道编码+对比式学习,既精准还原人物身份,又支持多角度、多表情自由变化,多人同框互动超自然。首创MultiID-Bench基准与“复制粘贴”指标,彻底解决同质化问题

现已全面开源,支持ComfyUI部署,个人纪念、创意设计、电商拍摄等场景直接受益,AI合照终于有了“真实氛围感”

18.11.2025 09:38 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

陈天桥EverMind团队发布AI长期记忆操作系统EverMemOS,在LoCoMo等主流评测中斩获SOTA成绩,为智能体注入持久、连贯的“记忆核心”

其核心亮点超惊艳:仿人脑设计四层架构(代理层=前额叶、记忆层=大脑皮层等),兼顾记忆存储、高效检索与外部交互;支持公私记忆隔离、多智能体协作,从陪伴到复杂任务全场景适配

现已开源可本地部署,云服务版后续上线,彻底解决AI“健忘”的问题

17.11.2025 08:15 — 👍 1    🔁 0    💬 1    📌 0
Post image Post image Post image Post image

字节跳动TRAE SOLO正式版重磅发布,定位升级为“The Responsive Coding Agent”,国际版全面开放且限时免费体验中

相比Beta版,正式版搭载双智能体架构:SOLO Builder负责“从0到1”快速搭建应用,新增的SOLO Coder专攻“从1到100”的复杂编码、重构与Bug修复。核心亮点拉满——多任务并行支持同时推进多个模块,上下文压缩解决长链路失忆问题,代码变更追踪让每处修改透明可见,Plan模式先规划后执行更可控

兼容VS Code扩展与多系统,还能免费调用GPT-4o、Claude 3.5等顶级模型,完美贴合专业研发 workflow

16.11.2025 10:10 — 👍 2    🔁 0    💬 0    📌 0
Post image Post image Post image

Google DeepMind推出多模态智能体SIMA2(研究预览版),依托Gemini2.5Flash-lite模型,任务成功率较初代翻倍,成为通用智能与机器人领域的重要突破

核心亮点拉满:首创自生成数据循环,无需人工标注即可自我迭代;能读懂文本、颜色符号甚至emoji指令,在未见过的游戏环境中自主完成复杂任务。搭配Genie生成式世界模型,可在即时创建的3D场景中精准交互,构建“看懂-推断-规划”的高层行为闭环

目前聚焦决策层能力,暂不涉及底层机械控制,团队正寻求合作探索向实体机器人迁移路径,AGI落地的虚拟训练场已初具雏形

14.11.2025 10:23 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

最近李飞飞创立的World Labs(估值超12.5亿美元)推出首款商业产品Marble3D公测版,凭多模态生成能力重塑AI内容边界

只需文本、图片、视频或粗糙3D布局,10分钟即可生成连贯可导航的3D虚拟世界,支持“结构+风格”分离编辑,还能一键扩展组合场景。导出高斯溅射、三角网格等多格式,无缝适配游戏开发、VR、影视制作等场景,物理真实性拉满

免费版提供4次基础生成,20美元/月起的付费计划解锁商用权限,网友已实现VR游戏、专业渲染等创意落地,3D创作的“ChatGPT时刻”真的来了

13.11.2025 14:30 — 👍 1    🔁 0    💬 0    📌 0
Post image

🔥谷歌Gemini Live重磅更新,AI语音正式迈入拟人化2.0时代

五大核心能力直接碾压ChatGPT语音:口令实时变速、感知情绪调语气,还能切换伦敦腔、牛仔腔等个性口音,兼顾无障碍优化与谷歌生态无缝衔接

基于Gemini2.5Flash优化,精准模拟人类呼吸与节奏,从“能说”升级为“懂你”。既是高效助手,也是会共情的对话伙伴,重新定义智能交互,隐私保护也到位

13.11.2025 08:14 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image

清华等四机构联合发布全球首个MCP架构开源RAG框架UltraRAG2.1,以“零代码配置+全链路工程化”重塑技术范式

其核心亮点拉满:几行YAML配置即可搭建多模态检索系统,原生支持图文/PDF跨模态检索,MinerU深度集成实现知识库全自动构建;兼容主流检索引擎与大模型,内置标准化评估体系让结果可量化优化

基于MCP协议的模块化设计(AI界“超级转接头”),让检索、生成等模块灵活组合,大幅降低企业级RAG落地门槛,为科研、办公等场景注入高效智能动力

12.11.2025 09:00 — 👍 1    🔁 0    💬 0    📌 0
Post image

字节新出的编程神器Doubao-Seed-Code太顶了

登顶SWE-Bench榜单,性能直接拉满,256K长上下文+视觉理解,看设计稿就能生成代码,bug修复秒级响应~ 关键价格卷到离谱,9.9元套餐堪比咖啡钱,比行业均价低62%

原生兼容Claude API,老用户零成本切换,TRAE、Cursor都能直接用。实测做网页、改代码、工程重构都顺到飞起,开发者有福了

11.11.2025 10:11 — 👍 1    🔁 0    💬 0    📌 0
Post image

最近OpenAI宣布为Codex CLI及IDE扩展新增轻量级模型GPT-5 Codex Mini

该模型是GPT-5 Codex的轻量版本,具备更小体积与更高性价比,能提供约4倍的使用量,ChatGPT订阅用户可受益。当用户调用量达到5小时使用上限的90%时,Codex CLI与IDE扩展将自动提示切换至该模型

同时,OpenAI将ChatGPT Plus、Business和Edu用户的Codex速率限制提高了50%,ChatGPT Pro和Enterprise用户则享有优先处理待遇。此外,OpenAI还对Codex的底层进行了优化,确保开发者能获得更稳定的服务体验

10.11.2025 09:32 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image

最近Firecrawl推出创新性工具Branding Format API,用户输入目标网站URL,即可一次性提取完整品牌DNA

该API能自动识别并提取配色方案、标志与Logo、设计框架等品牌视觉元素。其输出为结构化JSON数据,包含十六进制颜色代码、字体系列和资产URL等,兼容Figma和Adobe Creative Suite等设计平台

对于设计师和创业者来说,Branding Format API可帮助他们快速了解或模仿某一品牌的视觉风格,节省大量手动研究时间,早期 adopters 报告称其在品牌研究阶段可节省30%-50%的时间

09.11.2025 04:52 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

两人小团队仅花两周复刻DeepSeek-OCR,推出开源模型DeepOCR。其精准还原“视觉模态压缩”核心,用250个视觉token替代数千文本token,大幅降低大模型长文本处理算力开销

解码器替换为兼容性更强的Qwen2-7B-Instruct,落地门槛更低,两张H200即可完成训练。实测中,英文识别、表格解析表现突出,部分任务优于原版,后续将优化复杂场景性能,项目主页:https://pkulium.github.io/DeepOCR_website/

08.11.2025 15:45 — 👍 1    🔁 0    💬 0    📌 0
Post image Post image Post image Post image

最近月之暗面开源了新一代大模型Kimi K2 Thinking,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力

在人类终极考试中,Kimi K2 Thinking取得了44.9%的SOTA成绩,超过了GPT-5、Claude 4.5等先进模型,其Heavy版本分数更可达51%。在评估AI Agent网络浏览能力的BrowseComp测试中,他获得了60.2%的成绩

该模型参数规模高达万亿,训练成本为460万美元,运行成本低,API价格远低于GPT-5。它还具备INT 4量化、持续交互和Agent驱动等特点

08.11.2025 07:23 — 👍 1    🔁 0    💬 0    📌 0

@cryptoknightai is following 4 prominent accounts