深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?
新智元报道 编辑:LRST Recraft 团队通过结合 TextDiffuser-2 技术和自训练的大型语言模型,提升了文本到图像渲染的质量和准确性,不过现有模型在处理复杂语言如中文和未明确指定的文本时,仍存在渲染不准确的问题。 在当前的图像生成技术中,文本渲染的能力已逐渐成为衡量其先进性的重要标
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
新智元报道 编辑:编辑部 HYZ 全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5 一上线,全网网友都震惊了:LLM 独有的上下文学习优势,视觉模型居然也有了。 来自中国的视频生成模型,再一次震惊了全球大模型圈。 生数科技推出的 Vidu 1.5,成为世界首个支持多主体一致性的多模态
突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景
新智元报道 编辑:LRST GenXD 模型结合 CamVid-30K 数据集突破了 3D 和 4D 场景生成的挑战,能从单张图片生成逼真的动态 3D 和 4D 场景。这一进展为虚拟世界构建带来新的可能性,让动态场景的生成更加快速和真实。 在我们熟知的 2D 图像和视频生成技术蓬勃发展之际,3D 和
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
新智元报道 编辑:LRS 研究人员通过案例研究,利用大型语言模型(LLMs)如 GPT-4、Claude 3 和 Llama 3.1,探索了思维链(CoT)提示在解码移位密码任务中的表现;CoT 提示虽然提升了模型的推理能力,但这种能力并非纯粹的符号推理,而是结合了记忆和概率推理的复杂过程。 「推理
又一OpenAI研究员离职!不相信OpenAI能造福世界,AGI使命无比困难
新智元报道 编辑:静音 OpenAI 治理研究员 Richard Ngo 宣布离职。近来,OpenAI 中专注于 AI 安全的员工接连出走,Ngo 是最新的一位。 就在刚刚,OpenAI 治理研究员 Richard Ngo 宣布离职。 在 OpenAI 从事人工智能预测和治理工作三年后,我刚刚在 S
Nature:AI也许可以拥有常识,但不是现在
新智元报道 编辑:乔杨 70 年前科学家们所畅想的「机器常识」被 LLM 实现了吗?Nature 最近的一篇评论文章给出了否定的答案,并坚定地指出:常识推理是 AGI 的必备品。 自从 2022 年 ChatGPT 横空出世以来,LLM 进入了一日千里、突飞猛进的发展阶段。 一些专家和研究人员推测,
一句话开发AI智能体,有人靠它一单赚10万!80万开发者已入局
新智元报道 编辑:编辑部 HYZ 大模型的下一个风口,就在眼前了:使用百度文心智能体,有人的单次转化最高收入已经达到 10 万元!无论是 9 岁小学生,38 岁失业打工人,还是 51 岁退休阿姨,都能轻松玩转。文心智能体,将为千行百业注入 AI 新动力。 最近,AI 智能体领域好不热闹。 ChatG
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
新智元报道 编辑:编辑部 HZh 30 多年的数学猜想首次获得了进展!Meta 等学者提出的 PatternBoost,使用 Transformer 构造了一个反例,反驳了一个已悬而未决 30 年的猜想。是否所有数学问题都适合机器学习技术?这样的未来太令人期待了。 30 多年的数学猜想,被 AI 发
Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI
新智元报道 编辑:Aeneas 好困 Ilya 终于承认,自己关于 Scaling 的说法错了!现在训练模型已经不是「越大越好」,而是找出 Scaling 的对象究竟应该是什么。他自曝,SSI 在用全新方法扩展预训练。而各方巨头改变训练范式后,英伟达 GPU 的垄断地位或许也要打破了。 昨天,The
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
新智元报道 编辑:LRST 刚刚,一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic 发布,标志着图像生成即将进入「端侧时代」。 最近,YouTube 和 Reddit 上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷
AlphaFold3重磅开源,诺奖级AI颠覆世界!GitHub斩获1.8k星,本地即可部署
新智元报道 编辑:静音 六个月的争议后,诺奖级 AI AlphaFold3 开源了。这个在蛋白质结构预测领域掀起波澜的 AI——期待它的开源推动更多科学家的大量创新。文后附有安装和运行步骤详解哦! AlphaFold3 源码终于开放了! 六个月前,AlphaFold3 横空出世震撼了整个学术界。Al
0元起步打造你的AI搜索!实测秘塔新功能,竟能指导我升职加薪了
鱼羊发自凹非寺 量子位公众号 QbitAI 要说最近大模型应用里哪个赛道最火爆,AI 搜索当属其一。 大厂初创纷纷下场不说,功能也越卷越深度:集成论文库、引入多模态实现图片分析……大有把知识获取成本再打骨折的趋势。 就在量子位近期收到的读者反馈中,我们也实实在在感受到了大家伙儿对 AI 搜索的期待,
树莓派爆改国际象棋,棋子活了自己动
克雷西发自凹非寺 量子位公众号 QbitAI 现在,跟 AI 玩实体游戏,已经不用“人肉臂”代劳了! 甚至连机械臂也不需要,在这块特殊的棋盘上,树莓派直接就能控制国际象棋棋子的移动。 如果不是棋盘下的导轨露出马脚,简直就像是棋子“活”起来了。 这个设备名叫 Pi Chess Board(简称P板),
马斯克招人策略曝光:9轮面试,底薪低于同行,只招铁杆特斯拉人
要想进入特斯拉,先得接受低底薪才行?! 事情是这样的。 Business Insider 最近获得了特斯拉内部薪酬数据库(截至 2021 年 12 月)的访问权限,里面有10 万名员工的薪酬数据。 然后他们发现了有关特斯拉薪酬的一系列猛料: 面试 9 轮只为招聘特斯拉铁粉; 采用低底薪+股票奖励策略
o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准
让大模型集体吃瘪,数学题正确率通通不到2%! 获大神卡帕西力荐,大模型新数学基准来势汹汹—— 一出手,曾在国际数学奥赛中拿下 83% 解题率的 o1 模型就败下阵来,并且 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 等全都未攻破2% 这一防线。 所以,新挑战者到底
人造细胞系统模拟自然细胞“交流场景”
科技日报北京 11 月 14 日电 (记者刘霞)荷兰和瑞士科学家模仿眼睛内的光感受器,合成出一种具备人工细胞器且能对外部信号做出敏感反应的原细胞系统。他们还使用这些原细胞,模拟了自然细胞间的“交流场景”。这一进展为开发疾病新疗法和人造组织带来了可能。相关论文发表于新一期《先进材料》杂志。 生命的本质
用LLM一键生成百万级领域知识图谱!中科大新框架入选ACL 2024
现在,用 LLM 一键就能生成百万级领域知识图谱了?! 来自中科大 MIRA 实验室研究人员提出一种通用的自动化知识图谱构建新框架SAC-KG,提升效果 be like:当使用 ChatGPT 作为基础模型时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的领域特异性,相对于 SOT
百度打通两大国民产品!六边形AI创作新物种「自由画布」来了
衡宇西风发自凹非寺 量子位公众号 QbitAI 百度突然扔出了个 AI 创作界的 Game Changer! 一个由文心多模态大模型加持的万能白板,因为支持任何模态的素材输入,并能精准满足用户原始创作需求,被命名为「自由画布」。 一切都在一块类似“空白画布”的界面上操作,只需要一拖、一圈,就能在这一
今日最热论文:Scaling Law终结,量化也无用,AI大佬齐刷刷附议
几十万人关注,一发表即被行业大佬评为“这是很长时间以来最重要的论文”。 哈佛、斯坦福、MIT 等团队的一项研究表明:训练的 token 越多,需要的精度就越高。 例如,Llama-3 在不同数据量下(圆形 8B、三角形 70B、星星 405B),随着数据集大小的增加,计算最优的精度也会增加。 换句话
o1不是唯一路径!MIT新研究:测试时训练,模型推理能力大幅提升
克雷西发自凹非寺 量子位公众号 QbitAI o1 不是通向大模型推理的唯一路径! MIT 的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的 ARC 任务时,准确率最高可提升至原来的 5.83 倍。 这样的表现不仅优于 GPT-4 和 Claude,如果与其他推理方法相
开源版SearchGPT来了,两张3090就可复现,超越Perplexity付费版
VSA 团队投稿 量子位公众号 QbitAI OpenAI 推出 SearchGPT 没几天,开源版本也来了。 港中文 MMLab、上海 AI Lab、腾讯团队简易实现了Vision Search Assistant,模型设计简单,只要两张 RTX3090就可复现。 Vision Search As
稚晖君后宇树也来玩开源了:机器人操作数据集
西风发自凹非寺 量子位公众号 QbitAI 继稚晖君之后,国内又一家头部机器人公司玩起了开源! 宇树科技,开源 Unitree G1 机器人操作数据集,包括数据采集、学习算法、数据集和模型,并表示将持续更新。 更令网友意外的是,宇树基于抱抱脸 LeRobot 开源框架训练并测试。 抱抱脸联合创始人兼
小度为何押注AI眼镜?
克雷西发自凹非寺 量子位公众号 QbitAI 注意看,这是一款最新发布的眼镜。 看起来平平无奇的它,却是个不折不扣的新物种。 因为它内置了 AI。 戴上它,你可以随时随地语音问答,让它像百科全书一样为你指点迷津: 也可以让它帮你看文档,一句话整理总结,还能翻译外文: 首款中文 AI 眼镜能干什么?
摩尔线程冲刺IPO:国产GPU,英伟达中国一把手打造,估值超255亿
白小交发自凹非寺 量子位公众号 QbitAI 国产 GPU 独角兽摩尔线程正式启动 IPO! 官网显示,摩尔线程智能科技股份有限公司在北京证监局办理辅导备案登记,正式启动A股上市进程,辅导机构为中信证券股份有限公司。 这个创始团队来自英伟达,创始人兼 CEO 张建中在 GPU 这一行业已经深耕近二十
Keras之父,离职谷歌
金磊发自凹非寺 量子位公众号 QbitAI 刚刚,谷歌官方宣布了一条重磅消息: Keras 之父François Chollet,正式离职。 这篇文章由谷歌两位 VP(包括谷歌刚挖来的华人 Bill Jia)共同撰写,表达了对这位在谷歌长达 9 年零 3 个月的 AI 大佬,在工作上的认可及离职的惋
灵宝CASBOT首款人形机器人发布,会做家务,续航超过4小时
人形机器人品牌灵宝 CASBOT 正式发布首款全尺寸双足人形机器人“CASBOT 01”,一款多场景落地的通用类脑智能机器人。 这是灵宝 CASBOT 在成立不到 1 年的时间内交出的一份亮眼的答卷,也标志着人形机器人赛道迎来一位极具快速商业化能力的新入局者。 成立至今,灵宝 CASBOT 已在航天
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”
继 Anthropic 之后,OpenAI 也要接管人类电脑了?! 就在刚刚,彭博社爆料 OpenAI 将在明年 1 月推出 Agent“Operator(操作员)”,为用户自动执行任务。 配方我们也很熟悉,只需在电脑上简单下达指令,Agent 就能自动帮我们编码开发应用、订餐,做攻略等等。 好嘛,
把Runway、Luma们一锅端了!这款视频模型上“杀手级”功能
衡宇发自凹非寺 量子位公众号 QbitAI 三张图攒一个毫无违和感的视频! 视频模型领域又沸腾了! 把 Runway、LumaAI 等一众视频模型都一锅端了。海外用户评价,一众视频模型都实现不了的能力,它竟然给攻破了,甚至在语义理解甚至比图像模型王者 Midjorney 还强。 这背后就是国产视频模
腾讯很可能要重新进入扩张阶段了
图片来源:视觉中国 界面新闻记者崔鹏 界面新闻编辑宋佳楠 11 月 13 日,腾讯交出了 2024 年第三季度的成绩单,其营收实现 1671.93 亿元,较上一年增加8%;Non-IFRS(非国际财务报告准则下)经营利润为 612.74 亿元,同比增长 19%。 这份报告在营收表现上整体超过了资本市
实测完 Mac mini 的 3D 渲染能力后,我们发现了一点惊喜
Mac mini,终究还是火出圈了。 自从发布和发售以来,大家对这台全新苹果主机的兴趣点,主要集中在以下几个方面: 新机体积很小,重量很轻,甚至开始重塑我们对「传统主机」的刻板印象; 关于电源键位置的争论愈演愈烈,它就像苹果给大家出的一道难题,网友们脑洞大开,用各种方案巧妙解题; 「如何通过教育优惠