transformers - 搜索 News

来自MSN2 天

如何理解 Transformers 中 FFNs 的作用？

FFN在Transformer里面主要是对多头注意力矩阵升维，非线性过滤，然后再降回原来的维度。这个通常的比喻是：FFN就像个人的思考空间—— Attention Layer帮助模型正确的分配注意力，然后FFN 帮助模型仔细的思考，提取更加抽象的特征。这个比喻很好很形象，听到这儿往往会感觉恍然大悟，然后感慨模型设计精妙，唯一的问题是什么实质都没有解释。

18 小时

DeepSeek惊艳亮相，OpenAI首席执行官奥尔特曼发声：新竞争者带来机遇 ...

近日，美国开放人工智能研究中心（OpenAI）首席执行官萨姆·奥尔特曼在东京发言，针对中国杭州深度求索人工智能基础技术研究有限公司（DeepSeek）推出的新型人工智能模型，表达了既欣赏又警惕的态度。DeepSeek的这一新模型被认为性能相当于Cha ...

腾讯网16 小时

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

选自oxen.ai作者：Greg Schoeninger编译：陈陈、泽南RTX 3080 移动版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。自 DeepSeek-R1 ...

on.cc東網2 天

铜锣湾变形金刚主题餐厅撤出香港去年传寻求顶租

座落铜锣湾罗素街复式地铺的变形金刚主题餐厅“Transformers The ARK”周三(5日)，在网上社交媒体发文公布，将于2月8日完成在本港的任务，将于今年5月搬至深圳罗湖区一个广场内，意味该公司将撤出香港市场。

16 小时

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey ...

雷锋网10 小时

「鲶鱼」DeepSeek 正在搅动上下游

从算力市场的整体影响情况上来看，潞晨科技创始人尤洋告诉 AI 科技评论，“DeepSeek ...

一个有价值、有趣的新产品方向：AI评测工具（含5个案例）

通过一些案例共性，我们可以提炼出「AI评测工具」这个需求场景/产品形态，感觉比较有代表性，也很有意思，大家可以关注下。下面是具体的5个案例，评测对象范围，涉及：AI文档类产品、大模型速度、Prompt生成及评测、Prompt版本管理及表现评测，甚至还 ...

1 天

AAAI 2025 | 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷，并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解，也为模型改进提供了启发和洞见。例如： ...

3 天

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

「性能优化是一个无止境的过程，」翟季冬教授表示，在中国面临算力资源挑战的背景下，通过系统软件创新提升算力效能，是产业突围的关键。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面发力，更需要建立起完整的基础软件体系。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果