LLM(机器学习)职位面试(2024年秋季)——流程回顾 [译]
这是作者在 2024 年秋季面试以 ML/LLM 研究科学家/工程师为主要方向的职位时的经历分享。
February 25, 2025
View Article翻译的一些我觉得不错的科技文章。
这是作者在 2024 年秋季面试以 ML/LLM 研究科学家/工程师为主要方向的职位时的经历分享。
February 25, 2025
View Article有些事情,我们几乎瞬间就会想到答案,比如“今天是星期几?”。但也有一些事情需要更大的脑力投入,例如解一道有难度的填字谜题或排查一段复杂的代码错误。我们可以根据手头的任务,自由选择要投入多大程度的认知努力。
February 25, 2025
View ArticleClaude 3.7 Sonnet 在编程和前端网页开发方面表现尤为突出。伴随这个新模型,我们还推出了一个用于代理式编程的命令行工具——Claude Code。目前 Claude Code 作为一款有限的研究预览版本向开发者开放,允许他们从终端直接将大量工程任务委派给 Claude。
February 25, 2025
View Article我认为保持行动的偏好非常重要。就像其他习惯一样,这可以通过练习养成。向前迈进能让你取得进展。我不知道你是否也有过这样的经历:曾经因为不知道该选择哪条路而感到停滞不前。哪怕只是迈出最小的一步,也能帮助你打破这种僵局。
February 24, 2025
View Article使用 LLM 已经不足以让你的产品与众不同
February 21, 2025
View Article招聘网站 Indeed(在美国和部分其他国家都是规模最大的职位聚合平台,也会抓取其他网站的招聘信息)发布了一组有趣的数据,展示了网站上“活跃的软件开发类职位”数量的变化趋势。总的来看,形势并不算好
February 21, 2025
View Article今天LangChain发布了 LangMem SDK,这是一个可帮助你的代理通过长期记忆进行学习和改进的库。它提供了从对话中提取信息、通过提示更新来优化代理行为,以及维护关于行为、事实和事件的长期记忆的工具。
February 18, 2025
View Article我们正处在软件开发的一个奇怪转折点。每个我接触到的初级开发者都有 Copilot、Claude 或 GPT 这类工具在 24 小时全天候运转。他们交付代码的速度比以往任何时候都要快。但是,当我更深入地了解他们提交的代码背后的原理时?问题就出现了。
February 18, 2025
View Article一份在无尽诱惑时代中重拾专注的个人指南
February 18, 2025
View Article数以百万计的人面临失业,居然只用一条推文就随意宣布了……但这就是我们当下所处的时代。
February 17, 2025
View Article> *我们选择了人迹罕至的道路,但后来才发现它之所以罕至,是有原因的。*
February 17, 2025
View Article一种新的模型和推理方法,可在 1000 tokens/s 的速率下对整个文件进行高精度编辑。
February 16, 2025
View Article这些规则是从编写“昂贵航天器上的嵌入式软件”这一角度制定的。在这种场景下,为了保证不让一个任务功败垂成,选择“容忍大量编程痛点”通常是值得的。我并不清楚,为什么他们不使用为程序验证而生、并且比 C 更适合嵌入式编程的 SPARK(Ada 的子集)。\ 这里我会从“编写编程语言处理器(编译器、解释器、编辑器)以及应用软件”的角度来对这些规则进行批判性评述。
February 16, 2025
View Article以下内容整理自播客“Latent Space”最近的一期“The AI Architect — Bret Taylor”,邀请到了嘉宾是 Bret Taylor,是一位拥有传奇经历的 Sierra CEO、OpenAI 主席,以及 Google Maps / Facebook Likes 的缔造者,在节目中分享了他对软件工程未来的见解,以及在 AGI 曙光降临之际,如何打造优秀的产品和团队。内容比较长,但是值得认真看看,我对于一些有价值的内容已加粗,如果时间有限,也可以挑重点看看。
February 16, 2025
View Article了解何时使用推理模型,以及它们与 GPT 模型有何不同。
February 14, 2025
View Article**乐观主义者曾希望人工智能这项技术能成为强大的均衡器,但它似乎更可能扩大社会差距**
February 14, 2025
View Article知名博主 Ben Thompson 在使用 Deep Research 后写的一篇 Deep Research and Knowledge Value,谈到了在信息搜索上带来的价值。Deep Research 极大的降低了信息整合的成本,以前要专门人去整理的工作,现在借助 Deep Research 十分钟左右就可以完成,但是它也很依赖于公开的信息,而且热门话题往往噪音多、信噪比差;小众/专业话题数据更集中且高质,价值更明显。但对于小众信息来说,如果真正关键或独家数据并未对外公开,那么再强大的 AI 也无法查询到,最终会导致报告中出现“严重缺失”,反而并给人造成“似乎已经知道一切”的假象。
February 13, 2025
View Article我们发现,将强化学习应用于大型语言模型(LLM)能够显著提升在复杂编程和推理任务上的表现。此外,我们比较了两种通用的推理模型——OpenAI 的 o1 和一个早期版本的 o3——与一种面向特定领域的系统 o1-ioi。o1-ioi 采用了人工设计的推理策略,旨在参加 2024 年国际信息学奥林匹克竞赛(IOI)。我们使用 o1-ioi 在 IOI 2024 的现场比赛中参赛,并结合手动调试的测试时策略,获得了第 49 百分位的成绩;在放宽比赛限制后,o1-ioi 达到了金牌水平。然而,当我们评估后续版本如 o3 时发现,o3 在无需人工编写的特定领域策略或放宽限制的情况下,也能获得金牌。我们的研究表明,尽管 o1-ioi 这类专门管线能带来显著性能增益,但规模更大的通用模型 o3 无需依赖人工设计的推理启发式即可超越这些结果。值得注意的是,o3 在 2024 IOI 上取得了金牌,并在 CodeForces 上的水平可与顶尖人类选手媲美。整体而言,这些结果说明,与其依赖特定领域的技巧,不如通过扩大通用强化学习规模的方式,为在需要推理能力的领域(如竞技编程)实现最先进的 AI 提供了更稳健的路径。
February 13, 2025
View Article知名 AI 公司 Anthropic 刚发布了 **Anthropic 经济指数(Anthropic Economic Index)**,他们通过分析了几百万条匿名的用户在 Claude 上的聊天记录,分析了日常对话中 AI 的使用模式:从软件开发和技术写作等高频应用场景,到薪资与职业类型之间的关联,再到 AI 在“增强”与“自动化”两大方向上的分布,得出了一些有价值的分析结果。
February 10, 2025
View Article我也曾纠结于写的东西无人观看,后来发现,就像照相一样,不是为了别人而是为了自己,按下快门捕捉到美好的瞬间,完成自己的思考和创作。再后来践行费曼学习法,发现写作才是“费曼学习法”的最佳操作方式。
February 10, 2025
View Article本文将介绍多模态大语言模型(MLLMs),展示它们在各种高难度提示(prompt)下的应用,并介绍目前正在重塑计算机视觉领域的顶尖模型。
February 10, 2025
View Article在任何 RAG 系统中,将 PDF 进行分块(将其转换为简洁且机器可读的文本片段)一直是个头疼的问题。市面上既有开源也有专有的解决方案,但它们都没有在准确性、可扩展性和成本效益之间达到理想的平衡。
February 8, 2025
View Article之前有一篇文章讲借助多模态的语言模型例如 Gemini 2.0 就可以低成本进行复杂 PDF 的解析,但实际上,面对现实场景,还是有很多细节上的问题,以及安全上的风险,比如说语言模型会因为图像分割时的问题导致识别错误,或者因为语言模型的特点,“自作聪明”的把一些拼写修改,把图片中的数学题给解答出来,甚至还可能因为一些“恶意”的提示词导致结果被污染。
February 8, 2025
View Article既然推理模型自己就会做思维链,这意味着以前在提示词中加入思维链的方式已经没必要了,因为大多数时候推理模型自己写的思维链质量就很好了。另外大部分时候也不需要复杂的角色扮演、示例,因为由于思维链的存在,推理模型的“智能”程度高了很多,不需要角色设置、示例也能很好的理解和跟随指令。
February 8, 2025
View Article**导读:** 这是一篇相当棒的科普文章,作者以 DeepSeek R1 为核心案例,围绕“推理型大语言模型(Reasoning LLMs)”这一主题,深入探讨了其定义、应用场景、优劣势及主要实现方法。文章背景是 2024 年以来大型语言模型在专业化方向上的快速发展,尤其在解题、数学证明、代码生成等需要多步推理的复杂任务上,如何用RL(强化学习)和SFT(监督微调)等方法打造“会思考”的模型。文中还详细解读了 DeepSeek R1 模型训练流程,包括纯RL、SFT+RL、以及利用蒸馏将大模型能力迁移到小模型。作者还介绍了一些低成本项目,如 Sky-T1、TinyZero 等,为有限资源下的研究者提供了新思路。通过这一系列方法对比,读者可以全面了解构建推理模型的关键技术、挑战与未来趋势。
February 7, 2025
View Article图灵笔记中的独家内容,展现了他“动手实干”的工程方法
February 4, 2025
View Article他在学校经常不及格,那么这位被称为“怪胎”的少年比尔·盖茨是如何创办微软并在 31 岁时成为亿万富翁的?
February 4, 2025
View Article来自梵蒂冈的关于人工智能与人类智能关系的说明
February 4, 2025
View Article这篇文章帮你把最近的 AI 发展梳理得明明白白。就是专门写给那些“感觉自己好像应该知道,但又真的没跟上节奏”的朋友们。AI 进化速度太离谱,我们要抱紧彼此,别在这股风潮里被吹晕。
January 27, 2025
View ArticleBut even though I've thought the valuation was just too rich for my blood for the past year or so, a confluence of recent developments has caused me to flip a bit to my usual instinct, which is to be a bit more contrarian in outlook and to question the consensus when it seems to be more than priced in. The saying "what the wise man believes in the beginning, the fool believes in the end" became famous for a good reason.
January 27, 2025
View Article大家都听过各种各样的“AI 在产品管理中的应用”说法。让我们去伪存真,看看最实用的用例、工具以及规则,帮助你在职场提升效率,同时又不损害你的口碑。
January 26, 2025
View Article对 DeepSeek 出现的异常 Token 进行首次识别与归档的尝试
January 26, 2025
View Article我们正生活在 AGI 的前夜。在这个“圣诞前夜”里,我请求你一起努力,让 AGI 的转变顺利进行。这样我才能在公元 3024 年的圣诞节前夜,和你在距离我们四光年的那颗围绕“Altman Centauri”运行的行星上说声“嗨”。
January 22, 2025
View ArticleCodeium 如何在十个月内从 0 增长到超过 1000 万美元?enterpriseready.io 的盲区在哪?一次关于“企业级基础设施原生”(Enterprise Infra Native)的全面思维导图!
January 21, 2025
View Article设计优秀的 AI 产品,超越“只是 LLM 封装”:让 AI 更加随处可见,更加实用,然后更加强大。
January 21, 2025
View Article要想打造一个“Copilot for X”,你需要: 估算推理规模:在延迟和输出质量之间做好权衡 自己掌控模型:使用第三方 API 会毁了你的单位经济成本 搞定实时基础设施:ChatGPT、DALL-E 等服务的速度对保持“流畅状态”来说太慢了 优化 Prompt:上下文窗口非常有限;要判断哪些信息对输出提升效果最好 整合模型输出与用户体验:原始模型输出往往直观度不足,你需要处理大量长尾的 UX 问题 最终,你会想要超越“Copilot for X”的模式,因为 Copilot 只是 AI 产品化后各种可能模式的一个起点。
January 21, 2025
View Article某些任务及其复杂度会改变打断的影响。研究还发现,认知与生理数据之间存在差异。
January 20, 2025
View Article通过一项大规模、具有代表性的调查,我们研究了谁已经采用了 ChatGPT、工人如何预期该技术将影响他们的工作,以及为什么有些工人使用它而有些人则不使用。我们的研究显示,ChatGPT 的采用障碍加剧了一些现有的不平等:女性和低收入工人使用该工具的可能性更小,而年轻和资历较浅的工人采用 ChatGPT 的速度更快。
January 19, 2025
View Article我们在给 Devin 分配了 20 多个任务后的感受。
January 18, 2025
View Article从类人对话体验到语音定制与无障碍性,了解如何打造更智能、更以用户为中心的聊天机器人。
January 18, 2025
View Article随着构建 AI 产品的成本下降,对懂得该构建什么的人才的需求将会上升。准备好迎接 AI 产品管理的爆发式增长吧!
January 16, 2025
View Article如果我告诉你 GPT-5 是真实存在的呢?不仅真实存在,而且它已经在你看不到的地方塑造着世界。基本假设是:OpenAI 已经开发出 GPT-5,但把它留在内部使用,因为这样获得的回报远远大于开放给数百万 ChatGPT 用户使用。而且他们获得的回报**并不是金钱**,而是别的东西。你看,这个想法本身很简单;难点在于如何把零碎的信息拼凑起来,形成完整的推断。本文将深入探讨我为什么认为所有线索都指向这个结论。
January 16, 2025
View Article如今为什么会有这么多免费且好用的托管服务。多年前,你_必须_付费才能拥有托管服务,但现在已经有了很多免费额度相当大的平台,比如 GitHub Pages、GitLab Pages、Netlify 等等。但在免费方案之中,Cloudflare 一骑绝尘
January 16, 2025
View Article在大多数垂直领域中,横向 AI 产品最终会胜过垂直 AI 产品。垂直 AI 虽先入市场,但谁能在长期中取胜?
January 16, 2025
View Article关于加强美国在人工智能基础设施领域领导地位的行政命令
January 15, 2025
View Article十年亲身经验:从受雇软件开发者到成功独立开发者,打造并运营自己的业务
January 14, 2025
View Article2025 年 1 月 8 日的东京地区 Scrum Gathering 大会上所做主题演讲的文字记录。
January 13, 2025
View Article尽管我的第一台电脑是 Apple II,但我从来不是 Macintosh 用户,因为我家后来转用了 PC。不过通过阅读各种杂志,我对 Macintosh 这一系列的电脑也逐渐熟悉,并一直想给收藏添一台运行在 pre-OSX(OS X 之前版本)的 Macintosh。阻碍我的主要原因是,大多数老 Mac 都使用较为“奇葩”的接口,而且我也没有足够的空间来放置它们。
January 13, 2025
View Article我为什么会从厌恶 o1,到现在每天用它来解决最重要的问题?因为我学会了如何正确使用它。
January 13, 2025
View Article* 在历史上,通用方法总能在 AI 领域取胜。 * 目前从事 AI 应用的创业者正在重蹈过去 AI 研究者的错误。 * 更好的 AI 模型将催生通用型 AI 应用,同时,围绕 AI 模型的“套壳软件”价值将逐渐降低。
January 12, 2025
View Article