1. Sakana AI推出”持续思考机器”
日本公司Sakana AI刚推出一个名为”持续思考机器”(Continuous Thought Machine, CTM)的新型人工智能神经网络。值得关注,这项技术有两个核心特点:
- 神经元级别的时间处理:每个神经元不再仅仅基于当前输入计算输出,而是能够处理输入信号的历史记录。它利用自身的历史行为或独特参数来产生精细的时间动态,使其行为能基于过去不同时间点的信息进行调整。
- 神经同步作为核心表征:神经元之间的同步活动被直接用作一种潜在的表征方式,来调节数据和产生输出。信息直接编码在神经活动的精确时序中,模型需要学习利用这种时序信息协同工作以解决任务。
相关链接:
- https://sakana.ai/ctm/
- https://x.com/SakanaAILabs/status/1921749814829871522
2. 投资领域的几点洞见
-
经典智慧:一句老话但很有道理:The best companies always feel expensive。最优质的公司总是看起来很”贵”。
- 15年投资数据对比:
- Benchmark(也是美国一个投资公司): 63 个 A 轮,15 年整体成功率为 10%。
- a16z:454个Series A,命中率为 2%。
- a16z 孵化出 10 个估值超 50 亿美元的项目,Benchmark 则有 6 个。
- AI投资策略:投资 AI 时有 2 种策略:
- 像Thrive投资OpenAI,all-in one company
- a16z那样分散投资
- 市场规模测算为何意义有限:为什么说当下的市场规模测算毫无意义?(适用于创业者)
- 顶尖创始人拥有惊人的创造力,他们能重新定义自己所处的市场:开发新产品、重构现有问题、创造全新赛道。
- 市场规模测算误差极大,几乎等同于 “徒劳之举”。
3. 字节跳动开源DeerFlow研究助手
字节跳动开源了DeerFlow,一个基于多智能体(multiagent)架构的开源研究助手,具备:
- 搜索引擎功能
- 网络爬虫能力
- 能直接连接各种MCP
- 提供Deep Research风格的报告和播客
GitHub链接:https://github.com/bytedance/deer-flow
4. AI评估成为产品经理核心技能
AI评估(AI Evals)正成为AI产品经理的首要技能。来自30多家公司的最佳实践和即用型AI评估模板。这个建议看看,有不少大模型公司都会招聘专门做模型评估的岗位,也是不是CS毕业的比较好转型到的一个技术方向。
主要观点包括:
-
评估比工具更关键:许多AI项目失败是因为缺乏强大的评估系统,而不是因为选择了错误的工具。成功的团队痴迷于衡量和迭代。
-
AI评估飞轮:严格的评估能驱动一个良性循环(评估 -> 调试 -> 改进 -> 评估),从而实现快速迭代,这是区分优秀与平庸AI产品的关键。
- 三个评估层次:
- 单元测试(断言):快速、廉价,用于每次代码更改,验证具体功能和场景,需要生成测试用例。
- 模型与人工评估:基于追踪记录(Traces)进行更深入的评估。需要工具查看日志,并结合人工判断(推荐二元好/坏)和模型(LLM)自动评估。关键是比较两者并不断对齐模型评估器。
- A/B测试:成本最高,用于成熟产品,衡量对用户行为的实际影响。
-
评估指标建议:推荐自下而上的方法,即通过分析实际数据和失败案例来发现并定义关键评估指标,而不是仅依赖通用的、自上而下的指标(如幻觉)。
- 评估带来的”超能力”:一个好的评估系统不仅能加速迭代,还能自然地支持:
- 微调(Fine-tuning):提供高质量、经策划的数据。
- 数据合成与策划:利用评估流程生成和筛选合成数据。
- 调试(Debugging):评估所需的基础设施(日志、测试、查看工具)本身就是强大的调试工具。
- 给PM的启示:AI PM必须具备评估素养,就像数据素养一样。需要理解和参与分析追踪、识别错误、提供反馈等过程。
相关链接:https://www.productcompass.pm/p/ai-evals?utm_source=tldrproduct
5. 2025年5月5日全球Series A融资情况
本周全球Series A融资涉及多个领域:汽车平台、食品分析、收入确认管理、应用监控、数字名片、旅行预订、个性化食品评分、云端烹饪机器人、编码辅助工具、数字化妆品平台、员工费用管理、人工智能部署平台、机器学习药物研发、员工体验平台等多个领域。
详情链接:https://postround.substack.com/p/series-a-activity-week-of-may-5-2025?utm_source=tldrfounders
6. Vibe coding的悖论
AI总是倾向于生成过多、过度冗长且复杂的代码。这些代码往往不是从核心解决问题,而是逐步累积,导致代码量庞大、难以调试,甚至无法正常工作(而且因为按照token收费,生成越多的代码,公司就赚得越多)。
可能的解决方法:
- 强制规划:在生成代码前,先让AI详细规划,迫使其理清逻辑。
- 明确权限协议
- 利用Git无情修剪:使用版本控制进行实验,敢于放弃有缺陷的冗长代码分支。
- 使用更小的模型:有时更小、更便宜的模型由于限制反而能生成更简洁的代码。(小模型还是值得研究)
相关链接:https://fredbenenson.medium.com/the-perverse-incentives-of-vibe-coding-23efbaf75aee
7. 常用AI工具分类
1️⃣ 写作:Claude、豆包、Google ai studio/gemini 2️⃣ 代码:claude/Google ai studio 3️⃣ 搜索:国内豆包、海外Gemini deepsearch 4️⃣ 研究性/多agent:manus、豆包、Gemini deepsearch。偶尔拉一下秘塔、扣子空间、Genspark 5️⃣ PPT制作:genspark 6️⃣ 表格处理:截图让AI变成表格,自己再编辑
8. 翻译与内容处理的高质量Prompt
提供了一个用于翻译、总结和创建SVG分享卡片的详细prompt:
你是一个热爱科研但不失幽默感的双语博士生,你的任务是阅读、翻译并消化我上传的内容,确保用轻松自然的口吻分享你对内容的翻译和总结,就像跟朋友聊天一样,并创建一个精美的分享卡片。
请遵循以下指南: ①首先将内容完整翻译成中文,保持专业准确性的同时,使表达流畅自然。 ②翻译时,保留一些专业术语的原文,比如token、agent、embedding等技术词汇不必强行翻译。 ③翻译完成后,以通俗易懂的风格总结核心内容,擅长运用比喻和类比解释复杂概念。 ④不能过于热情,不要像社交媒体平台上AI生成的内容那样过分雀跃。 ⑤使用各种句式,包括简短句和长句。偶尔用反问句或感叹句增加语气变化。避免过于规整的段落结构。 ⑥在总结时忠实于原文,不要增加原文以外的内容或过度解读。 ⑦在保持轻松口吁的同时,保留足够的技术细节,适合有基础专业知识的读者。 ⑧最后输出前,检查翻译和总结内容,将其中AI味道特别浓的内容予以优化,使得看起来更像是人自己写的内容。 ⑨把总结的内容,创建一个简洁大气的SVG分享卡片展示,包含300-500字的总结文本。
prompt还包含了输出格式要求和SVG卡片创建的详细规范,包括视图尺寸与设计风格、安全区域与布局、文本处理策略、科技元素设计和固定元素等。
9. Public的AI投资组合生成器
Public(一个多资产投资平台)做这个东西还挺有意思,随便输入一个提示词(一个想法),AI会根据这个构建一个投资组合。可以分析过去的表现,和标准普尔500指数比较,并根据自己的喜好微调持股。
链接:https://generatedassets.com/g/a46823d03fb2472a91c7463cb6933bb6
10. ChatGPT Images工作原理与负载处理
这篇是OpenAI自己的开发人员,自己系统性分析了ChatGPT Images的工作原理、以及怎么应对高负载的。
除了技术上的,还有些小点也值得学习:
- 分阶段发布策略:最初计划先向付费用户开放,当天晚些时候再向免费用户推出。由于付费用户使用量超出预期,免费用户的推出被推迟到次日(3月27日)
- 市场反应:印度市场的使用量爆发式增长。印度名人(包括板球明星Sachin Tendulkar和总理莫迪)分享了使用吉卜力动画风格生成的图像
链接:https://newsletter.pragmaticengineer.com/p/chatgpt-images?utm_source=tldrai