2025-06-23 08:00:00
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
胶水工作指那些通常不那么光鲜亮丽,但对于维持团队或项目顺利运转至关重要的任务。它是幕后工作,能助力他人取得成功,比如整理文档、确保沟通顺畅、新员工入职指引以及处理技术债务等。尽管衔接性工作很有价值,但常常被低估,如果不能与更引人注目的贡献相平衡,还可能阻碍职业发展。毕竟公司不会奖励胶水工作,个人应有策略地去做,针对自己负责的项目,适当的胶水工作可以确保项目成功。
吉利于 6 月 13 日发布的雷神 AI 电混 2.0 系统,其专用电混发动机热效率达 47.26%,超越比亚迪的 46.06%。该系统最大亮点是「星睿 AI 智能体 2.0」,能通过多维数据实时运算进行能量分配提升节能水平,还能预测机油健康度等建立个性化养护方案,以及实现智能充电推荐、智能过弯辅助等功能。吉利推出雷神 EM-i 和 EM-p 两套动力系统,分别主打节能与强力,老车主可通过 OTA 升级。吉利还预告第四季度将推出搭载第五代醇氢专用发动机的轿车和 SUV 产品,热效率可达 48.15%。
元宝上线了电脑版 AI 编程模式,使用 DeepSeek V3 模型,用户在输入框中 @AI 编程并提需求,左侧提需求,右侧实时展示代码并能在线运行。该模式支持运行多种开发语言,可应用于教学辅助、亲子编程和开发辅助等场景。用户需将元宝电脑版升级到 v2.25 以上版本并切换至 DeepSeek 模型,关闭深度思考,输入 @AI 编程即可开启该模式。
京东集团创始人刘强东在访谈中分享了京东做外卖、酒旅等业务的逻辑,强调所有业务围绕供应链展开,核心是降低成本、提高效率和服务品质。京东外卖业务自上线后增长迅猛,3个月内拿下2500万订单,招募超12万名全职骑手,二季度员工总数预计达90万人,创下单季度净增员工纪录。京东外卖通过加大补贴力度,5月日均活跃用户反超美团,刘强东认为,外卖亏损比买流量更划算。他还透露,京东外卖将推出与美团完全不同的商业模式,强调其为长期战略,可能需十年甚至二十年实现。
刘强东还提到京东目前有6个创新项目,包括稳定币。在社会责任方面,京东在疫情期间积极保供,并持续关怀员工,如涨薪和提供五险一金。展望未来,刘强东希望将国内业务交给集团CEO许冉,自己全职投入国际业务,同时强调团队合作的重要性。
本文针对一个高并发(十万级QPS)、低延迟(毫秒级返回)且频繁进行内存索引切换(约每15分钟一次,索引大小约0.5G)的系统,因索引切换时垃圾回收(GC)压力大导致的系统成功率低至95%的问题,通过JVM参数调优和系统策略优化,逐步将系统成功率提升至99.995%。
在排查过程中,排除了流量激增、外部服务瓶颈和并发锁等因素,最终定位到问题根因是索引切换时产生大量新对象和内存垃圾,导致GC耗时过长,业务线程被暂停,引发超时报错。在优化过程中,通过设置MaxTenuringThreshold=0,将索引复制次数从2次减少为1次,成功率提升至98%。进一步通过分批断流发布和Eden区预热策略,彻底解决了索引切换时的抖动问题,最终实现索引无感切换,系统成功率稳定在99.995%以上。
本文介绍观察性研究方法,包括合成控制法、匹配方法和Causal Impact等。观察性研究适用于无法进行控制实验的场景,如美团到家履约业务。这些方法可帮助消除选择性偏差,科学评估策略效果。合成控制法通过构建合成对照组估计政策因果效应;匹配方法通过平衡协变量分布控制干扰因素;Causal Impact基于贝叶斯结构时间序列模型构建虚拟对照组评估干预效果。文章还介绍了各方法的原理、优缺点及实际案例,并展望了其他拓展方法。
本文分享了算法性能优化方面的实战经验,重点介绍了优化浮点转换、解决垃圾回收(GC)问题和优化响应时间(RT)瓶颈的实践。通过引入Ryu算法和Fast_Float算法,浮点转换性能大幅提升,CPU时间占比从18%降至0.19%,性能提升98%。在GC优化方面,调整JVM参数,避免老年代GC频繁触发,解决了性能抖动问题。在RT优化中,通过分析发现特征读取阶段的IO等待时间过长,中间Proxy层成为瓶颈。未来将采用垂直多副本部署模式去除Proxy,实现去中心化。文章强调性能优化永无止境,分享的实战经验可帮助读者掌握深度性能分析的方法论,避免走弯路。
MiniMax开源了世界上第一个开放权重、大规模的混合注意力推理模型,具有高效推理能力和强大的长文本处理能力,适用于复杂任务和长输入处理。
Kimi-Dev 是 MoonshotAI 开发的开源编程语言模型,专注于软件工程任务。其 72B 版本在 SWE-bench Verified 基准测试中达到 60.4% 的性能,超越其他开源模型。该模型通过强化学习优化,能够在 Docker 中自动修复代码库问题,并确保测试通过。Kimi-Dev 采用两阶段框架:文件定位和代码编辑,以实现代码修复和测试编写任务。
Epoch AI专注于研究人工智能的发展轨迹及其对社会的影响。其研究涵盖AI模型、基准测试、训练成本等多个方面。
包含机器学习基础、参数化模型、非参数化模型、无监督学习。机器学习基础部分涉及两个最简单的机器学习算法——k近邻算法和线性回归,并由此引出机器学习的基本思想。参数化模型和非参数化模型两部分包含了常用的有监督学习模型,包括逻辑斯谛回归、神经网络、决策树等,由浅入深。最后的无监督学习部分关注机器学习的另一大分支,介绍在没有监督信号的场景下如何完成数据建模。
动手学习基础篇、动手学习进阶篇和动手学习前沿篇。基础篇关注于 tabular 场景下的 RL,即状态和动作空间都是有限的;进阶篇的内容突破这一限制,考虑连续的状态或动作,会使用到神经网络。最后,在前沿篇介绍强化学习领域一些有趣的方向,以及相对应的前沿算法。
帮助初学者快速熟悉数据管理(Data Management, DM) 和 人工智能(Artificial Intelligence, AI) 等前沿领域,搭建坚实的技术基础。
Anthropic团队分享了构建多智能体研究系统的经验。该系统利用多个Claude智能体协同工作,通过主智能体规划研究流程并创建子智能体并行搜索信息,有效处理复杂任务。多智能体系统在动态调整方向、并行处理和扩展性能方面具有显著优势,尤其在处理广度优先查询时表现优异。然而,这种架构消耗token量大,成本较高,且在任务共享上下文或依赖性强的场景下适用性有限。
系统采用“协调者-工作者”模式,主智能体分析用户查询后,生成子智能体探索不同方向,子智能体将信息汇总给主智能体,最终由引文智能体处理文档并返回结果。提示工程是关键,团队通过优化提示,引导智能体合理分工、调整搜索策略,并实现自我改进。评估方面,采用小样本测试、大语言模型评分和人工评估相结合的方式,确保智能体输出的准确性和合理性。
在生产环境中,团队面临智能体有状态、错误累积、调试困难等挑战,通过构建可恢复系统、增加生产环境追踪和采用彩虹部署等方法,确保系统的可靠性和稳定性。尽管存在挑战,多智能体系统在解决复杂问题上展现出巨大潜力,改变了人们处理复杂任务的方式。
AI智能体是一种能够自主执行任务、接管工作流的新兴软件范式,与传统软件有本质区别。它特别适用于复杂决策、难以维护的规则系统和非结构化数据处理等场景。构建智能体需要关注模型、工具和指令三大核心组件,其中模型是推理核心,工具用于与外部世界交互,指令则是行为准则。开发时应从强大模型入手建立性能基准,再优化成本,并遵循模块化设计以提升灵活性和可维护性。
智能体架构设计建议从单一智能体系统开始,逐步演进至多智能体系统,包括主管模式和去中心化模式。安全性是关键,需构建分层防御体系,设置人工监督与干预机制以确保可靠性和可控性。未来,智能体技术将从孤立应用转向相互协作的生态系统,推动业务流程的自动化和智能化变革。
“人工智能教父”杰弗里·辛顿对人工智能的担忧和警告。他指出人工智能存在导致人类灭绝的20%风险,分享了自己因直言不讳而被噤声的经历,表达了对参与创造人工智能的后悔,并列举了人工智能目前对人类构成的六大致命威胁。同时,他也提到了人工智能在医疗保健、提高生产力和教育变革方面的潜力。
此外,视频还涉及了欧洲的人工智能法规、网络攻击风险、如何保护自己免受网络攻击、利用人工智能制造病毒、人工智能与腐败选举、人工智能如何创造回音室效应、新技术的监管、是否监管阻碍了与中国竞争、致命自主武器的威胁、人工智能威胁的结合、限制人工智能接管、反思人工智能风险中的工作成果、学生因安全问题离开OpenAI、对人工智能未来的希望、人工智能导致的失业问题、如果肌肉和智力被取代剩下什么、当前人工智能与超级智能的差异、接受人工智能的能力、人工智能可能扩大贫富差距、人工智能为何优于人类、人工智能可能比人类知道更多、人工智能能否复制人类的独特性、机器是否会拥有感情、在谷歌工作、离开谷歌的原因、人们应该对人工智能做些什么、令人印象深刻的家族背景、回顾过去会给出的建议、关于人工智能安全的最后信息、人类幸福的最大威胁等内容。
2025-06-16 08:00:00
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
川美2025届毕业设计作品《祷》创作灵感:
鲍曼说:“什么是消费主义?创造你根本不需要的东西,然后让你渴望得到它。消费主义不是关于对欲望满足的承诺,而是关于为了更多欲望、激发更多欲望的承诺。”通过把古典圣母像和现代消费符号结合起来,人们现在就像过去被信仰束缚一样,被无休止的购物和身材标准所控制。用廉价材料的密集堆砌,解构“精致生活”的虚假性,揭露消费社会“物化”的本质:我们在追求“完美”时,其实活成了被数据定义的假人——个体在消费洪流中的主体性丧失。
苹果公司著名设计师比尔·阿特金森因胰腺癌去世,享年74岁。阿特金森是计算机图形用户界面的先驱,他对个人电脑的发展产生了深远影响。他开发的QuickDraw软件是丽莎和麦金塔电脑的基础,使计算机能够高效显示形状、文本和图像。他还发明了“下拉”菜单和“双击”鼠标手势,极大地简化了计算机操作。阿特金森编写的MacPaint和HyperCard软件,分别作为数字绘图程序和简单的数据库程序,为用户提供了强大的创作工具。MacPaint允许用户精细操作图像,而HyperCard则将文本、图像和视频无缝结合,被认为是万维网的前身。阿特金森曾是神经生物学博士生,后被史蒂夫·乔布斯说服加入苹果公司,他的设计理念和创新为苹果产品奠定了基础,推动了个人电脑从专业工具向大众消费品的转变。
6月9日 WWDC25 全球开发者大会开幕,Apple 发布 iOS 26、iPadOS 26 等新系统,推出 Liquid Glass 新设计。该设计为半透明玻璃材质,具反射折射效果,应用于按钮、锁屏等多处,使界面更立体,还新增多彩色调与简约外观,部分 app 也重新设计。
各系统有实用更新:iOS 26 锁屏时间随墙纸缩放,引入空间场景功能,相机和照片 app 界面优化,通讯应用整合标签页,新增通话筛选等功能,Apple Intelligence 整合进多应用。watchOS 26 设计更轻盈,体能训练 app 操作优化,新增 Workout Buddy 等功能,还有单手取消手势。macOS Tahoe 26 实时活动可在菜单栏显示,电话 app 登陆,聚焦搜索支持自然语言操作,推出游戏应用。visionOS 26 小组件可融入空间,自影像更自然。tvOS 26 界面设计更新。iPadOS 26 窗口系统和菜单栏类似 macOS,文件和预览 app 改进,还解锁 “桌面级” 体验新 API 等。
OpenAI 发布的 o3-pro 模型,是o3 的升级版,处理复杂问题能力更强,支持调用 ChatGPT 的全套工具,但响应速度稍慢。它在科学研究、编程、教育和写作场景下优势明显。官方评估显示其在表达清晰度、答案完整性等方面优于 o3 模型。o3-pro 未单独发布系统卡,存在一些功能限制,如不支持临时对话、图像生成等。OpenAI 还宣布 o3 模型价格直降 80%,同时 o3-pro 价格相对较低。此外,OpenAI 与 Alphabet 达成合作协议,引入 Google Cloud 作为额外云服务提供商,以缓解算力压力。OpenAI CEO Sam Altman 表示,预计将在今年夏季晚些时候发布公开权重的开源模型,而非 6 月份。他还发布了个人新博客《温和的奇点》,探讨 AI 发展对人类社会的影响。
本文介绍准实验方法中的双重差分法(DID)及其在美团履约业务中的应用。在美团履约业务中,由于溢出效应、小样本问题以及策略和产品的特殊性,随机对照实验难以实施,因此需要采用准实验方法来评估策略效果。
双重差分法通过比较实验前后实验组和对照组的差异来估计策略效果,能够消除两组之间的固有差异。其评估原理包括传统DID模型、固定效应模型和平行趋势假设合理性检验。文章强调,平行趋势假设是DID模型的关键,通过平行趋势分组可以尽量保障实验组和对照组的合理性。
以美团配送区域优化实验为例,展示了双重差分法的应用。实验通过优化配送区域,降低了运单超出配送区域范围占比,提高了配送效率。此外,文章还探讨了双重差分法的拓展应用,如多时点DID模型、异质性双重差分模型、引入协变量、放宽平行趋势假设以及三重差分法,并介绍了其他准实验方法,如断点回归和中断时间序列分析。
文章介绍了后端应用中必须采用的速率限制策略及其重要性,还提供了四个常见速率限制算法的交互式应用,方便读者理解和实践。速率限制能防止资源被过度使用,避免资源匮乏,降低服务器托管成本,还能为抵御分布式拒绝服务攻击提供基础保护。
文中详细阐述了四种算法:令牌桶算法,有固定容量的桶,按固定速率添加令牌,请求需获取令牌,允许有突发请求;漏桶算法,像会固定速率漏水的桶,请求进入桶后按恒定速率处理,满了就丢弃,能让请求处理更平稳;固定窗口计数器算法,把时间分成固定窗口,统计窗口内请求数,超过限制就拒绝,简单高效但窗口交界可能有流量峰值;滑动窗口计数器算法,记录请求时间戳,计算过去一段时间内的请求数来判断是否允许,能更精准地限制请求速率。每个算法都配有交互式模拟器,读者可调整参数观察请求处理情况。
David Boreham回顾了他在硅谷的早期工作经历,探讨了通过“缺陷委员会”高效管理软件项目的方法。这种方法将所有任务(包括新功能、文档问题、性能问题等)都视为缺陷,并通过一个统一的缺陷跟踪系统(如BugSplat)进行管理。该系统基于四个关键原则:所有任务都视为缺陷;缺陷记录模式固定且一致;每个缺陷只分配给一个人;查询功能强大且灵活。这些原则使得项目管理高效且透明。
然而,作者指出现代项目管理工具(如GitHub Issues)在实现这些原则方面存在不足。GitHub Issues缺乏全面的任务管理功能,模式过于简单且缺乏一致性,允许将缺陷分配给多人,且查询功能有限。作者认为,这些不足使得使用GitHub Issues单独管理项目变得困难。他建议通过改进开源项目(如Gitea)来弥补这些缺陷,并分享了他们在Gitea中添加优先级排序功能的实践。文章最后呼吁关注这一领域的进展,期待回归高效管理软件项目的方式。
文章提到的各种用法:
oomol studio是一个可编程工作流平台,通过直观的视觉交互轻松连接代码片段和api服务,帮助用户缩短从想法到产品的距离。它通过自由组合节点,灵活构建结构化与非结构化数据,原生支持使用python/js处理数据并生成图表,且内置丰富的ai功能节点和大模型api,可以通过自由组合这些节点来构建现代化的ai数据分析工作流。开发人员可通过oomol将视频处理库封装为可调参数的功能节点,内容创作者,如抖音用户,能通过拖放创建音视频处理工作流,自动化完成多语言字幕等任务。
黄大年茶思屋是一个线上开放科学与技术交流平台,旨在打破物理边界,提供学术热点、论文分享、专利搜索、学术会议、数学难题揭榜、科技赛事、开源生态、数据集等多元服务。平台聚焦学术探索与思辨,不涉及非科学话题,鼓励用户就科学与技术展开交流与合作,由华为软件技术有限公司运营。
帮助用户学习如何在Claude(Anthropic的人工智能模型)中设计最佳提示(prompts)的互动教程。
本文深入探讨了熵的概念,从信息论和统计力学两个角度进行分析。在信息论中,熵由香农提出,用于量化信息的不确定性,表示系统状态所需的预期比特数。例如,公平硬币的熵为1比特,而公平8面骰子的熵为3比特。当结果概率不相等时,熵会降低。
在统计力学中,熵与系统的微观状态和宏观状态相关。宏观状态是系统的整体描述,微观状态是满足宏观状态的具体配置。例如,一个盒子中有10个球,如果所有球都在左边,熵为0;如果左右各有5个球,熵更高,因为有更多微观状态。熵的计算依赖于所选择的微观状态,不同的选择会导致不同的熵值,但相对熵的差异在微观状态均匀增加时保持不变。
熵与时间的关系也备受关注。尽管微观物理定律是时间可逆的,但宏观世界中熵似乎总是增加。这是因为高熵的宏观状态有更多的微观状态与之对应。例如,一杯茶中加入牛奶后,牛奶会扩散混合,因为这种高熵状态有更多的微观配置。熵的增加还与宇宙的初始低熵状态有关,这被称为“过去假设”,从低熵状态开始,系统自然会向高熵状态演化,从而产生了时间的箭头。
最后,文章指出熵并非总是代表“无序”,而是一个主观概念,依赖于人类的感知和上下文。熵是给定宏观状态下微观状态的数量,量化了我们对系统微观配置的不确定性。
2025-06-09 08:00:00
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
去年6月8日发布了周刊第一期,感觉一晃一年就过去了。除了今年四月实在忙不过来断更了几期,整体上还算坚持的不错。写周刊给我带来了大量的收获,不仅能掌握业界时事和发展动态,扩展技术视野,同时写周刊也能强迫自己思考,锻炼写作和动手能力(还是捣鼓了不少东西)。
除去最早探索的几期外,周刊按照现在的格式也写了近40期了,逐渐出现边际效应。表现在信息源收敛,内容留存价值降低,且渐渐有了为了留存而留存的迹象。因此近期也会思考并对格式进行一些调整,毕竟有名言:“这世上唯一不变的就是变化”。
周刊最核心的目的是信息留存,且要保证在有限的时间内完成减少周末负担,因此也只能做一些微调。目前基本想法是删去没营养的开篇图和个人新鲜事分享,增加类似“每周金句”、“知识点++”、“特别推荐”等小节,并对当前留存内容格式进行调整,让内容更精一些。
Cursor 1.0版本发布,带来多项新功能和改进。包括BugBot自动代码审查、Background Agent全面开放、Jupyter Notebook支持、Memories记忆功能、MCP一键安装和OAuth支持、更丰富的聊天响应以及新的设置和仪表盘界面。
2024 年,全球 App Store 促成 1.3 万亿美元开发者营业额和销售额,其中超 90% 归开发者所有。数字商品和服务、实体商品和服务、app 内广告三大类消费增长强劲。App Store 为开发者提供全球发行平台,支持多种货币和税务管理。Apple 为开发者提供多种工具、技术支持和培训项目,助力其提升 app 和业务。
文章首先介绍了随机对照实验的基础知识,包括其重要性、可交换性与SUTVA假设等。接着,文章分析了随机对照实验在实际应用中面临的挑战,如公平性问题、溢出效应、小样本量问题等,并提出了普通随机分组与完全随机分组两种分组方法以应对不同场景。文章还详细讨论了实验评估中的统计陷阱,如分配机制陷阱、多重比较陷阱等,并介绍了CUPED方法及其在连续型指标和比率型指标中的应用,以提高实验功效。此外,文章提出了分层随机分组、配对随机分组和协变量自适应分组等方法,以进一步保证实验的同质性。针对溢出效应问题,文章介绍了区域溢入溢出效应模型和随机饱和实验两种解决方案。最后,文章展望了未来的研究方向,包括重随机化、CACE估计、CUPAC、MLRATE、STATE等方法的应用,并强调了随机对照实验在业务决策中的重要性。
文章介绍了随机轮转实验的设计方法、分组机制、评估原理及拓展应用。随机轮转实验通过在不同时间段切换实验组与对照组模式,解决AB实验中的空间溢出效应和样本量不足问题。文中详细介绍了三种实验方法:抛硬币随机轮转、完全随机轮转和配对随机轮转。抛硬币随机轮转通过伯努利试验随机分配实验单元,适用于独立实验个体较多或时间片较短的场景;完全随机轮转可确保实验组和对照组天数相等或接近,适用于样本量较小的情况;配对随机轮转通过减少天之间差异,提高检测灵敏度,但可能仍存在轻微溢出效应。此外,文章还探讨了异常场景处理、小时级轮转下的携带效应以及其他轮转实验设计。通过这些方法,可以有效解决AB实验中的空间溢出效应和样本量不足问题,提高实验的准确性和效率。
Mem0旨在为AI助手和代理提供智能记忆层,以实现个性化AI交互。它具有多级记忆、开发者友好等核心能力,适用于AI助手、客户支持、医疗保健等多个领域。Mem0支持多种LLM,并提供托管平台和自托管包两种部署方式。
百度开源的前端低代码框架 Amis,允许通过 JSON 配置生成各种后台页面,从而极大减少开发成本,甚至无需了解前端开发知识。
日本科学家开发出一种适用于所有血型的人工血液。该人工血液由过期捐赠血液中的血红蛋白制成,包裹在保护壳中形成稳定的无病毒人造红细胞。它无需血型匹配测试,可在室温下保存两年,冷藏下保存五年,远超捐赠红细胞的42天保存期。2022年开始的小规模研究显示,志愿者接受注射后虽有轻微副作用,但生命体征无显著变化。目前试验已扩大剂量,若无副作用,将转为检验治疗效果和安全性,目标是2030年左右投入实际使用。同时,东京大学的教授也在开发另一种人工氧载体,动物实验结果令人鼓舞,正准备开展人体试验。
Mary Meeker 发布了 340 页的《趋势——人工智能》报告,强调 AI 技术发展速度史无前例,其变革步伐和范围远超以往技术革命。报告通过八个核心主题,辅以大量图表和数据,阐述了 AI 带来的深刻变革,包括开发者数量激增、用户和使用量增长迅猛、资本支出急剧膨胀、模型训练成本高企与推理成本骤降、商业模式面临挑战、竞争激烈、AI 与物理世界加速融合、驱动全球互联网用户增长进入新阶段以及对工作变革的影响等。
2025-06-03 08:00:00
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
祝大家端午安康,儿童节快乐!上图为《多洛可小镇》游戏截图,一款画风可爱的种田游戏,非常适合社畜休闲时游玩。
Claude团队通过构建“替代模型”来揭示语言模型计算图的方法。
开发了跨层转码器(CLT),其特征分布在模型的多层中,通过线性编码器和非线性激活从残差流读取,并向MLP层输出。训练后的CLT可以定义替代模型,替换底层模型的MLP神经元。进一步构建的局部替代模型在特定提示上替换了CLT,并添加误差调整项以匹配原始模型输出。归因图通过描绘局部替代模型的计算步骤,包含输出节点、中间节点、初级输入节点和误差节点,边代表直接线性归因。
还开发了交互式界面用于追溯关键路径,并通过特征可视化手动解释和标记图中的特征。此外,通过将语义相似的特征分组为超节点,归因图能够更清晰地展示模型的计算过程。该方法在18层语言模型上进行了初步研究,并为后续对Claude 3.5 Haiku模型的研究奠定了基础。尽管取得了一定成果,但该方法仍存在局限性,如缺失注意力电路、重建误差和图复杂性等问题。
DeepSeek R1 模型于 2025 年 5 月 28 日完成小版本升级,新版本号为 DeepSeek-R1-0528。该版本在深度思考能力上显著强化,基于 DeepSeek V3 Base 模型,通过增加算力提升思维深度与推理能力,在多项基准测评中取得优异成绩,接近国际顶尖模型水平。此外,新版模型在幻觉问题上优化,降低了幻觉率;创意写作能力也得到提升,能输出更长、结构更完整的长篇作品。工具调用能力、前端代码生成、角色扮演等领域也有所更新。API 同步更新,增加了新功能支持并调整了 max_tokens 参数。模型开源,私有化部署简单,开源版本上下文长度为 128K,采用 MIT License。
文章探讨了如何将渐进式加载的概念应用于JSON数据传输,以解决传统JSON传输方式中客户端需等待完整数据加载完成才能处理的局限性。作者提出了“渐进式JSON”的概念,通过广度优先的方式发送数据,先传输顶层对象结构并用占位符标记未发送部分,后续逐步填充数据。这种方式允许客户端在数据流中逐步处理数据,未加载部分以Promise形式表示。文章还介绍了React Server Components(RSC)如何利用这种渐进式JSON实现更高效的用户界面加载。RSC通过将组件树的属性以渐进式方式发送到客户端,允许React在数据流中逐步构建组件树,并通过<Suspense>
组件控制加载状态的显示,避免页面内容的随意跳变。作者呼吁更多工具采用这种渐进式数据流的方式,以改善用户体验。
本文介绍了MCP(模型上下文协议)及其在AI应用开发中的作用。MCP通过标准化应用程序与AI模型之间的上下文信息交换,简化了资源和工具的集成。其核心组件包括MCP Server、MCP Client和MCP Host,采用JSON-RPC编码进行通信。MCP的执行细节涉及Host调用LLM、Client调用MCP Server以及返回最终处理结果的过程。与Agent和Function Calling相比,MCP解决了标准化接口和复用率等问题。目前,MCP技术生态发展迅速,出现了多个MCP Server Marketplace和大量支持MCP的应用程序。然而,MCP也面临应用范围受限、行业标准支持挑战、本质受质疑以及安全风险等问题。
本文探讨了如何通过提示工程提升AI智能体的表现。提示工程是优化AI模型输入提示的过程,以增强其在特定任务上的表现。文章总结了11种提示技巧,包括提供高质量的上下文信息、保持提示组件间的一致性、让模型与用户视角对齐、避免过度拟合、注意模型调用工具的局限性等。这些技巧强调了为模型提供完整且一致的上下文的重要性,并指出模型的表现依赖于提示中包含的信息的完整性和一致性。文章还建议像管理代码库一样管理提示,进行版本控制、审阅和测试,以确保其质量和一致性。通过这些方法,可以将AI智能体打造成真正扩展人类能力的伙伴,而不是制造更多麻烦。
DeepWiki的开源平替,能够为GitHub、GitLab或Bitbucket仓库自动生成交互式维基文档。它通过分析代码结构、生成全面文档、创建可视化图表,并将其组织成易于导航的维基,帮助用户快速了解仓库内容。DeepWiki支持多种功能,包括即时文档生成、私有仓库支持、智能分析、美观图表、问答功能以及深度研究等。它还支持Google Gemini、OpenAI、OpenRouter和本地Ollama等多种AI模型。
Void是一个开源AI代码编辑器,旨在平替Cursor。它通过AI代理处理代码库,支持检查点和可视化更改,并允许本地运行任何模型或主机。
针对国内初学者的开源大模型(LLM)和多模态大模型(MLLM)教程,专注于Linux平台上的快速部署、使用和微调。内容涵盖环境配置、模型部署、应用指导及微调方法,支持LLaMA、ChatGLM等主流模型。建议学习顺序为先环境配置,再模型部署,最后微调。项目还提供应用案例,如Chat-嬛嬛、Tianji-天机等,并推荐Happy-LLM、Tiny-Universe等进阶学习资源。
深入理解大语言模型(LLM)的原理和训练过程,分为基础知识和实战应用两部分。基础知识部分(第1章至第4章)涵盖了自然语言处理(NLP)的基础概念、Transformer架构、预训练语言模型的类型以及LLM的定义和训练策略。实战应用部分(第5章至第7章)则指导读者动手实现LLaMA2模型,掌握从预训练到微调的全流程,并介绍LLM在模型评测、检索增强(RAG)和智能体(Agent)等领域的应用。
关于中国软件著作权申请的详细指南,提供了完整的申请流程、所需材料清单和常见问题解决方案。申请材料主要包括用户操作手册或设计说明书、源码文档和申请表。不同申请主体(个人、多人、企业、院校等)需提交不同的附加材料,如身份证复印件、营业执照复印件或合作开发协议等。文章还针对申请过程中常见的问题,如补正通知书未收到、补正材料提交方式、高频错误等,提供了具体的解决方法。此外,作者提供了联系方式和相关资源链接,以帮助申请人顺利完成软件著作权的申请。
文章回顾了JSON Web Token(JWT)自2015年成为RFC 7519标准以来的十年发展历程。JWT及其相关标准(如JWS、JWE、JWK、JWA等)经过4.5年的开发,最终在2015年正式发布,成为互联网安全领域的重要组成部分。JWT与OpenID Connect协同设计,旨在创建通用且广泛适用的安全标准。如今,JWT已被广泛应用于多种场景,甚至包括发明者未曾想象的领域,例如打击欺诈电话。
文章还提到,为了确保JWT在未来十年的安全性,相关规范正在更新。例如,JWT最佳当前实践规范(BCP)正在更新,以纳入过去五年中发现的新威胁和缓解措施。同时,OAuth 2.0客户端认证和授权授权的JWT配置文件也在更新,以解决因令牌受众值的歧义而引起的漏洞。作者对过去十年的工作表示感谢,并对未来充满期待。
计算机历史博物馆对Java语言之父James Gosling的访谈录,详细回顾了他职业生涯及Java语言的诞生与发展。Gosling于1955年出生,1977年毕业于卡尔加里大学,1983年在卡内基梅隆大学获得博士学位,期间开发了Unix版Emacs和Andrew窗口系统。1991年加入Sun公司后,他参与Green项目,因C/C++的局限性,开发了Java(最初名为Oak),其“一次编写,随处运行”的特性使其在互联网时代大放异彩。1995年,Java与Netscape合作后迅速流行,成为企业计算和移动领域的主导语言。Gosling在Sun工作26年后,短暂加入谷歌,后成为Liquid Robotics首席软件架构师,目前已退休。访谈还涉及他对开源项目和编程工具的贡献。
文章探讨了软件开发领域中“开发者替代”炒作的周期性现象,分析了从无代码(NoCode)到人工智能辅助开发(AI-assisted development)等技术变革对软件开发者的影响。文章指出,每隔几年就会出现一种声称能让软件开发者变得多余的新技术,但这些技术最终并未取代开发者,而是促使开发者技能的转型和提升。
文章回顾了无代码/低代码工具、云计算技术、海外开发浪潮以及当前的AI辅助开发技术的兴起与发展。无代码工具创造了新的专业领域,如无代码专家;云计算技术将系统管理员转变为DevOps工程师;海外开发面临沟通和质量问题;而AI辅助开发虽然能快速生成代码,但生成的代码常存在错误,且缺乏连贯的架构。文章强调,代码是负债而非资产,真正的价值在于代码所支持的业务能力。AI在局部优化方面表现出色,但在全局设计方面无能为力。因此,系统架构能力才是开发者的核心竞争力,也是AI无法替代的。
2025-05-26 08:00:00
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
为提升家庭凝聚力,增进彼此了解,2022年我提议了一个活动——家庭读书会。虽然各种因素导致读书会老是不能按时举办,但三年下来,还是共读了27本书,开了24次读书会,收获颇丰。很幸运,读书是大家共同的爱好,否则一时兴起的活动不可能坚持这么久。
周末将腾讯文档重新整理到了飞书知识库,重看相关内容,回忆满满。好的习惯需要坚持,共同记忆也不会凭空产生,都是日常点滴积累。
2025年5月23日,Anthropic公司推出了新一代Claude模型:Claude Opus 4和Claude Sonnet 4。Claude Opus 4是全球最佳的编程模型,擅长处理复杂、长时间的任务和代理工作流;Claude Sonnet 4则是对Sonnet 3.7的重大升级,提供更精确的指令响应和卓越的编程与推理能力。此次更新还包括扩展思考与工具使用(beta)、新模型功能(如并行工具使用、本地文件访问时的显著记忆能力提升)以及Claude Code的全面可用性。Claude Code支持GitHub Actions背景任务,并与VS Code和JetBrains原生集成。此外,Anthropic API还发布了四项新功能,使开发者能够构建更强大的AI代理。
文章系统性地分享AB实验的理论基础与实践经验。AB实验作为互联网企业数据驱动决策的关键工具,能够验证策略的因果关系并定量评估增长价值。然而,实验设计与实施面临诸多挑战,如小样本、溢出效应、方差与P值计算陷阱等,尤其是在美团履约业务等复杂场景中。为此,美团履约技术团队制定了零门槛运行可信实验的范式与流程,通过数据科学家、数仓开发、系统开发的多方协作,规范实验流程,提供标准化的实验分析引擎,帮助实验者避开各类统计陷阱并快速输出实验报告。白皮书还提供了实验方法选择指南,优先推荐随机实验,其次为准实验和观察性研究。
文章介绍AB实验的核心原理与统计学基础。首先阐述了AB实验的原理,源自Rubin潜在结果模型,通过随机分配用户至实验组和对照组来模拟平行时空,从而估计策略迭代的收益、风险与成本。实验准确性的两大前提是:个体处理稳定性假设(SUTVA),即实验单元间独立,不受其他单元分组影响;分组随机性,即实验单元的分组完全由实验者随机分配,不受自身行为影响。若这两者被破坏,实验结果将不准确。
在统计学基础方面,文章介绍了参数估计,包括点估计和置信区间。点估计通过样本数据计算单一数值来估计总体参数,常用的评估标准为相合性、无偏性和有效性。置信区间则考虑估计参数的波动性,以区间形式呈现估计结果。假设检验作为AB实验的关键工具,通过反证法论证新策略是否有效,包括提出假设、选择显著性水平、构造检验统计量、计算p值和作出决策等步骤。
文章分享了团队在代码风格和结构一致性方面的实践与思考。随着业务复杂度增加,传统的代码分层结构(如Controller->Service->DAO)已无法满足需求,业务逻辑层变得复杂且缺乏规范,导致代码模式多样、新人上手困难、团队协作效率低下。为解决这些问题,团队借鉴淘宝交易应用的代码模式,采用入口服务->业务流程与活动->领域服务->能力->扩展点的分层结构,通过框架形式约束代码结构,降低复杂性。同时,开发了Idea插件,实现流程视图导航,提升编码效率。经过2.5年的推进,团队在12个服务端应用中实现了600+个入口服务、400+个流程、180+个领域、1k+个领域服务的规范化。这一实践显著提升了代码的可读性和可维护性,降低了跨领域学习成本,提高了团队协作效率。文章还提出了后续的优化方向,包括领域划分、流程优化、监控告警以及AI代码生成等,旨在进一步提升代码质量和开发效率。
Defuddle是一款用于清理网页杂乱元素并提取主要内容的工具,旨在输出干净一致的HTML文档。
selfhost-hub收集和展示各种高质量自托管服务和工具。
spring-ai是为人工智能(AI)工程设计的应用框架,旨在将Spring生态系统的设计原则应用于AI领域,促进使用POJOs(Plain Old Java Objects)作为构建AI应用的基础。
JetBrains 宣布上线中文版 IntelliJ IDEA 官方文档。
Anthropic公司提供的教育课程,主要面向希望学习如何使用Claude SDK和相关技术的用户。这些课程旨在帮助用户掌握从基础到高级的提示工程技术,并将其应用于实际场景。
文章是作者作为一名35岁程序员的自我反思与分享。他回顾了自己与编程界大神Larry Wall和Linus的接触经历,从他们身上感受到的纯真与热爱,让他意识到编程的真正意义。作者讲述了自己2018年离开自己创建的公司后陷入低谷,通过在祁连雪山下的一次经历重新找回快乐,最终走出低谷,如今拥有自己的公司和团队,虽然忙碌但内心充实。
他给程序员的建议是:保持对编程的纯真热爱,不要因年龄设限,35岁依然可以享受编程带来的乐趣;面对痛苦和迷茫时,交给时间去治愈,多读书来丰富自己,提升看待世界的视角。作者通过自己的经历和感悟,鼓励程序员们保持初心,不被外界干扰,享受编程带来的快乐,同时在困境中学会自我治愈和成长。
文章由BBC Sport和Getty Images联合制作,庆祝F1诞生75周年,通过图片和文字回顾了F1自1950年以来的发展历程、传奇人物和重要时刻。1950年代,F1由法拉利等意大利车队主导,阿根廷车手范吉奥五次夺冠。1960年代,英国车手崛起,吉姆·克拉克和杰基·斯图尔特等成为传奇。1970年代,F1电视转播兴起,尼基·劳达和詹姆斯·亨特成为标志性人物。1980年代,塞纳、普罗斯特、曼塞尔和皮奎特四大车手激烈竞争,塞纳与普罗斯特的碰撞成为经典瞬间。
1990年代,塞纳去世后,舒马赫崛起并开启传奇生涯。2000年代初,舒马赫和法拉利统治F1,阿隆索成为最年轻冠军,汉密尔顿崭露头角。2010年代,维特尔和红牛短暂统治,汉密尔顿与梅赛德斯成为最成功组合。2020年代,维斯塔潘崛起,2021年在极具争议的赛季中获得首个世界冠军,2024年实现四连冠。文章还提到F1在美国的日益流行,以及年轻车手的崛起,如2025年迈阿密大奖赛冲刺赛中成为最年轻杆位获得者的基米·安托内利。
2025-05-19 08:00:00
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
事情是这样的,5月初刚给娃买了奶粉,最近618启动就再看了一下价格,好家伙直接便宜了300多(总价2000)。买之前也看了价格追踪软件,去年的最低价和我买时差不多,所以就没等618提前下了单(毕竟娃吃奶也等不了)。虽然7天保价超过了3天,但想着这么大的价格波动,多少会有些补偿吧,就问了下商家客服(非自营店),但也没抱太大希望。
但和客服一聊就来气了,张口闭口就是没有、不行、平台要求和正常价格波动这种车轱辘话,态度冷漠机械,还给我截那种详情页字小的不能再小的截图,和当时让我好评返现时态度简直判若两人。其实之前也在这家店买过3次了,后面也有复购的需求,况且也不是追究久远订单的补偿,如果是任何一家线下店或者是想做回头客生意的店,多少会照顾一点老顾客吧。
也在小🍠上看了一些经验贴,但嫌麻烦上班还忙,沟通无果想着只能咽下。不过我媳妇是个维权老手了,后面直接找了平台Plus专属客服寻求解决。具体的过程不详述了,简而言之就是商家不愿意和平台一起承担差价,平台侧最后提供了一些补偿金(估计是看在了11年老用户和7年Plus上吧)。
就事情本身来说不算啥大事,商家、平台不作任何补偿也无可厚非,但在这个过程中,我深刻感受到了规则的冷漠和人的无能为力。只按规则办事,没有丝毫的人情味。但所有工具和规则都是为人服务,若人离开了,还有什么用呢?
对于规则,除了严苛时间限制的保价功能,对于哪些在极短周期内价格剧烈波动的商品,是否也能提供一些补偿措施呢?至少对于我这样价格敏感型客户,还是挺能提升用户粘性。
OpenAI推出了Codex,一个基于云端的软件工程代理,由优化后的Codex-1驱动,专为软件工程设计。它能够并行处理多项任务,支持ChatGPT Pro、Enterprise和Team用户,未来也将向Plus和Edu用户开放。用户可以通过ChatGPT侧边栏访问Codex,为其分配编码任务。Codex在独立沙盒环境中运行,可以读取、编辑文件并运行命令,任务完成时间通常在1到30分钟之间,用户可实时监控进度。
本文探讨了在现代分布式系统中,为何最终一致性比强一致性更为重要。以打车应用为例,若追求强一致性,系统会在后台服务达成完美一致前拒绝显示任何信息,导致用户界面卡顿。而采用最终一致性,系统可先显示部分信息,后续再进行数据同步与校正。现代应用多基于事件驱动的分布式系统,数据异步流动,组件独立更新,这使得一致性无法立即保证。最终一致性允许组件独立工作,之后再进行协调,优先考虑可用性和响应速度。文章还介绍了如何在事件驱动的世界中构建具有最终一致性的系统,包括处理事件顺序错乱和设计能应对延迟的系统。
文章主要介绍了Git的一些实用技巧,包括将多个commit压缩成一个、找回丢失的commit节点或分支、获得干净的工作空间、修改最近一个commit、提交文件的部分修改、禁止修改多人共用的远端分支、撤销合并、从历史中删除文件以及其他一些好用的命令。文章通过操作录屏的方式让读者更直观地了解命令的使用方法,每个技巧都是独立的,读者可以根据自己的需要学习。
本文提出了两个编程优化原则:“将条件判断(if)上移”和“将循环操作(for)下移”。作者建议将函数内部的条件判断逻辑推到调用者层面,通过类型检查或前置断言集中控制流程,减少重复检查,避免冗余逻辑。例如,通过将枚举匹配逻辑上移至主函数,可以简化代码结构,避免分支冗余。
同时,作者提倡将循环操作推到数据层面,引入“批量”概念,将批量处理作为基础情况,单个操作作为特殊情况,从而分摊启动成本,提高性能。例如,FFT算法通过批量处理多个点来优化性能。这两种优化方式可以结合使用,例如将条件判断移出循环,减少分支,可能解锁向量化操作。这种模式在微小层面和宏观架构设计中都有效,如TigerBeetle架构通过数据平面的批量处理分摊控制平面决策成本。这些优化方法有助于简化代码、提升性能,并使程序更具表达性。
用于构建 MCP(Model Context Protocol,模型上下文协议)服务器和客户端的 Python 库。
browser-use 是一个开源项目,允许 AI 代理通过浏览器执行任务。它支持多种语言模型,如 OpenAI 和 DeepSeek,并提供快速安装和使用指南。用户可以通过 pip 安装,并使用 Playwright 安装浏览器。
一个由Rust编写的极快速Python包和项目管理器。它集成了pip、pip-tools、pipx、poetry、pyenv、twine、virtualenv等多个工具的功能,速度比pip快10 - 100倍。它提供全面的项目管理,包括通用锁定文件、脚本运行支持、Python版本安装管理等功能。
详细介绍了DNS的工作原理,包括DNS解析过程、查找第一个DNS服务器的方法、DNS解析如何驱动应用程序的网络请求、递归解析器与根、顶级域名(TLD)和权威域名服务器的交互,以及域名注册商在DNS设置中的作用。DNS通过将域名转换为IP地址,使互联网用户能够轻松访问网站。还探讨了DNS缓存的工作原理以及如何为新域名设置DNS。
一个专为程序员设计的开源烹饪指南,通过模块化的菜谱和清晰的步骤描述,帮助程序员轻松在家做饭。它不仅提供了丰富的菜谱资源,还涵盖了厨房准备、烹饪技巧、食品安全等多方面内容,适合不同烹饪水平的用户学习和实践。
文章探讨了人工智能(AI)对其创作和思考能力的影响。作者发现,在AI的背景下,自己的写作、编程和项目创作变得毫无价值,因为AI能够更高效、更完善地完成这些任务。过去,通过写作整理思路并获得认可,但如今,AI能够快速生成完整的想法,导致他的思考能力退化,分享意愿降低。作者意识到,尽管使用AI能获取知识,但缺乏自主思考过程中的智力成长,反而让他变得更迟钝。
作者反思自己可能错误地将AI当作思维辅助工具,而实际上它更像是让人陷入麻木的工具。AI的输出虽然完善,但缺乏自主思考过程中的智力锻炼。尽管作者知道得更多了,却感觉失去了对知识的深入理解。尽管如此,他仍坚持用自己的方式表达想法,认为直接传达原始想法仍然有意义。他提醒读者,在AI时代,我们不能完全依赖技术,而应努力保持自主思考的能力,以应对未来的挑战。
这篇文章是作者通过观察婚礼等社交场合中人们的互动,分享了对人类社交行为的深刻洞察。作者从多个角度分析了人们在交流中的细微表现,包括注意力的集中度、情感表达的真实性、与他人互动的开放性等。她指出,通过观察人们的语调、语气和行为,可以感知到他们的情绪状态、自尊水平以及对世界的爱与接受程度。
文章提到,注意力的性质像光谱,从跳跃到稳定不等,而解离状态则是注意力的缺失。作者还讨论了调情的本质,认为这是一种营销行为,试图通过展示自己来获得他人的回应。她还区分了快乐与礼貌的不同,快乐是自然流露的,而礼貌则是经过计算的。
在社交互动中,作者观察到人们与世界互动的方式反映了他们是否接纳自己。那些接纳自己的人通常不会对他人表现出强烈的敌意,而那些自视甚高的人往往不愿给予他人真正的关注。此外,作者还提到,通过观察一个人的肢体语言和表情,可以判断他们是否相信自己有权存在,以及他们的情绪历史。
文章还探讨了亲密关系中的信任问题,指出情侣之间的信任可以通过他们与他人互动的方式体现出来。作者最喜欢的那类人,他们的动作有一种弹性,表现出对每个人的无条件接受,这种开放性和好奇心使他们很受人喜爱。
总的来说,这篇文章通过对社交场合中人们行为的细致观察,揭示了人类社交互动的复杂性和多样性,展现了人们在交流中的真实情感和心理状态。