MoreRSS

site iconafoo | 王福强修改

连续创业者,20多年互联网与金融技术经验,前阿里巴巴高级技术专家,现福强科技CEO,分享技术、管理、商业和AI知识。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

afoo | 王福强的 RSS 预览

KVectors 压缩向量搜索重要跑通了…

2025-09-13 00:00:00

KVectors 压缩向量搜索重要跑通了… -王福强的个人博客:一个架构士的思考与沉淀

KVectors 压缩向量搜索重要跑通了…

王福强

2025-09-13


blocking了半个月,终于通过读原始代码解决了KVectors绕不过去的一个大坑…

之前总是segment fault, 这错误让我这种对操作系统和硬件比较打怵的人来说,有点儿抓瞎😂

不过,这个问题不解决,一直block在那儿也不行,给依赖类库也提交了issue,作者没屌我,可能觉得问题太小儿科,或者海外工作节奏比较闲适? 🤪

问AI其实更无解,最后只能自己啃依赖库的源代码,昨天发现苗头儿,今天修改验证后,一切OK了 ✅

用Sift的数据集做的测试(128维向量)

从100万条向量数据中查询1万条简单跑了下,数据看起来还可以, 平均6.3毫秒

而且是在2019年的老 MacbookPro 上跑的…

#KVectors #向量数据库




「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。

footer img for kb.afoo.me

开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」
Copyright © 王福强个人版权所有 - Since 2004 (Everything is homebrewed with Pandoc and Markdown, little Scala also included.)

每一次的对韭当割,都是企业成长路上原本就应该付出的代价!

2025-09-10 00:00:00

每一次的对韭当割,都是企业成长路上原本就应该付出的代价! -王福强的个人博客:一个架构士的思考与沉淀

每一次的对韭当割,都是企业成长路上原本就应该付出的代价!

王福强

2025-09-10


当站在客户企业与供应商的视角之外

看技术浪潮的起起伏伏

或许会觉得什么数据中台、数据治理都是扯淡之举

但其实这多少有些事后明 🤪

当时当刻,能做出那个决策的,也都不是傻子。

想当初,我也觉得我是真心为企业好

但最后发现确实我本将心向明月,明月只喜欢沟渠

原本大中小型企业不同阶段的决策(不只是限于架构)是不一样的

但明月就是喜欢大(嗯,我也喜欢大)

从来没意识到说,这么大的裤衩子,我这小体格子貌似穿上了也拉胯,还跑不快…

40T的数据在几十年前或许是大数据

要搞啥集群

今天,可能一个节点就搞定了

时代不一样了,但很多人观念还停留在几十年前

就像有CEO说他新搞的数据库比业界同类产品快10-100倍没人信一样

因为benchmark的基准不一样了

很多人也没意识到

没见过就是没见过

没意识到就是没意识到

要见过、要意识到

就得付出代价

不撞撞南墙又咋知道是墙硬,还是自己的意志更坚定呢🤪

我现在训练自己绝对不多嘴给任何人建议

你要找我咨询,付费就行了

反正你可以不找我,找我出外勤,我肯定收费。

我肯定不替你交学费

好心?

滚犊子吧,没掉进坑里,谁tmd知道你是好心提醒? 还是有財想自己隐匿下,又或者老子天命,你不行,又不能说明我不行😎

记得很多年前曾仕强说

中国人有个毛病,不信邪

这路上明明写着此路不通,TA一定得走过去,直到真的发现走不通,才相信。 否则,TA就是觉得TA不一样,TA运气好,说不定TA走的时候,路就通了呢

所以,别跟人性较劲。

嗯,今天教师节, 感觉又有点儿好为人师了,🤣




「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。

footer img for kb.afoo.me

开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」
Copyright © 王福强个人版权所有 - Since 2004 (Everything is homebrewed with Pandoc and Markdown, little Scala also included.)

别用AGI的预期去要求LLM

2025-09-09 00:00:00

别用AGI的预期去要求LLM -王福强的个人博客:一个架构士的思考与沉淀

别用AGI的预期去要求LLM

王福强

2025-09-09


术语

AGI

AGI 即 Artificial General Intelligence, 人工通用智能

In the context of technology and AI research, this refers to a hypothetical machine intelligence with the ability to understand, learn, and apply its intelligence to solve any intellectual task that a human can.

也就是AI到了一个人能干的事儿,它也能干的程度。

LLM

LLM 即 Large Language Model, 大语言模型,现在一般都简单称“大模型”

属于NLP(自然语言处理)范畴内的工程结晶,而NLP又只是AI这个大范畴里的一小块。

SMB

Small to Medium-Sized Business , 中小型企业

缘起

这几天尹总在群里表达了自己被AI伤透了心的“愤慨”之情:

我越来对LLM越没信心了,还是感觉传统比较靠谱。

其实,相对来说,大模型还是带来了一些不小的变动, 不要因噎废食嘛,预期太高,还是因为搞营销的这帮人把AGI抬的太高了,但实际上现在的大模型远没有达到AGI的水平。

实际

昨天恰好在梳理一张图:

其实今天要用好大模型,最主要的一个关键点是: 先要搞清楚自己的目的(对大模型来说是task), 然后再根据task挑选适合的(大)模型。

有的模型是一个模型只负责处理一个task,有的模型是一个模型可以处理多个task,但不管怎么样,先task,再模型,而不是先模型,再task

这几天TVP的架构师群里恰好也在讨论一个话题,就是Vibe Coding到底在企业里落地的怎么样了

发现很多做ToB的企业,反而在用小模型,哈哈哈

这倒是跟我的体验一致的,从理论上可以跟企业将明白现在哪些事情(用AI)可以做了

但具体落地的时候,大模型的使用成本对于企业来说(尤其是SMB)其实还是会很“敏感”, 前阵子调研文本与图像嵌入的轻量级模型,其实也是因为成本这方面的原因。

还有就是,工程领域跟情绪价值领域对大模型的要求也是不一样的。

情绪疗愈对话可以让大模型从“固定话术”池子里随机应变, 无关事实,只要让魔镜前面的人觉得自己是这个世界上最美的女人就行了。

但工程领域不行,工程领域要的是事实与确定性。

所以,即使现在AIAD(AI辅助开发)已经很让开发人员沸腾了,但还是会通过设计研发流程(比如加入AI相互review以及人工审核与审计)来规避概率性系统天生的缺陷可能导致的问题。

但不管怎么样,这东西确实带来了研发效率的提升(适合得当的话)。

所以,最后搬出n年前谈AI的一个观点作为结尾: push it to the limit, 即使这货有这样那样的缺陷。 🤪

我说的不因噎废食,是这个意思。




「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。

footer img for kb.afoo.me

开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」
Copyright © 王福强个人版权所有 - Since 2004 (Everything is homebrewed with Pandoc and Markdown, little Scala also included.)

向量数据库能解决AI系统不够智能的问题吗?

2025-09-05 00:00:00

向量数据库能解决AI系统不够智能的问题吗? -王福强的个人博客:一个架构士的思考与沉淀

向量数据库能解决AI系统不够智能的问题吗?

王福强

2025-09-05


前几天有老总问:

飞书很重视知识管理,但都是从文档中检索,感觉还不够智能。是不是用你这数据库后能解决?@王福强@福强科技

他提到的“你这数据库”是指我上个月开始折腾的 KVectors 向量数据库

我的回复是:

解决不了,智能是个系统工程 ;)

只能说, 向量数据库属于构建智能系统的一份子,但你让它单个挑大梁成就整体智能,那有点儿太难为他了。

而且,从打算搞KVectors开始,我就没期望说它能支撑起整个AI的天。

它就只专注一个点,向量的管理(存储与相似度检索),甚至于向量的生成它的不管🤣

它存在的唯一目的,就是能够快糙猛(其实也没那么糙)地满足小众场景里的AI需求,比如相似问题的重复回答、用AI技术重新实现的以图搜图等等。

要说通用智能和“足够”智能,这投入可就大了去了,岂是我这种 one-man army 可以干的事情?

要知道,越通用的方案,往往越需要更多的抽象和拼接,投入和周期都是无法准确估算的,没有点儿马云老师那种远见,谁tmd干这么砸钱?

我老早就说了,什么AI IaaS、AI PaaS甚至MaaS,让大厂去搞得了,SMB凑啥热闹嘛, 搞搞应用、搞搞业务场景AI化不香吗?

技术只是商业活动中一环,或者一种能力,但商业活动还有很多因素需要融合,从这个角度来说,KVectors跟通用AI智能的关系,倒是有点儿跟技术和商业的关系很像了。

一个是点,一个是面或体,不可同日而语。

不过可以同台唱戏🤣

其实向量数据库的选择挺多的, 我在给企业做向量数据库培训的时候,PPT的第一页就把所有常见的产品罗列出来了:

只是技术选型拿来用,基本上差不多的,latency上差不了多少毫秒。

但假如你想知道底层机理以及周边所有的AI基础设施和理论,那能挖的东西就多了去了。

一个点深挖下去,也可以很深的🤪

哦,对了,这个培训对企业开放,欢迎感兴趣的企业洽谈预约。

福强企业培训全家桶 之 向量数据库架构设计与实现




「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。

footer img for kb.afoo.me

开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」
Copyright © 王福强个人版权所有 - Since 2004 (Everything is homebrewed with Pandoc and Markdown, little Scala also included.)

KVectors 向量数据库基本成型!

2025-08-22 00:00:00

KVectors 向量数据库基本成型! -王福强的个人博客:一个架构士的思考与沉淀

KVectors 向量数据库基本成型!

王福强

2025-08-22


从这个月初(2025年8月初)开始筹划和编写KVectors的第一行代码,今天用Sift的一百万向量数据集对AnnIndexVectorCollection做了个简单的测试(10亿那个数据集太大,我这2019年的老MacbookPro肚量不够,放不下🤣),怎么说呢?

构建索引的速度出乎我的意料,可能之前也没有具体的标准,反正不到六分钟, 100万向量就压缩和索引完成:

我在设计构建索引的触发方法上添加了webhook支持, 这样,大数据集的索引构建可以异步在后台跑,跑完了可以选择发个通知,同时,为了省事,也可以直接上线构建完成的新索引(生产环境建议验证索引后再手动enable新索引):

def buildFullIndexAsync(enableAfterBuildSuccess: Boolean = true, webhook: Option[URL] = None): CompletableFuture[Void]

反而查询结果更出乎我意料,mmd,居然 100+ 毫秒的时延, 不应该啊! 虽然我也没怎么正经的做性能测试:

想了下才发现问题在哪儿,原来是每个查询向量的加载牵扯了文件系统的IO,而我把这些时间也给平均进去了,怪不得呢…(果然没正经做测试😂)

至此, KVectors分别支持了三大类Vector Collections:

  • InMemoryNoIndexVectorCollection
  • GeneralNoIndexVectorCollection
  • AnnIndexVectorCollection

基本满足了测试、小数据量以及大规模向量数据的索引与相似性检索需求。

KVectors的定位就是只做向量数据库:

之所以定位就是因为,我始终认为大模型与算力的生意是大厂拼杀大战场,跟SMB没啥关系,SMB要么做AI应用,要么就找个能抓住的点。

另外,为什么用Java/Scala写呢?

也是因为Java Vector API经历了七八轮incubator,也该进入正式发布了,基于Java Vector API,我们可以充分利用现代CPU的SIMD特性,极大加快向量相似性计算。

除此之外, KVecvtors还用了一些业界比较先进的思想和实践,比如HNSW和DiskANN算法

这其实也是为啥我能不到一个月就搞定这个产品原型的原因了,站在了巨人的肩膀上🤪

希望后面可以让KVectors在智能客服、知识库、推荐系统等场景发光发热。


 ██╗  ██╗ ██╗   ██╗ ███████╗  ██████╗ ████████╗  ██████╗  ██████╗  ███████╗
 ██║ ██╔╝ ██║   ██║ ██╔════╝ ██╔════╝ ╚══██╔══╝ ██╔═══██╗ ██╔══██╗ ██╔════╝
 █████╔╝  ██║   ██║ █████╗   ██║         ██║    ██║   ██║ ██████╔╝ ███████╗
 ██╔═██╗  ╚██╗ ██╔╝ ██╔══╝   ██║         ██║    ██║   ██║ ██╔══██╗ ╚════██║
 ██║  ██╗  ╚████╔╝  ███████╗ ╚██████╗    ██║    ╚██████╔╝ ██║  ██║ ███████║
 ╚═╝  ╚═╝   ╚═══╝   ╚══════╝  ╚═════╝    ╚═╝     ╚═════╝  ╚═╝  ╚═╝ ╚══════╝

Make Java Great Again!




「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。

footer img for kb.afoo.me

开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」
Copyright © 王福强个人版权所有 - Since 2004 (Everything is homebrewed with Pandoc and Markdown, little Scala also included.)

职业生涯真的有策略可循吗?

2025-08-19 00:00:00

职业生涯真的有策略可循吗? -王福强的个人博客:一个架构士的思考与沉淀

职业生涯真的有策略可循吗?

王福强

2025-08-19


今天有老总谈到他职业生涯一段经历,被女领导穿小鞋,干了8个月走人的经历

同样资深老炮儿魏博就很赞赏,觉得职业生涯后期就应该采取保守策略

嗯,怎么说呢?

其实,很多总结真没啥意义。

你会发现

你的每一段短期经历的总结其实都是狭隘的

假如你认同我之前说的,企业一大,职场就是一个黑暗森林

那就很自然的可以理解,去他喵的策略和道理,其实到最后都只看你遇到一个什么样的人!

遇到从小就有安全感的上司,TA才不care你靠专业上位这种事儿,甚至于TA也很清楚,专业能力再强,跟升职也没必然联系,所以,这种人是不会给你穿小鞋儿的;

但假如你遇到一个没有安全感的人,那给你穿小鞋的概率就陡增了,尤其是看重拿结果的企业和上司,你专业能力强,TA 专业能力弱,这时候专业能力就有可能成为被攻击的点,虽然这tmd跟专业能力也没啥关系🤣

关系这东西是包含三个因素的:

  1. node1
  2. edge
  3. node2

啥? 你不知道我在说啥? 嘿嘿,其实我在用图论举例:

每个人作为自己的主节点,在一段关系里只能把控自己一端,而另一段在别人那里,TA也对这段关系同样施加影响,所以,除非你这个节点的权重和影响力足够大,否则,弱势的一方很多时候是被影响的, 这其实也是很多人被穿小鞋儿很不忿的原因,因为自己处在弱势一端。

遇到好的节点(领导),TA给你施加的是好的影响,反之,则是穿小鞋儿的影响🤣

只不过,这个好的判断标准,其实,还是从弱势节点视角出发判断的,至于对方节点施加影响的初衷到底是什么,其实,只有对方节点自己知道🤪

另外:

糟糕的环境会把普通人变坏、阴毒:所以不能指望人,要指望制度、文化[得意]

其实,读过我的《极简管理课》 的同学都知道,制度和文化,其实原本就是环境的一部分,而环境,也是人塑造的。

老板的价值观,其实就是企业的价值观,老板想要塑造什么环境,自然会选择什么样的制度来塑造它,也会选择塑造什么样的企业文化来巩固它。




「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。

footer img for kb.afoo.me

开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」
Copyright © 王福强个人版权所有 - Since 2004 (Everything is homebrewed with Pandoc and Markdown, little Scala also included.)