2024-12-31 22:58:13
2024年是幸福的一年,因为每天有可爱女儿的陪伴,正如此刻,她在旁边吃着山楂棒,看着我打下这行字。
父母回老家了,大家庭变成了小家庭,我们也在3月份搬进了自己的房子,老婆在家全职带娃,我上班离公司更近了,骑电瓶车15分钟到公司,大家都皆大欢喜。
工作内容也从纯视觉算法变化到了多模态算法,语音文本图像,都需要考虑。这种任务其实很有意思,更接近真人处理问题的情况。但难度也不小,未来继续加油吧。
平时上班,周末大部分时间都在陪娃,自己可支配的时间大大减少,因此写博客和开源项目上没太多产出,总共写了个8篇知乎文章,2个开源项目,一个是关于实时图片驱动人头项目,基于快手LivePortrait坐了一个实时版本的封装,另一个是基于LLM给代码仓库打分网站,可以在这里访问。
第二个项目其实是一个基于AI驱动的产品尝试。由于AI能力的不断提升,写代码或者说技术壁垒成为一个门槛很低的事情,许多以前没法做的东西,现在在AI的帮助下可以很快地实现,例如那个项目中的Vue代码,完全是大模型不断地根据我的要求生成的,工作的很好。所以我觉得未来成功的产品是体现在创意上,目前来看似乎还没有那个AI产品有很好的创意而引爆C端市场。希望未来有更多的创客借助AI创造出精彩的产品。
这一年也是不断思考人和AI关系的一年,从实际问题到哲学命题,AI与人类的关系,我觉得在未来几年也会一直被讨论。但无法忽视的事实是,AI的能力提升飞快,已经在很多方面超过了顶尖的人类了。从Assistants,到Copilots,再到Colleagues,再到Critics,再到Twins,这种快速的关系变化可能从根本上改变人类对自己的认知。相信在2025年,还会有更多精彩被创造,希望在这个exciting的时代,能做出自己的一点贡献。
1月18日,农历腊月八,初中同学真林结婚,我提前一天坐飞机回家,参加完婚礼下午坐飞机回来。这个陪我度过最后一个单身夜晚的好朋友也结婚了🤣最近可爱的女儿也出生了。
1月28日,云亮结婚,我们回家参加婚礼,然后彤彤和乖乖去庄浪,我回公司继续干活。
1月31日,栾京来杭州出差,我们张凯一起去湖滨银泰吃火锅。
2月8日,腊月二十九,要过年了,我先坐高铁到天水,到汽车站时,已经没有回庄浪的班车了。在汽车站外等了会,也没找到会庄浪到车,只能先坐出租车到秦安,再看怎么办。天水的出租车司机又坑了我一把,说好的的走高速,结果还是沿着低速缓慢走,不诚信的行为再一次上演。到秦安已经天黑了,有点饿,等了半天也没找到车,只能在秦安高铁站的天桥下,找了个卖釀皮的小摊,围着蜂窝煤炉子吃了点东西。之后找到了私家车,拉着四个往庄浪方向的人出发了。到庄浪已经晚上8点半。正月初三回我家,又是一番人在囧途。春节结束后,2月19日,也就是正月初十坐飞机回杭州。
3.月1日 团队去西溪源谷开年会,垂钓,飞盘,烧烤,抽奖,k歌,放烟花……
3月20日搬家,从22年年中搬到九堡,终于又回到了余杭。彩虹和龙哥从南通过来参加我们的搬家活动。
3月30日周末,小家庭去西溪湿地春游,在大树下睡了半天。
4月5日清明节,我们去桐庐吃桐庐菜,游富春江,爬富春山,负重20斤的小baby登顶富春山东西二个钓台,俯瞰富春江,有点意境。这过得非常舒服的一个假期。
5月1日劳动节,我们去苏州了,住在吴趋坊附近,夜游平江路独有一番风味,从商场出来的小巷一直走到平江路,人潮拥挤,小店林立,文创美食目不暇接。别的虎丘山,山塘街,泰伯庙,北寺塔,阊门,平门等大大小小的景点,护城河中缓缓驶过的游船,真的很有江南的感觉。还有商场的各种美食,吴趋坊的烤肉,真的美味。
5 月23日-5月26日我和几个同事去西安参加CCIG会议。参会之余和高中室友魏朝奇于参聚会,我们数年没见了。也和栾京一家吃了烧烤,然后去大唐不夜城,走路到地铁站回去。上次见他们还是去榆树参加他们的婚礼。
6月21-6月22日两天,小团队去千岛湖outing,吃鱼,K歌,烧烤,摘杨梅。
7月1日去富阳考驾照,科二挂了科三过了,7月21日重考科二和科四,拿到驾证。从5月5号开始练,总共耗时两个半月。
8月31日,我们去版本馆,上次来是版本馆刚开放的时候,天气炎热,没有深度看展馆内容。
9月7日,我们去玉鸟集玩,在玉鸟雕塑的草坪上坐了很久,有些惬意。然后去旁边的村民食堂吃饭,接着去单向空间大屋顶,单向空间自由阅读的感觉很棒。
9月15日,打车去下斗门村,在村北面拐角的时候,整个田野突然出现在眼前,仿佛走进了宫崎骏的田园世界。我们沿着河堤走到下陡门村网红树,休息后再走回北塘春池,玩了会吃了土菜,味道不错,然后打车回家。
9月17日中秋节,下午去杭师大北面的大草坪露营地等月亮升起。夜晚月亮从东边楼房上面探出头,然后往中天走。我们和月亮合影,然后点了水饺外卖,吃完才回去。
国庆节请了2天假,9月28先到天水,包叔顺路送我们到武山,第二天回家。10月3日云亮和明霞送我们到庄浪。由于10月2号晚上我们去k歌,大家都是食物中毒了,国庆接下来的几天都特别难受。
11月2日, 我们去良渚古城遗址公园,水稻黄了很好看,还有秋风送来远处好听的歌声,循着歌声而去,发现是有稻香音乐会,在草坪上听了会,然后去看了日落,又大又红又圆,真的是难以忘怀的一天。
11月3日,再次去西溪湿地,在老地方铺了垫子吃东西,拍照。
12月1日,和东升夫妇和东升妈妈一起去吃了兰木肆,东升也换工作了。
12月13日大团队爬九曜山,游净慈寺,第一次爬西湖西南角的山。
12月27日小团队年末聚餐,去吃铁锅炖,感觉吃的比之前好吃多了。
《乔布斯传》
《创造:用非传统方式做有价值的事》
《李飞飞自传》
《一地鸡毛》
《万物皆计算:科学奇才的探索之旅》
你想活出怎样的人生
年会不能停!
飞驰人生2
阿索卡
内景唐人街
老练律师
谜探路德维希
豺狼的日子
2024-09-14 08:50:04
GitHub在2024年8月10号左右的时候推出了GitHub Models新功能,提供运行大模型的Playground和免费API服务,用于进行AI大模型的实验和AI应用的原型验证。目前已经支持的模型包括GPT-4o系列,phi-3系列,Llama-3系列,以及一些Embedding模型等(OpenAI o1-mini和o1-preview虽然列出来了,但需要登陆Azure来使用)。
GitHub Models功能还在limited public beta阶段,需要先申请加入waitlist,通过后才能体验。
本来以为跟之前Copilot,Codespace等功能一样,国内无法申请或者申请通过后无法使用,但这次却没有卡这些条件,我从8月13号提交申请,9月11号通过,目前测试国内网络也可以使用免费的API服务,因为服务都是搭建在Azure云服务上面的。
GitHub 定位是给开发者开发AI应用原型提供免费的服务(某种程度上也是给Azure引流),所以有请求限制,具体来说,大模型限制级别分为Low和High,Low级别每分钟最多请求15次,每天上限是150,每次请求的最大输入token是8000,最大输出token数是4000,最大并发请求5个,High级别每分钟最多请求10次,每天上限是50,每次请求的最大输入token是8000,最大输出token数是4000,最大并发请求2个,所以这种quota,可能真的就够自己做原型调试用了。Embedding模型有单独的级别,具体数据见下表:
下面简单介绍一下使用的流程。
GitHub Models的网址是https://github.com/marketplace/models,除了开始图片展示的,还包含下面这些模型:
选择一个模型后,进入到详情页面,有模型的介绍,还有Web上直接使用的Playground选项,以及API调用的 Get started选项,以及请求限制级别:
点击Playground进入Web使用页面,看起来跟OpenAI网站很像,可以直接聊天,也可以调整右边的参数进行控制,同时除了Chat,还是Code和Raw模式:
Chat 模式下,直接进行提问,返回结果,还可以点赞点踩,重新提问:
Code模式下,会给出在Python代码中调用接口的示例:
Raw模式下,会以JSON格式显示用户的问题,模型的回答:
Raw模式和Chat模式都可以进行对话,JSON内容会实时更新:
点Get Started按钮后,会显示API调用的详细说明:
像这个模型,支持Python, JS, C#和REST四种形式的调用(有些模型只支持Python和JS),
SDK可以选择OpenAI SDK(pip install openai)或者Azure AI Inference SDK(pip install azure-ai-inference),右边给出了详细的使用说明
首先需要在GitHub 这里生成TOKEN,这个TOKEN跟OpenAI Key一样,用于模型调用的鉴权等等。
将上面GITHUB_TOKEN加入环境变量,然后就是熟悉的调用方式了,下面将单次对话,多次对话,流式输出,传入图片和调用工具的示例代码放上来,供参考
1 |
import os |
1 |
import os |
1 |
import os |
1 |
import os |
1 |
import os |
整体上与使用OpenAI SDK类似,有些函数接口有变化
1 |
import os |
1 |
import os |
1 |
import os |
1 |
import os |
1 |
import os |
GitHub Models总体上来说还是一个有用的工具,有下面的优点:
当然缺点也有:
希望这篇文章能让你对GitHub Models这个功能有更清晰的认识,欢迎点赞,收藏和评论!
2024-09-14 08:47:18
国内下载 GitHub 上代码一直是一件让人很头疼的事情,相信大家都深有体会。
最近偶然发现一个比较好用的解决方案,是采用http://gitclone.com的加速,这里记录一下。
具体来说,在仓库url中增加gitclone.com
的前缀,别的地方不变,即https://github.com/
修改为https://gitclone.com/github.com/
,例如原始的clone命令是:
1 |
git clone https://github.com/huggingface/transformers |
替换成下面的命令即可:
1 |
git clone https://gitclone.com/github.com/huggingface/transformers |
实测基本上能做到1M/s的下载速度。
这种加速目前只支持git clone 和git pull 命令,所以适用于拉取别人代码进行本地查看的应用场景。
另外发现这种加速方式下载的仓库,有一些只有最新的一次提交,有一些则包含完整提交,原因未知。
此外,请确认克隆的代码是否与GitHub上一致,我们无法保证拉取的代码是否被修改过。
2024-09-01 08:44:16
最近qwen2发布了多模态系列模型Qwen2-VL,查看blog发现,72B的模型在很多benchmark上都超过了GPT-4o,而根据之前的经验,标准测试集上的效果与实际使用体验并不总是一致的。之前在某个多模态模型出来的时候,随手拍了一张地铁线路图做测试,发现效果不尽如人意。这两天花时间将这张地铁线路截图中的问题进行了标准化,构建了一个简单的图片理解测试集,让我们看看Qwen2-VL到底行不行。
为了保证测试问题构建简单,只围绕下面这张地铁截图进行问题设计,所以考察的并不是模型的综合能力,而是考察日常生活中的一个小的实际场景下的效果的好坏,这样有点以偏概全,但这种随机的场景上的明显提升,才能真正体现模型的能力。
另外实际问题时也跟标准测试集不同,尽量口语化,非标准化,不会像法律文书那样精准描述,这也是为了模拟日常对话的情况。
总共10个问题:
仅根据上传截图中的信息,回答下面问题:
这张截图显示的是几号线
这张截图总共包含了多少个地铁站
这站截图的地铁站中,总共有多少个换乘站
当前是在哪个站
沿着红色箭头方向,闸弄口的下下站是什么站
终点站是哪个站
从彭埠到龙翔桥,总共要坐几站(包含彭埠和龙翔桥)
图中的地铁线路与5号线有几个换乘站
有几个站可以坐火车
图中的地铁线路总共可以几条线路换乘
这10个问题考察模型下面几个方面的能力:
为了保证模型的分数可以量化,这里选择的都是确定性问题。
得分情况是答对一题算一分,否则算0分,因此满分10分,最低0分。
为了保证测试的简单,这里只对比了几个PC 网页端可以访问的多模态模型,测试日期为2024-09-01, 具体访问网址如下:
除了GPT-4o mini,别的模型都可以直接点击网址进行体验。
测试方式很简单,访问网页,新建对话,上传图片,将上面的问题粘贴进去,回车等待结果。
先上总的结果表格:
可以看到最新发布的Qwen2-VL-7B还是比较一般,只有4分,Qwen2-VL-72B效果提升很明显,从7B的4分提升到了8分,也是几个模型里面唯一及格的。
具体每个模型的回答截图如下,供参考。
QWen2-VL-72B真的这么强吗,为了进一步分析,我让它不光返回结果,还对中间的分析过程进行说明,结果如下:
发现结果答对的题目中,有几个题目分析结果并不对:
所以说,其实qwen2蒙对了2道题,或者说中间解题过程有错误,如果只考最终结果,能得80分,如果要写中间过程,那估计只能得60分了。
另外通过中间回答,发现它对“下下站”的理解不对,理解成了下一站,但单独问,却能正确回答:
另外多维度联想能力不太好,例如第7题目,沿着红色箭头方向,应该是从下往上的方向,但Qwen2-VL-72B搞反了。
到这个程度,我觉得多模态模型差能够解决一些日常生活中的推理问题了,玩起来会更有趣一些。问题和图片放到这个仓库了,后面出来新的模型还会继续用这个hangzhou_line1_benchmark进行测试,希望我的这个简单测试问题集早日被打爆。
2024-08-29 08:30:32
Google 发布了Python 包google-generativeai,可以方便地调用Gemini和Gemma 系列的模型,免费模型只需要申请一个Key,无需任何费用。
而且Gemini 1.5 Pro模型还支持一些多模态任务,例如检测bbox,实际测试下来效果还不错。
这里简单写一个流程,体验效果。
访问Google AIStudio 来进行Key注册:Google AI Studio
Python包安装:
1 |
pip install -U google-generativeai |
简单使用大模型的对话能力,例如讲一个鬼故事:
1 |
# pip install -U google-generativeai |
输出结果:
最后一句有点惊悚…
随便找了一张跳舞的人的图片,测试一下人体框检测效果,这里使用Gemini-1.5-pro来多模态检测人体框:
prompt如下:’Return bounding boxes of the , in the format of [ymin, xmin, ymax, xmax]
1 |
# pip install -U google-generativeai |
检测结果:
2024-07-28 08:18:25
今天发现GPT-4o对于GitHub Readme文档的润色还是很不错的,很自动添加一些花里胡哨的功能,看起来很fancy。
具体的提示词如下:
1 |
将下面github 仓库的readme进行细化重写,添加更多fancy的标记和文本,使得更加详细和吸引人 |
润色前:
1 |
# mimic_head |
润色后:
1 |
# 🎭 mimic_head |
可以看到,自动添加了:
看上去专业了很多,算是很实用的工具了。