2025-02-28 17:04:00
可以得到更好的估计器;
可以在一个有比 NLP 更加容易和更好理解的统计结构的领域中阐释 Transformer 的工作机制。
论文标题:Solving Empirical Bayes via Transformers
论文地址:https://arxiv.org/pdf/2502.09844
2025-02-28 17:04:00
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
论文链接:https://arxiv.org/abs/2501.15147
项目主页:https://lotbench.github.io
精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,构建 MLM task,即要求 LLM 每一轮根据图文信息,生成 Rt 补全给定文字空缺;
判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,则开始通过轮数计算创造力分数,否则进入第 3 步;
要求待测 LLM 根据测评时历史交互信息,提出一个一般疑问句 Qt. 测评系统根据 HHCR,返回 Yes 或者 No;
整理当前轮交互的所有信息,和系统提供的提示,称为下一轮的 history prompt,重新进入第 1 步生成创新响应环节。
2025-02-28 12:16:00
机器之心报道
编辑:张倩
他是真的想教会大家。
2025-02-28 12:16:00
论文标题:BIG-Bench Extra Hard
论文地址:https://arxiv.org/pdf/2502.19187
数据地址:https://github.com/google-deepmind/bbeh
2025-02-28 12:16:00
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文标题:DataMan: Data Manager for Pre-training Large Language Models
作者单位:浙江大学 & 阿里巴巴
论文链接:https://arxiv.org/abs/2502.19363