这是用户在 2025-4-30 21:38 为 https://threadreaderapp.com/thread/1917547727715721632.html 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
Sara Hooker Profile picture
1 小时 13 条推文 5 分钟阅读 在 X 阅读
为了科学的诚信,我们必须信任自己的进展衡量方法。

@lmarena_ai 已经成为评估 AI 进展的首选工具。

我们今天的发布展示了在 @lmarena_ai 上保持公平评估的难度,尽管我们有最好的意图。Image
我们花了 5 个月分析了在竞技场进行的 280 万场战斗,涵盖了 43 家供应商的 238 种模型。

我们发现,少数提供商的优惠政策导致了对 Arena 特定指标的过度依赖,而非真正的 AI 进步。Image
@lmarena_ai 隐性测试政策,实际上只让一小部分供应商受益。

提供者可以选择要公开的评分,并撤回其他所有评分。

在极端情况下,我们看到在发布前会测试多达 27 个模型。
这种做法没有合理的科学依据。

能够选择最佳得分进行公开,使得竞技场的得分策略变得系统化。

这一优势会随着变体数量的增加而增加,如果其他供应商都不知道这一点,他们也可以私下进行测试。Image
这必须非常明确 -- 继续目前的做法:

1) 只有部分供应商可以提供无限的测试

2) 允许撤回分数

这等于我们的社区接受了一种我们在机器学习入门课上学过是不被允许的做法。

我们必须做得更好。Image
我们还发现竞技场数据访问存在显著差异

@lmarena_ai 是一个开放的社区资源,提供免费反馈,但 61.3% 的数据是为专有模型提供商的。
@lmarena_ai 这些数据差异源于一些有利于少数几家提供商的关键政策:

1) 专有模型以更高频率采样,从而更多出现在战斗中 📶
2) 开放权重和开源模型在竞技场中更频繁地被移除
3) 几个私有变体
@lmarena_ai 采样率的差异实际上是启动这个项目的原因。

Aya Expanse 是我们去年发布的开放权重模型,去年 11 月我们搞不懂为什么它的采样比其他模型少得多。Image
@lmarena_ai 我们的建议很简单。

组织者提出了一个积极的采样率,使 Arena 回到需要的地方进行采样投票。

我们发现这在实践中并未实施。我们的核心建议之一是回归这一做法。Image
总体而言,我们的研究表明,少数提供者的参与和 @lmarena_ai 对同一小群体的优惠政策导致了过度适应 Arena 特定的动态而非整体模型质量。

我依然乐观地认为这个问题可以解决。Image
这份论文让我们作为一个社区,面对自己,写得让人很不自在。

作为科学家,我们必须做得更好。

作为一个社区,希望我们能要求更高。
我也不想贬低 @lmarena_ai 所取得的成就。他们让更多人能够使用模型,推动了开放社区的发展。

我相信组织者可以通过修改政策来恢复信任。

我们明确了需要进行的五项改变。Image
为这次跨机构合作感到非常自豪 @Cohere_Labs @UWaterloo @stai_research @PrincetonCITP @uwnlp @MIT

由 @singhshiviii、@mziizm 领衔,共作者包括 @YiyangNan、@W4ngatang、@mrdanieldsouza、@sayashk、@ahmetustun89、@sanmikoyejo、@yuntiandeng、ShayneRedford 和 @nlpnoahImage

• • •

这个帖子中缺少了某个推文?你可以尝试强制刷新
 

跟上 Sara Hooker 的步伐

Sara Hooker Profile picture

保持联系,当这位作者发布新内容时收到通知!

阅读所有帖子

这个帖子可能随时删除!

PDF

Twitter 可能会随时删除这些内容!保存为 PDF 以备后用!

自己试试把线展开!

how to unroll video
  1. 关注 @ThreadReaderApp 并提及我们!

  2. 在 Twitter 上的讨论中,用关键词“unroll”提到我们
@threadreaderapp unroll

先在这里练习或在帮助页面了解更多!

更多来自 @sarahookr

2024 年 10 月 4 日
最大的未解问题之一是合成数据的极限。训练合成数据会导致模式崩溃吗?还是有更好的方法可以超越现有模型?Image
这次讨论遗漏了合成数据成功的关键在于数据优化的方式。最近几篇论文很好地揭示了这一点,特别是在合成数据的危险性方面——这是一篇在《自然》杂志上发表的优秀论文。📜 nature.com/articles/s4158...
The Nature paper finds that:

Eventually, if you train repeatedly on synthetic data trained from a single model – you generate gibberish.

This due to repeat sampling of the mode of the distribution. You lose the long-tail. It is also why synthetic sampling can amplify bias.
阅读 11 条推文
2021 年 7 月 23 日
如何区分不确定来源?这一点很重要,因为非典型和嘈杂样本的处理方法大不相同。我们工作坊的两篇论文从不同角度探讨了这一问题。
在子网络机器学习领域,Neil Hu 和 Xinyu Hu 探讨了仅优先考虑挑战性示例的局限性——这启发了对不确定性来源的更细致区分。w @jasonyo, @savvyRL 工作坊: bit.ly/3wXnrNT 论文 📜: bit.ly/36ZIhlj
In the UDL Workshop today, @mrdanieldsouza and Zach Nussbaum will present our workshop paper "A Tale of Two Long Tails."

w @_cagarwal.

Workshop: bit.ly/3zurMdh

Paper 📜: bit.ly/3rsdhni

Session: bit.ly/3rqLmEp
9:45-10:45am EST
阅读 4 条推文
2021 年 2 月 15 日
昨天,我在一场辩论中被“算法偏见是数据问题”的观点反驳。我以为这在研究社区已经被充分反驳过了,但显然不是。所以,我再重申一次——这不仅仅是数据的局限,模型也很重要。1/n
We show this in our work on compression.

Pruning and quantizing deep neural networks amplifies algorithmic bias.

arxiv.org/abs/2010.03058 and arxiv.org/abs/1911.05248
Work on memorization and variance of gradients (VoG) shows that hard examples are learnt later in training, and that learning rates impact what is learnt.

bit.ly/2N9mW2r, arxiv.org/abs/2008.11600

So, early stopping disproportionately impacts certain examples.
Read 7 tweets
Nov 21, 2019
What does a pruned deep neural network "forget"?

Very excited to share our recent work w Aaron Courville, Yann Dauphin and @DreFrome

weightpruningdamage.github.io
At face value, deep neural network pruning appears to promise you can (almost) have it all — remove the majority of weights with minimal degradation to top-1 accuracy. In this work, we explore this trade-off by asking whether certain classes are disproportionately impacted.
We find that pruning is better described as "selective brain damage" -- performance on a tiny subset of classes and images is cannibalized in order to preserve overall performance. The interesting part is what makes certain images more likely to be forgotten...
Read 8 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(