萨拉·胡克

@sarahookr

1 小时 13 条推文 5 分钟阅读在 X 阅读

Scrolly

为了科学的诚信，我们必须信任自己的进展衡量方法。

@lmarena_ai 已经成为评估 AI 进展的首选工具。

我们今天的发布展示了在 @lmarena_ai 上保持公平评估的难度，尽管我们有最好的意图。

我们花了 5 个月分析了在竞技场进行的 280 万场战斗，涵盖了 43 家供应商的 238 种模型。

我们发现，少数提供商的优惠政策导致了对 Arena 特定指标的过度依赖，而非真正的 AI 进步。

@lmarena_ai 隐性测试政策，实际上只让一小部分供应商受益。

提供者可以选择要公开的评分，并撤回其他所有评分。

在极端情况下，我们看到在发布前会测试多达 27 个模型。

这种做法没有合理的科学依据。

能够选择最佳得分进行公开，使得竞技场的得分策略变得系统化。

这一优势会随着变体数量的增加而增加，如果其他供应商都不知道这一点，他们也可以私下进行测试。

这必须非常明确 -- 继续目前的做法：

1) 只有部分供应商可以提供无限的测试

2) 允许撤回分数

这等于我们的社区接受了一种我们在机器学习入门课上学过是不被允许的做法。

我们必须做得更好。

我们还发现竞技场数据访问存在显著差异

@lmarena_ai 是一个开放的社区资源，提供免费反馈，但 61.3% 的数据是为专有模型提供商的。

@lmarena_ai 这些数据差异源于一些有利于少数几家提供商的关键政策：

1) 专有模型以更高频率采样，从而更多出现在战斗中 📶
2) 开放权重和开源模型在竞技场中更频繁地被移除
3) 几个私有变体

@lmarena_ai 采样率的差异实际上是启动这个项目的原因。

Aya Expanse 是我们去年发布的开放权重模型，去年 11 月我们搞不懂为什么它的采样比其他模型少得多。

@lmarena_ai 我们的建议很简单。

组织者提出了一个积极的采样率，使 Arena 回到需要的地方进行采样投票。

我们发现这在实践中并未实施。我们的核心建议之一是回归这一做法。

总体而言，我们的研究表明，少数提供者的参与和 @lmarena_ai 对同一小群体的优惠政策导致了过度适应 Arena 特定的动态而非整体模型质量。

我依然乐观地认为这个问题可以解决。

这份论文让我们作为一个社区，面对自己，写得让人很不自在。

作为科学家，我们必须做得更好。

作为一个社区，希望我们能要求更高。

我也不想贬低 @lmarena_ai 所取得的成就。他们让更多人能够使用模型，推动了开放社区的发展。

我相信组织者可以通过修改政策来恢复信任。

我们明确了需要进行的五项改变。

为这次跨机构合作感到非常自豪 @Cohere_Labs @UWaterloo @stai_research @PrincetonCITP @uwnlp @MIT

由 @singhshiviii、@mziizm 领衔，共作者包括 @YiyangNan、@W4ngatang、@mrdanieldsouza、@sayashk、@ahmetustun89、@sanmikoyejo、@yuntiandeng、ShayneRedford 和 @nlpnoah

• • •

这个帖子中缺少了某个推文？你可以尝试强制刷新

这个帖子可能随时删除！

Twitter 可能会随时删除这些内容！保存为 PDF 以备后用！

更多来自 @sarahookr

萨拉·胡克

@sarahookr

2024 年 10 月 4 日

最大的未解问题之一是合成数据的极限。训练合成数据会导致模式崩溃吗？还是有更好的方法可以超越现有模型？

这次讨论遗漏了合成数据成功的关键在于数据优化的方式。最近几篇论文很好地揭示了这一点，特别是在合成数据的危险性方面——这是一篇在《自然》杂志上发表的优秀论文。📜 nature.com/articles/s4158...

The Nature paper finds that:

Eventually, if you train repeatedly on synthetic data trained from a single model – you generate gibberish.

This due to repeat sampling of the mode of the distribution. You lose the long-tail. It is also why synthetic sampling can amplify bias.

阅读 11 条推文

萨拉·胡克

@sarahookr

2021 年 7 月 23 日

如何区分不确定来源？这一点很重要，因为非典型和嘈杂样本的处理方法大不相同。我们工作坊的两篇论文从不同角度探讨了这一问题。

在子网络机器学习领域，Neil Hu 和 Xinyu Hu 探讨了仅优先考虑挑战性示例的局限性——这启发了对不确定性来源的更细致区分。w @jasonyo, @savvyRL 工作坊: bit.ly/3wXnrNT 论文 📜: bit.ly/36ZIhlj

In the UDL Workshop today, @mrdanieldsouza and Zach Nussbaum will present our workshop paper "A Tale of Two Long Tails."

w @_cagarwal.

Workshop: bit.ly/3zurMdh

Paper 📜: bit.ly/3rsdhni

Session: bit.ly/3rqLmEp
9:45-10:45am EST

阅读 4 条推文

萨拉·胡克

@sarahookr

2021 年 2 月 15 日

昨天，我在一场辩论中被“算法偏见是数据问题”的观点反驳。我以为这在研究社区已经被充分反驳过了，但显然不是。所以，我再重申一次——这不仅仅是数据的局限，模型也很重要。1/n

We show this in our work on compression.

Pruning and quantizing deep neural networks amplifies algorithmic bias.

arxiv.org/abs/2010.03058 and arxiv.org/abs/1911.05248

Work on memorization and variance of gradients (VoG) shows that hard examples are learnt later in training, and that learning rates impact what is learnt.

bit.ly/2N9mW2r, arxiv.org/abs/2008.11600

So, early stopping disproportionately impacts certain examples.

Read 7 tweets

Sara Hooker

@sarahookr

Nov 21, 2019

What does a pruned deep neural network "forget"?

Very excited to share our recent work w Aaron Courville, Yann Dauphin and @DreFrome

weightpruningdamage.github.io

At face value, deep neural network pruning appears to promise you can (almost) have it all — remove the majority of weights with minimal degradation to top-1 accuracy. In this work, we explore this trade-off by asking whether certain classes are disproportionately impacted.

We find that pruning is better described as "selective brain damage" -- performance on a tiny subset of classes and images is cannibalized in order to preserve overall performance. The interesting part is what makes certain images more likely to be forgotten...

Read 8 tweets