Kryptovalutaticker:
technology från Arxiv cs.ai

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

Vedant Badoni, Danqi Chen, Xinyi Wang
Thursday at 04:00
5 Visningar
0 Kommentarer

arXiv:2606.11499v1 Announce Type: cross Abstract: The performance of modern language models depends critically on pretraining data composition. Yet existing data selection methods rely on auxiliary classifiers for document scoring or mixture optimization, adding computational overhead and dependence on labeled data. We propose WebGraphMix, a...

Läs hela artikeln hos källan.

Var detta hjälpsamt?
Dela:

Kommentarer (0)

Vänligen logga in för att publicera en kommentar

Inga kommentarer ännu. Bli först med att kommentera!