作者 | Robert Krzaczyński
譯者 | 平川
Hugging Face 發(fā)布了?FineTranslations,這是一個大規(guī)模多語言數(shù)據(jù)集,包含覆蓋英語和其他 500 多種語言的并行文本、超過 1 萬億個 Token。該數(shù)據(jù)集是通過使用 Gemma3 27B 將 FineWeb2 語料庫中的非英語內(nèi)容翻譯成英語來創(chuàng)建的,整個數(shù)據(jù)生成流程被設(shè)計成可復(fù)現(xiàn)且公開可查的。
該數(shù)據(jù)集主要用于提高機(jī)器翻譯的質(zhì)量,特別是將英語翻譯成其他語言。對于許多資源比較少的語言,效果還比較差。通過將非英語的原始文本翻譯成英語,F(xiàn)ineTranslations 提供了適用于對現(xiàn)有翻譯模型進(jìn)行微調(diào)的大規(guī)模并行數(shù)據(jù)。內(nèi)部評估表明,在訓(xùn)練僅限英語的模型時,生成的英語文本效果與 FineWeb 相當(dāng),并且這些數(shù)據(jù)可以在翻譯之外的任務(wù)中重用。
除了翻譯之外,Hugging Face 報告稱,生成的英語語料庫保留了源語言的大量文化和上下文信息。在內(nèi)部實(shí)驗中,使用翻譯后的英語文本訓(xùn)練出來的模型,其性能與使用原始 FineWeb 數(shù)據(jù)集訓(xùn)練的模型相當(dāng)。這表明,對于僅限英語的模型預(yù)訓(xùn)練來說,F(xiàn)ineTranslations 也可以作為一個高質(zhì)量的補(bǔ)充。
該數(shù)據(jù)集來源于?FineWeb2,它聚合了 2013 年至 2024 年間從 CommonCrawl 快照中收集的多語言 Web 內(nèi)容。為了減少由高度重復(fù)或特定領(lǐng)域內(nèi)容(如宗教文本和維基百科頁面)所導(dǎo)致的偏差,其中只包含 bible_wiki_ratio 低于 0.5 的語言子集。每種語言最多處理了 500 億個 Token,優(yōu)先應(yīng)用 FineWeb2-HQ 的質(zhì)量分類器(如有可用),否則使用隨機(jī)抽樣。
Hugging Face 使用?datatrove 框架?完成了大規(guī)模的翻譯工作。該框架在 Hugging Face 集群上實(shí)現(xiàn)了強(qiáng)大的檢查點(diǎn)機(jī)制、異步執(zhí)行和 GPU 的高效利用。文檔被分割成最多包含 512 個 Token 的塊,為了保持跨段落上下文的連貫性,他們采用了滑動窗口策略。為了減輕大規(guī)模翻譯中常見的問題,Hugging Face 引入了額外的保護(hù)措施,包括早期對惡意或垃圾內(nèi)容的分類、嚴(yán)格的格式約束,以及確保換行與結(jié)構(gòu)一致性的后處理流程。
每個數(shù)據(jù)集條目包含原始文本塊和翻譯文本塊、語言和字符集標(biāo)識符、Token 計數(shù)、教育質(zhì)量評分,以及指向原始 CommonCrawl 數(shù)據(jù)源的引用。該數(shù)據(jù)集可通過 Hugging Face 數(shù)據(jù)集庫訪問(支持流式處理,可進(jìn)行大規(guī)模處理),或直接通過基于 datatrove 的管道使用。
Achref Karoui 在評論此次發(fā)布時表示:
太棒了!這次發(fā)布將彌合差距,讓各個社區(qū)都能夠更好地將流行模型與他們的語言相匹配。
FineTranslations 現(xiàn)已在 Hugging Face 上提供。該數(shù)據(jù)集遵循開放數(shù)據(jù)共享署名(ODC-By)v1.0 許可,其使用受 CommonCrawl 的條款約束。