GPT-4o 中文token库被垃圾内容污染
OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。
> https://gist.github.com/ctlllll/4451e94f3b2ca415515f3ee369c8c374
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。
> https://fixupx.com/dhsusj144284/status/1790302306669670680
- 竹新社: https://t.me/tnews365/30454
- MIT Technology Review: https://www.technologyreview.com/2024/05/17/1092649/gpt-4o-chinese-token-polluted/