研究称百度弱智吧中文训练高于知乎豆瓣小红书
最近取得重大突破的大模型主要专注于英语,为了弥补中文的差距,中科院深圳先进技术研究院、北大、中科大以及李开复的零一万物等学术机构和企业的研究人员推出了 COIG-CQIA 中文高质量指令微调数据集,旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA 的中文语料来自于知乎高赞回答、豆瓣、小红书和以及百度贴吧如弱智吧高赞贴。研究人员使用该数据集对零一万物的 Yi-34B 模型进行微调,结果发现弱智吧的语料表现最出色。研究人员推测可能与弱智吧的内容风格有关,弱智吧的高赞贴通常具有双关、多义等语言特色,可能有助于改进模型的逻辑推理。
—— https://www.solidot.org/story?sid=77785
- COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning : https://arxiv.org/abs/2403.18058 (arXiv)
- m-a-p/COIG-CQIA : https://huggingface.co/datasets/m-a-p/COIG-CQIA (Hugging Face)