CXPLAY on Nostr: 一直在说, ...
一直在说, 用于训练大型语言模型的简体中文语料数量多但质量差. 我更好奇的是, 这部分数据质量是与哪部分对比的? 什么是质量差, 质量差在哪里, 什么是 "优质语料"?
我一直认为语言和文字不存在高低贵贱, 只有其承载的信息才有. 如果简体中文这种语言, 这种文字已经可以用来代表一股信息流的质量好坏, 那才是真的文化奇观.
而对于现如今的大型语言模型, 在我看来, 这其实就是刘慈欣写过的科幻小说「诗云」的现实版本:
《诗云》中,一个高等外星文明为了写出超越李白的诗歌,穷尽了太阳系的大部分能量,列举出了所有可能的字词组合,最终,他们“借助伟大的技术,我写出了诗词的巅峰之作”,却还是选择了认输,因为他们“不可能把它们从诗云中检索出来”。《诗云》描述的是“技术与艺术的对抗”,这个主题语也是刘慈欣小说选集本出版社的宣传语。
https://baike.baidu.com/item/诗云/6642267理想已经照进现实, 也许我会花时间好好看看这本小说.
#AI #LLM
Published at
2023-06-15 09:12:00Event JSON
{
"id": "ee0ce8d0559664ef69046b0a1245aaea64034f2a970f95ddc90c01abc4c7d302",
"pubkey": "434f97993627f1e61f14eeaf60caa8cfdcec10a592caff8250c825252d548c15",
"created_at": 1686820320,
"kind": 1,
"tags": [
[
"t",
"ai"
],
[
"t",
"llm"
],
[
"r",
"https://baike.baidu.com/item/诗云/6642267"
]
],
"content": "一直在说, 用于训练大型语言模型的简体中文语料数量多但质量差. 我更好奇的是, 这部分数据质量是与哪部分对比的? 什么是质量差, 质量差在哪里, 什么是 \"优质语料\"?\n\n我一直认为语言和文字不存在高低贵贱, 只有其承载的信息才有. 如果简体中文这种语言, 这种文字已经可以用来代表一股信息流的质量好坏, 那才是真的文化奇观.\n\n而对于现如今的大型语言模型, 在我看来, 这其实就是刘慈欣写过的科幻小说「诗云」的现实版本:\n\n《诗云》中,一个高等外星文明为了写出超越李白的诗歌,穷尽了太阳系的大部分能量,列举出了所有可能的字词组合,最终,他们“借助伟大的技术,我写出了诗词的巅峰之作”,却还是选择了认输,因为他们“不可能把它们从诗云中检索出来”。《诗云》描述的是“技术与艺术的对抗”,这个主题语也是刘慈欣小说选集本出版社的宣传语。\nhttps://baike.baidu.com/item/诗云/6642267\n\n理想已经照进现实, 也许我会花时间好好看看这本小说.\n\n#AI #LLM",
"sig": "09e406cd4f6fd1887a4235e959fac08fecdfb37e9525092b872ed2923e718276f3f1249d2ac43b726fd647f4e8f0ff6887abc729027444b8c10c8627f72b6e1b"
}