Event JSON
{
"id": "253c4e73c432e8c23ad4f89c412df2f40cd7f1ec9e714e2ef56b982e61946ae3",
"pubkey": "f0c864cf573de171053bef4df3b31c6593337a097fbbd9f20d78506e490c6b64",
"created_at": 1679110745,
"kind": 1,
"tags": [
[
"e",
"6d1ba0602ed6dfe3bf919e4537fefe3ef9a7030d2b2399f130486e2c6bd913cb",
""
],
[
"e",
"a3305758aaaed8c5f82dd217115bff7b8646fac16e7d0afa1dfa871b08b9222e"
],
[
"p",
"53a8392e971b46326e3d0f8967db17c4f7cca4d42be979b1664124c8f69af528"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
],
[
"p",
"0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343"
]
],
"content": "我基本知道你什么意思了。\n\n你认为中文世界绝大部分内容都是被政治清洗过的错误信息,或者中医这种有矛盾争议的内容,所以不能用来训练,且不说我不认为中文世界是你想的样子,与此无关的内容占多数。\n\n语料当然是大规模抓取后清洗的,但对LLM来说,能否有效训练,数据质量更多是数学意义的,而不是知识意义的,所以垃圾广告也能训练,只是质量需要处理。\n\n对于语料包含的知识内容,ChatGPT的英文语料中也包含支持顺势医学的内容,本来在西方顺势医学受众就有一批,里面也不会包含美国政府不想让你知道的内容,否则你可以问问斯诺登。\n\n通常认为LLM除了语法外还学到了某种先验知识,实际LLM并不会坚守这种知识,除非监督强化。完全相同的英文语料给LLM,后面也可以人为诱导出不同的,甚至很极端的倾向,因此可以人为输入意识形态倾向。\n\nChatGPT这路线出现Prompt Engineer就是这个原因,有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。\n\n如果你说只能训练出在某些问题上体现中国特色的AI,那么我同意。",
"sig": "b858c05d4f8d2111ba8ae706eebfe2a69465dbd3a418ff3cdd65436c6910541512e89f16a88d4f4aa1d835587bc5fb0eaca611cb05a46c669f3442d4501b10eb"
}