时间的玫瑰 on Nostr: 为了训练模型,要大规模从county网站爬数据。 ...
为了训练模型,要大规模从county网站爬数据。
一个观察是我们要过滤掉的条目里居然有🦣了,与一大堆社交网站平起平坐,可喜可贺。不过县政府网站要什么毛象啊喂!
还有一个观察是,我爬的时候还有点紧张的,因为我老想着我以前看的一个新闻,一个工程师爬上海的政府网站,结果政府网站能力不够被爬崩掉了,然后工程师就坐牢了……
我作为一个中国人在加拿大爬美国政府的网站,我这心啊。
Published at
2023-05-22 17:19:48Event JSON
{
"id": "bcba7edcb6cd9ad74253b5745f656debc6a76bfff18f411abafc59a0dfa06dfb",
"pubkey": "faddf65f89bc574fabce145d97b5abb06554a721f91d9dca2ee540aaee3a07f1",
"created_at": 1684775988,
"kind": 1,
"tags": [
[
"mostr",
"https://m.cmx.im/users/roseoftime/statuses/110413479154478850"
]
],
"content": "为了训练模型,要大规模从county网站爬数据。\n一个观察是我们要过滤掉的条目里居然有🦣了,与一大堆社交网站平起平坐,可喜可贺。不过县政府网站要什么毛象啊喂!\n还有一个观察是,我爬的时候还有点紧张的,因为我老想着我以前看的一个新闻,一个工程师爬上海的政府网站,结果政府网站能力不够被爬崩掉了,然后工程师就坐牢了……\n我作为一个中国人在加拿大爬美国政府的网站,我这心啊。",
"sig": "25c60065f9e1a934a728709a5a0b3d6a2e9e350d4775681cc5ee18249ce861e78221f027733f946182c598ec8a1508d602e8ce86b1f0f63039699f06ae087e44"
}