CXPLAY on Nostr: 几个星期前我的 njump 实例(1c1g)小盒子被 MJ12bot 和 Amazon spider ...
几个星期前我的 njump 实例(1c1g)小盒子被 MJ12bot 和 Amazon spider 爬宕机了好几次后直接就在 robots.txt 里面禁用了, 也还好都挺守规则. 然后就是天天都来的字节跳动的 spider, 也没看到他有什么搜索引擎, 头条搜索也不可能收率这些无法主动审查的内容, 纯纯爬来丰富它们语料库, 然后也把它加进去了 robots.txt, 结果它还不遵守, 只好直接在 WAF 里写规则禁了.
也不好直接开白名单, 现在 Google, Bing, Yandex 的爬虫每天都来光顾, 也难说会有其他我不知道的搜索引擎爬虫会来.
Published at
2024-02-18 08:02:03Event JSON
{
"id": "70b5436c43e9c9de9116eb08736e34d3f408e105ae24c9a9ed762ab433b70176",
"pubkey": "434f97993627f1e61f14eeaf60caa8cfdcec10a592caff8250c825252d548c15",
"created_at": 1708243323,
"kind": 1,
"tags": [
[
"r",
"robots.txt"
],
[
"r",
"robots.txt"
]
],
"content": "几个星期前我的 njump 实例(1c1g)小盒子被 MJ12bot 和 Amazon spider 爬宕机了好几次后直接就在 robots.txt 里面禁用了, 也还好都挺守规则. 然后就是天天都来的字节跳动的 spider, 也没看到他有什么搜索引擎, 头条搜索也不可能收率这些无法主动审查的内容, 纯纯爬来丰富它们语料库, 然后也把它加进去了 robots.txt, 结果它还不遵守, 只好直接在 WAF 里写规则禁了.\n也不好直接开白名单, 现在 Google, Bing, Yandex 的爬虫每天都来光顾, 也难说会有其他我不知道的搜索引擎爬虫会来.",
"sig": "937d673e98025c12b3eb7f8c7ec8a5c94259ac9b91a7cfca14c8b700a52e3ea832ab6cb2cb7838a770d8ec6b5a5226ba89c6a0c60bad9c7b3dcff7720ed24317"
}