ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
做爬虫要注意的问题很多呀,真的要很谨慎,当一个网站有很明显的反爬措施时,最好就不要再爬了。
还是要有基本的爬虫礼仪。
应该是非常个别的案子。 如果是大范围,那可是一个好的商业机会。 可以开放一款软件去检查一下要爬的网站有没有不让爬,和爬虫程序有没太过分。
@@jiachen1078 爬虫是一个大家互相讲礼貌的社会,有不讲礼貌的,就要受到处罚。
这期很劲爆啊
感谢支持,好久没看到你过来留言了。
没有仔细去研究过相关法律,不过如果真如频道主所说的那样,感觉相关法律有相当多的问题:1. 如何定义什么是爬虫。browser 算不算爬虫,headless browser 又算不算呢?如果你觉得一个程序,能自动发出请求(即非用户主观下产生的请求),就算爬虫,那也讲不通。从一方面讲,浏览器也很有可能实现自动预加载某些资源的优化;从另一方面讲,爬虫也是需要人手动把这个程序启动起来的,没有任何一个程序是能够自动运行的,那是不是也可以理解成爬虫也是由爬虫的用户主观意愿下去请求的这些数据。2. 频道主说造成 5 万用户以上服务器不能正常运行,属于后果特别严重,这个也太离谱了。加入有一个服务由于它自己软件或者硬件的限制,它只能同时服务 5 万个人,这时第 5 万零 1 个人正常用浏览器去访问服务,导致服务崩了,是不是这第 5 万零 1 个人还要判刑?
我也不是律师。这里面应该还是有论心不论迹、论迹不论心的问题吧。出问题了,那么还是要看看动机的。
@@StorytellerFan 请问这是哪里的法律?
@@jiachen1078 和哪里的法律无关,都有过失和蓄意的差别。
看来写个程序也要律师来做合规性检查了。成本高啊。
@@StorytellerFan 在美国如果是初犯,可能就判一个社会服务?
这种极其低级的DOS攻击竟然可以把这网站搞趴下了,这个网站太业余了,连起码的保护技术都没有
网站和爬虫程序员,都是弱鸡。
所以结论就是要用国外云服务商
幸好看今天这个故事,我还在想怎么扒一些政府网站公共数据,象老蛮那样对比
手动COPY
你盯着爬,其实没什么事情。爬一两次,还好了。
如何避免成为炮灰真的是门学问啊,如果是普通网站不知道会不会被判
一般不会,除非他们报案
国内就没有同罪同罚这件事情。你赶上严打了呢?
赶上我放个屁都得坐三年@@StorytellerFan
服务器对相同ip非正常流量不拒绝么?
两边都是二把刀,水平很烂。
技术角度,代码写的太简单粗暴了。可以框架,或者编程经验丰富一点,都能避免这个问题。这个案例,不存在商业竞争,被告的。
程序员肯定也是个二把刀,最起码一点,上线跑了,总要看看日志的吧。
老范在国内视频平台 开视频账号没
没开,懒得做审核。也讨厌被小粉红们喷。
提个外行问题,网站没有拒绝相同地址高频访问的功能吗?实现这个功能很困难吗?
这种网站,经常会有警察局来访问,做这种拒绝相同地址高频访问的功能,很容易误伤的。这种情况,可供选择的方式非常多了,只是这次正好大家都选择了错误的方式。
有是有,各大厂开放出来的API,都会有访问频次限制。大厂实现起来不困难,小厂就麻烦了
@@0xLTMD 这次就是二把刀遇到了二把刀。
手慢完美错过板凳
不能总是你啊。
12306当年被爬死那么多次,也没看见抢票App被端啊。 感觉就是看官老爷的心情。
你也不看看黄牛是谁家开的
我就是猎豹移动的,当年做抢票软件的时候,我就在里面。th-cam.com/video/ADYZFHAZ6DQ/w-d-xo.html可以看看这个故事。
我擦,我一不小心把我自己服务器搞挂了也得进去了
你自己不要去报案就好了。
@@StorytellerFan 哈哈
中国政府网站正常访问都会崩溃,😂
用代理ip呀!
能够有那个心思,也就不会出这种事情了。还是太粗心大意了。
用selenium慢慢爬,大家都安全。
这种事情,肯定是两边都很漫不经心了。
这个确实很值得谈一下,有时候想统计一下网站数据,怎样不踩线,安全第一
还是要人看着的,不能在离开人之后,让这种大杀器自己跑。就像是人离开家了,炉子上还烧着汤,很危险的。
说了个寂寞
失业在家,就是因为寂寞了,出来坎山。
这什么程序猿,不晓得整个代理去爬吗!直接就让人给通过IP给找到了!感觉处罚有点重了
大家都不觉得爬虫是个什么大事儿。
@@StorytellerFan 政府里头一群胀干饭的!居然崩溃了这么久才解决!
真要查你开什么代理都没用,这就是个追查成本问题
@@度空-u5r 你可以认为这是一个偶然。
写while要谨慎
还是要小心的,特别是拿别人的开源代码来修改,要认真的把所有的代码都读通的。
过5000了!!!
是啊,还需要再接再厉啊。
学艺不精啊!哈哈哈,你把别个网站给人干趴下了!
一开始还没趴,但是加了验证码,就直接趴了。
我们也被攻击了不就行了
挂掉了,可以报警。
@@StorytellerFan 我的意思是怎么不找借口🤣“我们只是被人做成了肉鸡,不是我们干的”用华春莹的话说,“网络空间虚拟性强,溯源难,行为体多样,在调查和定性网络事件的时候应拿出充分的证据,不能无端猜测。一些官员口无遮拦,动辄说事儿,极不负责任。我们对此坚决反对。”🤣🤣🤣
狡辩这种事情,还是要有最基本的条件。否则的话,就只能供认不讳了。
吓出一身汗,我是爬国外网站没问题吧?在我理解来看,网站你上线,本来就是给别人访问的,至于用什么方式访问,那管不着吧,访问量一大,网站就要崩,是不是自己技术也有问题
爬虫要遵守robots.txt里的要求,否则属于非法操作,在法治国家会吃官司,在不那么法治的国家… 至少也是违背了使用互联网的基本道德。
还是要有一个基本礼仪的。穿着暴露的女生上街被骚扰了,到底应该怪谁呢?
@@dreammaker2018 robots.txt本来就是君子协定,没听说有法律效力,以前看过一个新闻,有个站只让googlebot爬,其他不让爬,苹果就不干了,applebot一样爬也没什么啊
@@0xLTMD 整个互联网本来就是由一系列君子协定组成的。有意违反这些君子协定相当于破坏互联网的小人行为。至少在我所在的地方,如果有人不遵守robots.txt导致严重后果的,打起官司来一定会输
@@StorytellerFan 不知道为什么会拿骚扰女生举例,比如我现在爬的财经快讯,页面不要授权,要不我就一分钟手动刷新一次页面,要不我就搞个爬虫一分钟访问一次,把最新新闻推到我桌面,这就是用软件代替了手工的繁琐和麻烦,跟骚扰没关系吧。视频中我觉得被判也不是爬的关系,而是当DDOS黑客攻击在判了
沙发
今天手快啊。
做爬虫要注意的问题很多呀,真的要很谨慎,当一个网站有很明显的反爬措施时,最好就不要再爬了。
还是要有基本的爬虫礼仪。
应该是非常个别的案子。 如果是大范围,那可是一个好的商业机会。 可以开放一款软件去检查一下要爬的网站有没有不让爬,和爬虫程序有没太过分。
@@jiachen1078 爬虫是一个大家互相讲礼貌的社会,有不讲礼貌的,就要受到处罚。
这期很劲爆啊
感谢支持,好久没看到你过来留言了。
没有仔细去研究过相关法律,不过如果真如频道主所说的那样,感觉相关法律有相当多的问题:
1. 如何定义什么是爬虫。browser 算不算爬虫,headless browser 又算不算呢?如果你觉得一个程序,能自动发出请求(即非用户主观下产生的请求),就算爬虫,那也讲不通。从一方面讲,浏览器也很有可能实现自动预加载某些资源的优化;从另一方面讲,爬虫也是需要人手动把这个程序启动起来的,没有任何一个程序是能够自动运行的,那是不是也可以理解成爬虫也是由爬虫的用户主观意愿下去请求的这些数据。
2. 频道主说造成 5 万用户以上服务器不能正常运行,属于后果特别严重,这个也太离谱了。加入有一个服务由于它自己软件或者硬件的限制,它只能同时服务 5 万个人,这时第 5 万零 1 个人正常用浏览器去访问服务,导致服务崩了,是不是这第 5 万零 1 个人还要判刑?
我也不是律师。
这里面应该还是有论心不论迹、论迹不论心的问题吧。
出问题了,那么还是要看看动机的。
@@StorytellerFan 请问这是哪里的法律?
@@jiachen1078 和哪里的法律无关,都有过失和蓄意的差别。
看来写个程序也要律师来做合规性检查了。成本高啊。
@@StorytellerFan 在美国如果是初犯,可能就判一个社会服务?
这种极其低级的DOS攻击竟然可以把这网站搞趴下了,这个网站太业余了,连起码的保护技术都没有
网站和爬虫程序员,都是弱鸡。
所以结论就是要用国外云服务商
幸好看今天这个故事,我还在想怎么扒一些政府网站公共数据,象老蛮那样对比
手动COPY
你盯着爬,其实没什么事情。爬一两次,还好了。
如何避免成为炮灰真的是门学问啊,如果是普通网站不知道会不会被判
一般不会,除非他们报案
国内就没有同罪同罚这件事情。
你赶上严打了呢?
赶上我放个屁都得坐三年@@StorytellerFan
服务器对相同ip非正常流量不拒绝么?
两边都是二把刀,水平很烂。
技术角度,代码写的太简单粗暴了。可以框架,或者编程经验丰富一点,都能避免这个问题。这个案例,不存在商业竞争,被告的。
程序员肯定也是个二把刀,最起码一点,上线跑了,总要看看日志的吧。
老范在国内视频平台 开视频账号没
没开,懒得做审核。
也讨厌被小粉红们喷。
提个外行问题,网站没有拒绝相同地址高频访问的功能吗?实现这个功能很困难吗?
这种网站,经常会有警察局来访问,做这种拒绝相同地址高频访问的功能,很容易误伤的。
这种情况,可供选择的方式非常多了,只是这次正好大家都选择了错误的方式。
有是有,各大厂开放出来的API,都会有访问频次限制。大厂实现起来不困难,小厂就麻烦了
@@0xLTMD 这次就是二把刀遇到了二把刀。
手慢完美错过板凳
不能总是你啊。
12306当年被爬死那么多次,也没看见抢票App被端啊。 感觉就是看官老爷的心情。
你也不看看黄牛是谁家开的
我就是猎豹移动的,当年做抢票软件的时候,我就在里面。
th-cam.com/video/ADYZFHAZ6DQ/w-d-xo.html
可以看看这个故事。
我擦,我一不小心把我自己服务器搞挂了也得进去了
你自己不要去报案就好了。
@@StorytellerFan 哈哈
中国政府网站正常访问都会崩溃,😂
用代理ip呀!
能够有那个心思,也就不会出这种事情了。
还是太粗心大意了。
用selenium慢慢爬,大家都安全。
这种事情,肯定是两边都很漫不经心了。
这个确实很值得谈一下,有时候想统计一下网站数据,怎样不踩线,安全第一
还是要人看着的,不能在离开人之后,让这种大杀器自己跑。
就像是人离开家了,炉子上还烧着汤,很危险的。
说了个寂寞
失业在家,就是因为寂寞了,出来坎山。
这什么程序猿,不晓得整个代理去爬吗!直接就让人给通过IP给找到了!感觉处罚有点重了
大家都不觉得爬虫是个什么大事儿。
@@StorytellerFan 政府里头一群胀干饭的!居然崩溃了这么久才解决!
真要查你开什么代理都没用,这就是个追查成本问题
@@度空-u5r 你可以认为这是一个偶然。
写while要谨慎
还是要小心的,特别是拿别人的开源代码来修改,要认真的把所有的代码都读通的。
过5000了!!!
是啊,还需要再接再厉啊。
学艺不精啊!哈哈哈,你把别个网站给人干趴下了!
一开始还没趴,但是加了验证码,就直接趴了。
我们也被攻击了
不就行了
挂掉了,可以报警。
@@StorytellerFan 我的意思是怎么不找借口🤣
“我们只是被人做成了肉鸡,不是我们干的”
用华春莹的话说,“网络空间虚拟性强,溯源难,行为体多样,在调查和定性网络事件的时候应拿出充分的证据,不能无端猜测。一些官员口无遮拦,动辄说事儿,极不负责任。我们对此坚决反对。”
🤣🤣🤣
狡辩这种事情,还是要有最基本的条件。
否则的话,就只能供认不讳了。
吓出一身汗,我是爬国外网站没问题吧?在我理解来看,网站你上线,本来就是给别人访问的,至于用什么方式访问,那管不着吧,访问量一大,网站就要崩,是不是自己技术也有问题
爬虫要遵守robots.txt里的要求,否则属于非法操作,在法治国家会吃官司,在不那么法治的国家… 至少也是违背了使用互联网的基本道德。
还是要有一个基本礼仪的。
穿着暴露的女生上街被骚扰了,到底应该怪谁呢?
@@dreammaker2018 robots.txt本来就是君子协定,没听说有法律效力,以前看过一个新闻,有个站只让googlebot爬,其他不让爬,苹果就不干了,applebot一样爬也没什么啊
@@0xLTMD 整个互联网本来就是由一系列君子协定组成的。有意违反这些君子协定相当于破坏互联网的小人行为。至少在我所在的地方,如果有人不遵守robots.txt导致严重后果的,打起官司来一定会输
@@StorytellerFan 不知道为什么会拿骚扰女生举例,比如我现在爬的财经快讯,页面不要授权,要不我就一分钟手动刷新一次页面,要不我就搞个爬虫一分钟访问一次,把最新新闻推到我桌面,这就是用软件代替了手工的繁琐和麻烦,跟骚扰没关系吧。视频中我觉得被判也不是爬的关系,而是当DDOS黑客攻击在判了
沙发
今天手快啊。