全球主机交流论坛

标题: 【全球火车头论坛】分页或多页里获取的url里有中文怎么办 [打印本页]

作者: z6045670    时间: 2021-3-6 21:57
标题: 【全球火车头论坛】分页或多页里获取的url里有中文怎么办
像下面这个url里就有中文 怎么办?
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=我不会fenlei=256

甚至还有中文加代码的 例如
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=我不<br>会fenlei=256

!分页和多页链接获取只能在默认页面获取  所以默认页面无法先加工再采集 。。。
!获取的分页和多页链接也无法转码或加工 例如删除<br>

有木有火车头大佬给科普一下 不胜感激!~
作者: wjj    时间: 2021-3-6 21:58
火车头不了解
但链接中中文或者特殊符号一般都是urlencode一下
作者: z6045670    时间: 2021-3-6 22:05
wjj 发表于 2021-3-6 21:58
火车头不了解
但链接中中文或者特殊符号一般都是urlencode一下

大佬 爬虫这个东西  是不是不好学啊?只会简单的html语言 是不是没门?
作者: sky21022    时间: 2021-3-6 22:51
中文已经给你转码了,不用管。百毒这种做防采集到变态的沙雕,得用多种工具一起伺候他
作者: z6045670    时间: 2021-3-6 23:15
sky21022 发表于 2021-3-6 22:51
中文已经给你转码了,不用管。百毒这种做防采集到变态的沙雕,得用多种工具一起伺候他 ...

其实我采集的不是百毒 这个只是用来举个栗子
作者: sky21022    时间: 2021-3-7 16:55
z6045670 发表于 2021-3-6 23:15
其实我采集的不是百毒 这个只是用来举个栗子

我也是拿百度举个例子




欢迎光临 全球主机交流论坛 (https://loc.imgfree.eu.org/) Powered by Discuz! X3.4