接上篇《Python 爬虫:模拟登录知乎》。分析页面请求LZ准备从知乎的话题页抓取所有的话题及其结构,在页面上获取话题共有两类ajax request,分别是「显示子话题」和「加载更多」,两者都是一次输出10个话题。request url如下:https://www.zhihu.com/top...
在BeautifulSoup中,用contents或children遍历子节点的时候,如果节点下存在字符串,则会同时获取Tag和NavigalbeString对象。这是一个非常坑爹的特性,一方面通常获取子节点主要是得到Tag,另一方面,bs已经提供了strings及stripped_strin...
接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便...
前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下:# 读取query
with open('query_20w.txt', 'r', encoding='utf-8') as fq:
quer...
去年年底的时间,决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来,随后的几天开始折腾hexo,大概26号基本搞定。碰到了两个坑:使用git同步到github问题报错,后来发现可以改用ssh的方式,终于搞定。随后又发现每次同步CNAME文件都会被删...
- « 前一页
- 1
- ...
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 后一页 »