分类 折腾 下的文章

作为一名职场螺丝钉,工作上的事通常都比较单一,不涉及复杂的管理,但还是常常出现丢三落四,或是放着重要的任务不处理却忙于各种无关紧要的小事。为了改变这种状况,看了不少时间管理方面的资料,涉及有GTD、柳比歇夫时间统计法和晨间日记。今天开始,用几篇文章介绍这些方法,首先来看GTD。GTD是Get Things Done的缩写,是David Allen提出的一套个人时间管理系统,名称是来自他的书名...

接上篇《Python 爬虫:模拟登录知乎》。分析页面请求LZ准备从知乎的话题页抓取所有的话题及其结构,在页面上获取话题共有两类ajax request,分别是「显示子话题」和「加载更多」,两者都是一次输出10个话题。request url如下:https://www.zhihu.com/topic/19776749/organize/entire?child=&parent=1955...

在BeautifulSoup中,用contents或children遍历子节点的时候,如果节点下存在字符串,则会同时获取Tag和NavigalbeString对象。这是一个非常坑爹的特性,一方面通常获取子节点主要是得到Tag,另一方面,bs已经提供了strings及stripped_strings单独获取节点下的字符串,这里就是多此一举。下面以contents为例,来看看这个问题的具体情况并...

接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便从某一个页面(通常是首页)开始抓取,然后提取页面中的URL,再根据提取到的URL去抓下一个页面。但对...

前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下:# 读取query with open('query_20w.txt', 'r', encoding='utf-8') as fq: query = fq.readlines() # 读取股票实体 with open('entity.txt'...