拾月发布的文章

解决BeautifulSoup中同时返回Tag和NavigalbeString对象的问题

时间: 2016-01-26
分类: 折腾
评论

在BeautifulSoup中，用contents或children遍历子节点的时候，如果节点下存在字符串，则会同时获取Tag和NavigalbeString对象。这是一个非常坑爹的特性，一方面通常获取子节点主要是得到Tag，另一方面，bs已经提供了strings及stripped_strings单独获取节点下的字符串，这里就是多此一举。下面以contents为例，来看看这个问题的具体情况并...

Python爬虫：模拟登录知乎

时间: 2016-01-20
分类: 折腾
评论

接上一篇《Python 爬虫：抓取知乎某一话题下的全部问题》，需要说明的是我换了开发环境及一些工具库，现在用的是环境：Python 3.5HTTP请求：requestXML处理：BeautifulSoup + lxml能够抓取一个话题下的问题后，我在想要如何抓取知乎全站数据呢？传统的方法，随便从某一个页面（通常是首页）开始抓取，然后提取页面中的URL，再根据提取到的URL去抓下一个页面。但对...

显示Python程序运行进度

时间: 2016-01-19
分类: 折腾
评论

前两天做query分析时候，需要从20w随机query中筛选出包括股票实体的query，股票实体大概5000多个。于是写了个循环处理，代码如下：# 读取query with open('query_20w.txt', 'r', encoding='utf-8') as fq: query = fq.readlines() # 读取股票实体 with open('entity.txt'...

hexo使用小结

时间: 2016-01-13
分类: 折腾
2 条评论

去年年底的时间，决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来，随后的几天开始折腾hexo，大概26号基本搞定。碰到了两个坑：使用git同步到github问题报错，后来发现可以改用ssh的方式，终于搞定。随后又发现每次同步CNAME文件都会被删除，后来把CNAME文件放到source文件夹中得以解决。我现在写博客的流程基本上是：在Stacke...

Python爬虫：抓取知乎某一话题下的全部问题

时间: 2016-01-12
分类: 折腾
评论

因为自己在做搜索产品，希望能对搜索技术有些了解，偶尔也会做些数据及文本方面的分析，所以今年给自己设了一个学习Python的任务，方向就是爬虫及数据分析。在大学学过一点C，虽然从来没有写出过一个完整的程序，但对编程的基本概念（比如变量、函数、类型、对象）都有了解。去年就想着学Python，基本语法都看过，只是每当要实现一个完整功能的时候，都觉得挺难而放弃。所以这次不准备系统看语法了，直接开始练...