分类 折腾 下的文章

接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便从某一个页面(通常是首页)开始抓取,然后提取页面中的URL,再根据提取到的URL去抓下一个页面。但对...

前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下:# 读取query with open('query_20w.txt', 'r', encoding='utf-8') as fq: query = fq.readlines() # 读取股票实体 with open('entity.txt'...

去年年底的时间,决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来,随后的几天开始折腾hexo,大概26号基本搞定。碰到了两个坑:使用git同步到github问题报错,后来发现可以改用ssh的方式,终于搞定。随后又发现每次同步CNAME文件都会被删除,后来把CNAME文件放到source文件夹中得以解决。我现在写博客的流程基本上是:在Stacke...

因为自己在做搜索产品,希望能对搜索技术有些了解,偶尔也会做些数据及文本方面的分析,所以今年给自己设了一个学习Python的任务,方向就是爬虫及数据分析。在大学学过一点C,虽然从来没有写出过一个完整的程序,但对编程的基本概念(比如变量、函数、类型、对象)都有了解。去年就想着学Python,基本语法都看过,只是每当要实现一个完整功能的时候,都觉得挺难而放弃。所以这次不准备系统看语法了,直接开始练...

在 Windows 上,ipython notebook 默认的工作目录是 C 盘的用户目录,实际使用中,可能希望切换到其他目录,比如 D 盘。方法其实也非常简单,只需要在命令行下切换到工作目录,再执行ipython notebook启动 ipython notebook 即可。如下:C:\Users\Administrator>d: D:\>cd @me\coding D:...