拾月 发布的文章

在BeautifulSoup中,用contents或children遍历子节点的时候,如果节点下存在字符串,则会同时获取Tag和NavigalbeString对象。这是一个非常坑爹的特性,一方面通常获取子节点主要是得到Tag,另一方面,bs已经提供了strings及stripped_strings单独获取节点下的字符串,这里就是多此一举。下面以contents为例,来看看这个问题的具体情况并...

接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便从某一个页面(通常是首页)开始抓取,然后提取页面中的URL,再根据提取到的URL去抓下一个页面。但对...

前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下:# 读取query with open('query_20w.txt', 'r', encoding='utf-8') as fq: query = fq.readlines() # 读取股票实体 with open('entity.txt'...

去年年底的时间,决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来,随后的几天开始折腾hexo,大概26号基本搞定。碰到了两个坑:使用git同步到github问题报错,后来发现可以改用ssh的方式,终于搞定。随后又发现每次同步CNAME文件都会被删除,后来把CNAME文件放到source文件夹中得以解决。我现在写博客的流程基本上是:在Stacke...

因为自己在做搜索产品,希望能对搜索技术有些了解,偶尔也会做些数据及文本方面的分析,所以今年给自己设了一个学习Python的任务,方向就是爬虫及数据分析。在大学学过一点C,虽然从来没有写出过一个完整的程序,但对编程的基本概念(比如变量、函数、类型、对象)都有了解。去年就想着学Python,基本语法都看过,只是每当要实现一个完整功能的时候,都觉得挺难而放弃。所以这次不准备系统看语法了,直接开始练...