今年考虑买房,想着做点什么,所以爬取了Fang.com的数据……
但爬取的数据在买房中基本用不上,如果想着依托于各种数据来作分析,那真的需要你有扎实的数据分析基础和对房价市场的了解。不然面对一大堆数据可能也不知从何入手还有可能造成误区。
- 功能:爬取房价、房型等数据
- 工具:node, crawler
- 难度等级: ★
- 项目地址: https://github.com/zj-john/houseCrawler
编码之前
目标
爬取网站所有二手房的数据信息,信息采集需要精确到具体房子的detail页面中,爬取的数据放在本地的数据库中
依赖的包
|
|
编码
爬取
|
|
SQL
|
|
后续
- 针对反爬,检测到获取不到数据(需要输入验证码的页面),记录报错url
- 爬取完成后,针对报错url进行二次爬取
- 全部爬取完成后,执行sql导出为excel文件