All Projects → hunterhug → Taobaoscrapy

hunterhug / Taobaoscrapy

😩Tool For Taobao/Tmall| 儿时玩具已经过时

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Taobaoscrapy

Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Stars: ✭ 2,129 (+1358.22%)
Mutual labels:  spider, scrapy, taobao
Reptile
🏀 Python3 网络爬虫实战(部分含详细教程)猫眼 腾讯视频 豆瓣 研招网 微博 笔趣阁小说 百度热点 B站 CSDN 网易云阅读 阿里文学 百度股票 今日头条 微信公众号 网易云音乐 拉勾 有道 unsplash 实习僧 汽车之家 英雄联盟盒子 大众点评 链家 LPL赛程 台风 梦幻西游、阴阳师藏宝阁 天气 牛客网 百度文库 睡前故事 知乎 Wish
Stars: ✭ 1,048 (+617.81%)
Mutual labels:  spider, scrapy
Feapder
feapder是一款支持分布式、批次采集、任务防丢、报警丰富的python爬虫框架
Stars: ✭ 110 (-24.66%)
Mutual labels:  spider, scrapy
Image Downloader
Download images from Google, Bing, Baidu. 谷歌、百度、必应图片下载.
Stars: ✭ 1,173 (+703.42%)
Mutual labels:  spider, scrapy
Scrapy demo
all kinds of scrapy demo
Stars: ✭ 128 (-12.33%)
Mutual labels:  spider, scrapy
Crawlab
Distributed web crawler admin platform for spiders management regardless of languages and frameworks. 分布式爬虫管理平台,支持任何语言和框架
Stars: ✭ 8,392 (+5647.95%)
Mutual labels:  spider, scrapy
Alipayspider Scrapy
AlipaySpider on Scrapy(use chrome driver); 支付宝爬虫(基于Scrapy)
Stars: ✭ 70 (-52.05%)
Mutual labels:  spider, scrapy
Seeker
Seeker - another job board aggregator.
Stars: ✭ 16 (-89.04%)
Mutual labels:  spider, scrapy
Hive
lots of spider (很多爬虫)
Stars: ✭ 110 (-24.66%)
Mutual labels:  spider, scrapy
Scrala
Unmaintained 🐳 ☕️ 🕷 Scala crawler(spider) framework, inspired by scrapy, created by @gaocegege
Stars: ✭ 113 (-22.6%)
Mutual labels:  spider, scrapy
Examples Of Web Crawlers
一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )
Stars: ✭ 10,724 (+7245.21%)
Mutual labels:  spider, taobao
App comments spider
爬取百度贴吧、TapTap、appstore、微博官方博主上的游戏评论(基于redis_scrapy),过滤器采用了bloomfilter。
Stars: ✭ 38 (-73.97%)
Mutual labels:  spider, scrapy
Jspider
JSpider会每周更新至少一个网站的JS解密方式,欢迎 Star,交流微信:13298307816
Stars: ✭ 914 (+526.03%)
Mutual labels:  spider, scrapy
Django Dynamic Scraper
Creating Scrapy scrapers via the Django admin interface
Stars: ✭ 1,024 (+601.37%)
Mutual labels:  spider, scrapy
Mailinglistscraper
A python web scraper for public email lists.
Stars: ✭ 19 (-86.99%)
Mutual labels:  spider, scrapy
Taobao duoshou
使用Scrapy采集淘宝数据,Flask展示
Stars: ✭ 63 (-56.85%)
Mutual labels:  scrapy, taobao
Decryptlogin
APIs for loginning some websites by using requests.
Stars: ✭ 1,861 (+1174.66%)
Mutual labels:  spider, taobao
Icrawler
A multi-thread crawler framework with many builtin image crawlers provided.
Stars: ✭ 629 (+330.82%)
Mutual labels:  spider, scrapy
Funpyspidersearchengine
Word2vec 千人千面 个性化搜索 + Scrapy2.3.0(爬取数据) + ElasticSearch7.9.1(存储数据并提供对外Restful API) + Django3.1.1 搜索
Stars: ✭ 782 (+435.62%)
Mutual labels:  spider, scrapy
Capturer
capture pictures from website like sina, lofter, huaban and so on
Stars: ✭ 76 (-47.95%)
Mutual labels:  spider, scrapy

天猫淘宝关键字商品搜索说明

已经太久远了,不再维护了。

本人开了新库,使用Golang语言, 更多精彩请移动到https://github.com/hunterhug/GoTaoBao, 更多参考:一只尼玛博客园

仍然能跑,2017/6。

一个抓取淘宝的Python爬虫
---------------------------------------------------------

一个抓取淘宝天猫关键字搜索商品的爬虫使用python3.4,爬虫程序已经封装好
支持抓取商品标题/商品价格/商品销量/商品图片等
使用请直接点击exe文件夹中后缀为exe的文件或者run.bat

------------------------------------------------------------

一.项目结构

-----taobaocomment
	-------source	源代码
	-------data 原始数据
	-------image 你要的图片
	-------excel	你要的结果
	-------exe.rar	请解压变成exe
	-------exehelp.rar	请解压变成exehelp
	-------run.bat	你要跑的脚本
	-------runhelp.bat 

二.本地环境准备

安装python3。然后设置环境变量。

1.安装依赖模块

pip3 install -r requirement.txt

Windows用户请自行装库:

import urllib.request, urllib.parse, http.cookiejar
import os, time, re
import http.cookies
import xlsxwriter as wx
from PIL import Image
import pymysql
import socket
import json
import datetime

如果安装模块失败, 那么可能是cx_Freeze下载失败, 从万能仓库 下载对应版本的打包库,然后:

pip3 install cx_Freeze-4.3.4-cp35-none-win_amd64.whl

2.打包exe

转到源代码文件夹source, 执行打包命令!

python setup.py build

exe.win32-3.4文件夹移到根目录,改名为exe, 同样python setuphelp.py build打包辅助工具, 移动到根目录, 改名exehelp.

三.开始使用

正常执行

cd source
python mtaobao.py

或者

run.bat

有时候程序运行中途断网或者其他原因,如误点下载图片,而图片几万张不耐烦终止程序,导致程序
运行没完成。不必担心,只要原始数据在,一切好办。
将 data 中的原始数据移到 help 文件夹中继续!

cd source
python help.py

或者

runhelp.bat

四.演示

Do not understand?contact me.
author:hunterhug
2015/11

如果你觉得项目帮助到你,欢迎请我喝杯咖啡

微信 微信

支付宝 支付宝


补充

1.2016/7/7改bug

请查看JSON.json,淘宝json数据字段变更,导致程序出错

淘宝需要验证时,请往subcookie.txt填东西,参考pdf

'手机折扣'字段失效

Traceback (most recent call last):
  File "mtaobao.py", line 322, in <module>
    itemlist.append(item['mobileDiscount'])
KeyError: 'mobileDiscount'

'URL地址'字段失效

Traceback (most recent call last):
  File "mtaobao.py", line 328, in <module>
    itemlist.append(item['auctionURL'])
KeyError: 'auctionURL'

已经更正

参考JSON可以加更多字段,请自行增加修改

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].