数据采集流程--采集阿里巴巴商品信息--使用甩手工具箱进行采集
说明:此次采集是采用软件进行,需要付费(此处费用如下图)
第一步:注册登陆甩手网
http://www.shuaishou.com/products/ToolBox/
账号:*********
密码:********
第二步:下载甩手软件
第三步:安装甩手工具箱软件,点击最右测“使用”
点击立即订购
去支付
第四步:登陆阿里巴巴(1688)平台,查找产品列表页
https://s.1688.com/selloffer/offer_search.htm#beginPage=1&offset=0
beginPage为页码
第五步:复制上述地址到甩手软件抓取网址栏,点击抓取整页商品(此处为第1页)
点击下一步:
下载完成后出现下图界面:
点击下一步:
选中导出淘宝助理数据包,点击下一步:
注:此处转换后类目名称可能不成功,可以手动点击选择相应类目再继续下一步
全选,点击属性预转换
点击下一步:
全选点击下一步:
点击导出:
点击打开文件夹:
点击打开淘宝助理5201709031943.csv文件,查看转换效果
删除第一行,并将csv文件另存为xls文件
安装mysql数据库客户端navicat客户端
右击弹出导入对话框
点击下一步:
点击下一步:
点击下一步,导入成功
点击下一步:
此处可以给这个表加一个主键,另外可以将该表修改合适的字段的类型和长度,由于此表比较长,可以考虑优化进行分表存储(此处由于时间关系没有做分表+加主键+修改字段类型和长度的操作)。
点击下一步:
点击下一步后点击开始
说明:此处没有采集完全,只采集了第1页的商品信息,其他页数据采集同理
此软件也将商品图片采集下来了