一个搞JAVA的朋友向他的朋友介绍了我们是专门做爬虫的,正好他的朋友最近在搞一个项目,是需要抓取主流电商商品价格,所以他就让他的朋友来咨询下我们。
某日我去了朋友的朋友的公司,大概5-6个人在那等我了,他们在讨论如何抓取这些信息,他们目前的方案是用WebBrowser并模拟用户点击操作来抓取数据,因为他们觉得电商的店铺商品信息模版每家都不同,而且数据都是动态加载的,所以没法用正则获取之类的(我都表示听不懂了)。
因为以前没有抓过淘宝这类电商网站(我们小公司,搞不了大数据分析-_-!),所以我花了几分钟时间,分析了下淘宝和天猫的页面,模版是不一样,但是需要的数据都是JSON格式返回,这种数据流用HttpRequest方式是再友好不过的了!我就和他们说不需要用Web方式抓取,那样的效率是相当低的,直接抓源码才是王道。
这是搜索店铺关键字“青菜”得到的结果,分析数据包,得到获取数据的地址为:
https://tmatch.simba.taobao.com/?name=dpad&o=j&elemtid=7&count=15&pid=430409_1006&keyword=%C7%E0%B2%CB
这个地址获取到的代码(部分示例):
p4presult =[{"REDKEY":"\u6ce1\u83dc\u814c\u5236","LOCATION":"","WANGWANGID":"mslibilly","GRADE":"73068","ISMALL":"0","EURL":"https:\/\/click.simba.taobao.com\/cc_im?p=%C7%E0%B2%CB&s=551112387&k=417&e=7YCatPHk%2FF5hoLrwsPpYV3puZ%2Fzagl5qD5xrGhdGfNFR%2FMI8Ma2TJp%2BEXxfslVeLi1JzEvsCyQWWGvcByUVtX2eS%2B3UZTe47MM%2B3jOJi2zW%2FVBgc1EAWB5X%2FsF%2FL%2BC29nmE%2BkkFcKYE8qbPMVyo4DaVZk9GTLuFuveNkwDZO%2B4dGFiz9B1zOtihdfoeHEuwzFyKSMYwxw2suwttNEWKHRt1S4XMZVG3ZG%2FTfPOTEP3I%2FAziju%2BHWPSv3KlO5q2yrE51XnaPzYhPPXtx8ota2cAxZLhp6giIWOQdKU6bV%2Bc4yIKIlmswCq4zyJPUuvLna3PJEGgbVC32jzB2stJTlhOuTLzOI%2FOAyK46g51dBbTX6TxBh0Blia1cmBl3YwvWUnb8MUGm%2Fw5jrnjTSKUokU0BcjQpXcTkT","SELLERID":"70759806","CREATIVEELEMENTS":{"DESCRIPTION":"","DISPLAYURL":"https:\/\/msesd.taobao.com\/index.htm?spm=2013.1.w5002-9925530888.2.cuAsCj","IMGURL":"https:\/\/img.alicdn.com\/imgextra\/i1\/14344067885902339\/TB282E_bFXXXXcOXXXXXXXXXXXX_!!12414344-0-saturn_solar.jpg_sum.jpg"
这么友好的数据,不分析可惜了。还有WebBrowser那种方式只是有辱蜘蛛程序。
同样的分析方式,进入店铺,抓取店铺里的数据地址:
https://shop106956264.taobao.com/i/asynSearch.htm?_ksTS=1462893454477_130&callback=jsonp131&mid=w-4253175477-0&wid=4253175477&path=/search.htm&search=y&spm=a1z10.3-c.w4002-4253175477.82.HMjruY&viewType=grid&pageNo=1
这里是店铺的商品信息了,页码参数:pageNo,切换页码可获取店铺全部商品信息
<a class=\"item-name J_TGoldData\" href=\"
//item.taobao.com/item.htm?id=36610888871\" target=\"_blank\" data-gold-url=\"/inshopse\" data-gold-data='{\"gokey\":\"at_bucketid=inshop_c_alg:6350;&srppage=1&scid=&lf_aclog=
5-36610888871-28-hotsell_desc-389369376&?src=shopsystem--11.227.2.38&sort=volume:des&sellerid=389369376&tab=all&ss_bucket=20&rank_src=inshop_pc_tb&buyernick=adobo&navigator=property&s=0&n=28&app=inshop&outfmt=json&bts=
%7B%22inshop_c_alg%22%3A%7B%22bucket%22%3A%7B%22name%22%3A%22ltr%22%2C%22id%22%3A6350%2C%22groups%22%3A%7B%22inshop_c%22%3A%22%22%2C%22qp4main%22%3A%22%22%2C%22qrs4inshop%22%3A%22%22%2C%22sp%22%3A%22rewrite_query%3Don%22%7D%7D%7D%7D&stats_click=&rn=
d58a095b794cb043cdf5a9630ff88d5e\", \"cna\": \"bfYLEF+bQ0MCAXLeROqBYCGK\",\"bc_type\":\"c\" }' > DIY佛牌链子¥68.00
下面写了个示例程序(C#.NET over VS2013)
这里简单讲了下电商数据的一般获取方式,同理,天猫,JD等的获取方式也都大致相同,不要把抓取数据想的那么复杂,更不能只看表面的东西,蜘蛛程序和正常用户的获取数据路径有时候并不相同。所以写蜘蛛程序尽量避免站在普通用户的角度去获取想要的数据。
这里提供下示例程序的源码供大家参考下:
http://www.zimiclub.com/thread-9-1-1.html