[爬虫技术]一个抓取淘宝和天猫平台商品信息的蜘蛛实现(C#)

一个搞JAVA的朋友向他的朋友介绍了我们是专门做爬虫的，正好他的朋友最近在搞一个项目，是需要抓取主流电商商品价格，所以他就让他的朋友来咨询下我们。

某日我去了朋友的朋友的公司，大概5-6个人在那等我了，他们在讨论如何抓取这些信息，他们目前的方案是用WebBrowser并模拟用户点击操作来抓取数据，因为他们觉得电商的店铺商品信息模版每家都不同，而且数据都是动态加载的，所以没法用正则获取之类的（我都表示听不懂了）。

因为以前没有抓过淘宝这类电商网站（我们小公司，搞不了大数据分析-_-!)，所以我花了几分钟时间，分析了下淘宝和天猫的页面，模版是不一样，但是需要的数据都是JSON格式返回，这种数据流用HttpRequest方式是再友好不过的了！我就和他们说不需要用Web方式抓取，那样的效率是相当低的，直接抓源码才是王道。

这是搜索店铺关键字“青菜”得到的结果，分析数据包，得到获取数据的地址为：

https://tmatch.simba.taobao.com/?name=dpad&o=j&elemtid=7&count=15&pid=430409_1006&keyword=%C7%E0%B2%CB

这个地址获取到的代码（部分示例）：

p4presult =[{"REDKEY":"\u6ce1\u83dc\u814c\u5236","LOCATION":"","WANGWANGID":"mslibilly","GRADE":"73068","ISMALL":"0","EURL":"https:\/\/click.simba.taobao.com\/cc_im?p=%C7%E0%B2%CB&s=551112387&k=417&e=7YCatPHk%2FF5hoLrwsPpYV3puZ%2Fzagl5qD5xrGhdGfNFR%2FMI8Ma2TJp%2BEXxfslVeLi1JzEvsCyQWWGvcByUVtX2eS%2B3UZTe47MM%2B3jOJi2zW%2FVBgc1EAWB5X%2FsF%2FL%2BC29nmE%2BkkFcKYE8qbPMVyo4DaVZk9GTLuFuveNkwDZO%2B4dGFiz9B1zOtihdfoeHEuwzFyKSMYwxw2suwttNEWKHRt1S4XMZVG3ZG%2FTfPOTEP3I%2FAziju%2BHWPSv3KlO5q2yrE51XnaPzYhPPXtx8ota2cAxZLhp6giIWOQdKU6bV%2Bc4yIKIlmswCq4zyJPUuvLna3PJEGgbVC32jzB2stJTlhOuTLzOI%2FOAyK46g51dBbTX6TxBh0Blia1cmBl3YwvWUnb8MUGm%2Fw5jrnjTSKUokU0BcjQpXcTkT","SELLERID":"70759806","CREATIVEELEMENTS":{"DESCRIPTION":"","DISPLAYURL":"https:\/\/msesd.taobao.com\/index.htm?spm=2013.1.w5002-9925530888.2.cuAsCj","IMGURL":"https:\/\/img.alicdn.com\/imgextra\/i1\/14344067885902339\/TB282E_bFXXXXcOXXXXXXXXXXXX_!!12414344-0-saturn_solar.jpg_sum.jpg"

这么友好的数据，不分析可惜了。还有WebBrowser那种方式只是有辱蜘蛛程序。

同样的分析方式，进入店铺，抓取店铺里的数据地址：

https://shop106956264.taobao.com/i/asynSearch.htm?_ksTS=1462893454477_130&callback=jsonp131&mid=w-4253175477-0&wid=4253175477&path=/search.htm&search=y&spm=a1z10.3-c.w4002-4253175477.82.HMjruY&viewType=grid&pageNo=1

这里是店铺的商品信息了，页码参数:pageNo，切换页码可获取店铺全部商品信息

<a class=\"item-name J_TGoldData\" href=\"
//item.taobao.com/item.htm?id=36610888871\" target=\"_blank\" data-gold-url=\"/inshopse\" data-gold-data='{\"gokey\":\"at_bucketid=inshop_c_alg:6350;&srppage=1&scid=&lf_aclog=
5-36610888871-28-hotsell_desc-389369376&?src=shopsystem--11.227.2.38&sort=volume:des&sellerid=389369376&tab=all&ss_bucket=20&rank_src=inshop_pc_tb&buyernick=adobo&navigator=property&s=0&n=28&app=inshop&outfmt=json&bts=
%7B%22inshop_c_alg%22%3A%7B%22bucket%22%3A%7B%22name%22%3A%22ltr%22%2C%22id%22%3A6350%2C%22groups%22%3A%7B%22inshop_c%22%3A%22%22%2C%22qp4main%22%3A%22%22%2C%22qrs4inshop%22%3A%22%22%2C%22sp%22%3A%22rewrite_query%3Don%22%7D%7D%7D%7D&stats_click=&rn=
d58a095b794cb043cdf5a9630ff88d5e\", \"cna\": \"bfYLEF+bQ0MCAXLeROqBYCGK\",\"bc_type\":\"c\" }' > DIY佛牌链子
¥68.00

下面写了个示例程序（C#.NET over VS2013）

这里简单讲了下电商数据的一般获取方式，同理，天猫，JD等的获取方式也都大致相同，不要把抓取数据想的那么复杂，更不能只看表面的东西，蜘蛛程序和正常用户的获取数据路径有时候并不相同。所以写蜘蛛程序尽量避免站在普通用户的角度去获取想要的数据。

这里提供下示例程序的源码供大家参考下：

http://www.zimiclub.com/thread-9-1-1.html

相关推荐

取消回复欢迎你发表评论:

淘宝电商客服工作托管后的好处（淘宝托管一个月多少钱）

选择淘宝托管客服服务的利弊（选择淘宝托管客服服务的利弊分析）

淘宝618年中大促，客服托管服务能起到什么作用?

网店客服托管(外包)好吗?电商客服托管怎么样?

托管客服如何提升淘宝天猫网店转化率?

抖音小店托管客服后有哪些好处?（抖音小店客服工资多少）

第三方客服托管服务在春节期间对淘宝店铺的好处

淘宝客服托管可以让网店店主更加省时省心省力吗?

淘宝可以微信支付了?客服:目前仅针对部分用户逐步开放，后续将全面覆盖

淘宝可以微信支付了?客服:将全面覆盖