Saturday, November 26, 2016

京东爬虫分析中国女性罩杯分布情况


 

作一个工科小男生,不是很懂罩杯到底是什么意思的,不过在做上面这个项目的过程中,发现在商品的评论中会有每个人购买该商品的颜色和大小的数据,哈哈~,这就激发了我的脑洞了,作为一个热(te)爱(bie)科(men)学(sao)的工科男瞬间就想到是不是通过这个分析一下中国女生/人的罩杯大小呢(滑稽~)

一、找到了京东的文胸分类
二、抓取所有商品祭出F12神器,分析一下代码:
一共有文胸分类是:当然,过程不是这么简单的,因为京东同一种商品的不同品种的id是不一样的!!!!

如下图!还需要做进一步处理,其中的辛酸就不说了。三、获取所有商品的所有评论

最复杂的一步,挂了一晚没管他,今天早上抓好了

一共有13万页~~注意是页的数据四、分析评论数据

因为评论里面有很多数据,但是我们只需要size这一项,做一次处理~

有137千页的size数据:合并:有14M,一共1515888条数据,150万!!

五、处理size数据

因为不同的店家的size标注不一样,所以需要慢慢的分析一下。。。。

然后还要去除无用的数据

六、分析结果可以看到一共有130万左右有效数据

其中A+B杯占了80%以上,展示了中国女人“太平公主”的气质~~

占比最大的是B杯,还好不是A…

如果你找到一个C..羡慕你~因为那是仅有的15%。。。


以下按照省份分布做柱状图分析~

一、京东各省罩杯分布


发现一个奇怪的点~:二、京东罩杯各型号在各省分布三、A杯各省分布
四、B杯各省分布
五、C杯各省分布
六、D杯各省分布
七、E杯各省分布
八、F杯各省分布
九、G杯各省分布
十、H杯各省分布(转自知乎)

No comments:

YouTube Channel