用python画苹果_Python爬取京东IphoneX用户评论并绘制词云

admin•2025-09-17 11:55:23•数码科技•阅读51

2023年12月13日发(作者：characteristic)

用python画苹果_Python爬取京东IphoneX用户评论并绘制词

云

目标爬取京东商城上iPhone X用户评论数据；

使用jieba对评论数据进行分词处理；

使用wordcloud绘制词云图。

目前京东商城只会展示商品的前100页评论，所以我们能爬取到的评论只有1000条。

不过如果区分下好/差/中评分别爬取的话，理论上应该能保存3000条评论。

爬虫部分打开京东iphone X商品页面，进入控制台找到我们想要的用户评论，评论的接口地址也就找到了。

然后我们会发现这个接口地址是可以直接访问的，并不需要post参数，直接get就行，后面发现，连header都不需要设置，这样问题就很简

单了。

分析接口地址我们可以看到有几个参数：

productid：商品编号

score：好差评（0表示全部评论）

sortType：推荐排序/时间排序

page：页码

pagesize：每页显示评论数

还有两个没搞明白，不过不重要了，我们需要的就是写个循环传入page参数就行了。

接口地址返回的数据不是标准的json格式，我们需要手动处理下。

1.去掉前面的‘fetchJSON_comment98vv56725(’；

2.去掉末尾的‘);’；

包加载数据处理就行了。

循环获取每个页面的评论数据，保存到本地。

绘制词云

绘制词云主要用到两个包，一个是jieba，用于文本分词的，一个是wordcloud，用于绘制最后的词云。参数比较多，大家可以直接访问

jieba+wordcloud去查看。背景图片

最后效果如下

词云

代码部分# -*- coding:utf-8 -*-import requestsimport jsonimport jiebafrom import imread

from wordcloud import WordCloud, STOPWORDS, ImageColorGeneratorimport as pltdef jd_spider(page):

url = '/comment/?

(page) #用于存储单页评论，每页评论保存一次

callback=fetchJSON_comment98vv56693&productId=5089253&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0

comment = ''

#无需设置header，直接访问就行了

response = (url)

data = unicode(t,'GBK').encode('utf-8') '''

接口地址返回的不是标准json数据，需要进行处理

去掉头部的‘fetchJSON_comment98vv56693(’和‘);’两部分

然后再用json包读取数据就可以了

'''

data = ('(',1)[1]#根据（进行切片一次处理，取第二部分

data = data[0:len(data)-2]#然后去掉后面的）和；

data_json = (str(data))['comments'] #循环读取每条评论，通过换行符连接起来

for i in list(range(len(data_json))):

comment = comment+data_json[i]['content'].encode('utf-8')+'n'

print '****Page %d has been saved****'%(page) return comment#将读取的数据保存到本地txt文件def

save_comments(comments):

with open('','a') as f:

(comments)'''

由于京东限制了，只展示前100页评论

循环99次就好了，后面返回的都是空页面

'''for page in list(range(99)):

page = page+1

comments = jd_spider(page)

save_comments(comments)print '****jd_spider@Awesome_Tang****''''

绘制词云部分

'''back_color = imread('') # 解析该图片wc = WordCloud(background_color='white', # 背景颜色

max_words=1000, # 最大词数

mask=back_color, # 以该参数值作图绘制词云，这个参数不为空时，width和height会被忽略

max_font_size=100, # 显示字体的最大值

font_path="/Users/tangwenpan/Downloads/", # 解决显示口字型乱码问题

random_state=42, # 为每个词返回一个PIL颜色

# width=1000, # 图片的宽

# height=860 #图片的长)# 打开保存的评论数据text = open('').read()def word_cloud(texts):

words_list = []

word_generator = (texts, cut_all=False) # 返回的是一个迭代器

for word in word_generator: if len(word) > 1: #去掉单字

words_(word) return ' '.join(words_list)

text = word_cloud(text)

te(text)# 基于彩色图像生成相应彩色image_colors = ImageColorGenerator(back_color)# 显示图片(wc)# 关闭

坐标轴('off')# 绘制词云()

(r(color_func=image_colors))

('off')# 保存图片_file('')print ' has bee saved!'

一直觉得词云是个蛮好玩的东西，想自己也做下玩玩，所以这次也就是想着先做点东西出来，代码部分可能就比较粗糙了，后期有时间再改

改。

作者：Awesome_Tang

发布者：admin，转转请注明出处：http://www.yc00.com/num/1702408333a1214311.html

评论数据保存地址绘制

admin

网站建设
SQL Server 2008 数据库误删除数据的恢复
SQL Server中误删除数据的恢复本来不是件难事，从事务日志恢复即可。但是，这个恢复需要有两个前提条件： 1. 至少有一个误删除之前的数据库完全备份。 2. 数据库的恢复
admin
1月前
190
网站建设
恢复希捷硬盘丢失数据的方法
希捷硬盘数据恢复软件在今天的软件市场中，有许多硬盘恢复工具，但是它们的质量差异很大。一旦您选择了劣质的希捷硬盘恢复软件，您不仅会以失败告终，还会对硬盘造
admin
1月前
180
网站建设
【数据治理】数据元、元数据、主数据、参考数据概述
【数据治理】数据元、元数据、主数据、参考数据概述数据元什么是数据元： 《GBT 19488.1 电子政务数据元第1部分：设计和管理规范》里是这样定义的： 数据元
admin
1月前
180
网站建设
BLE4.0核心规格（八）Bluetoothdevice address 蓝牙设备地址详解
文章目录1 public device address1.1 BREDR public device addressBLUETOOTH DEVICE ADDRESSINGReserved Addresses1.2 LE public de
admin
1月前
230
网站建设
蓝牙地址
以下是截取 core 4.2片段：Each Bluetooth device shall be allocated a unique 48-bit Bluetooth device address (BD_ADDR
admin
1月前
200
网站建设
解决：centos7如何解决网络不可达和wget: 无法解析主机地址 “downloads.mysql.com”
遇到此类问题可能会有多重解决方法，需要一个一个的去排除。1、查看自己的网络设置是不是设置的NAT模式，设置完成后再去ping一下网络地址。2、ping一下百度看能不能拼成功，
admin
1月前
220
网站建设
oracle数据连接断开连接,ORACLE自动断开数据库连接解决办法
ORACLE自动断开数据库连接解决办法最近，有客户提出在系统的应用中出现数据库频繁自动断开连接(每10分钟)的异常现象，通过查找学习，找到如下两种解决方法。供大家参考。方法一
admin
1月前
210
网站建设
SpringBoot-古诗文学习系统的设计与实现-91747（免费领源码+开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案
摘要随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，古诗文学习系统当然也不能排除在外。古诗文学习系统是以实际
admin
1月前
190
网站建设
在UE中利用动捕数据提升项目效率无穿戴高精度易上手
在虚拟现实、游戏开发、影视制作等领域中，动作捕捉技术与实时渲染引擎的结合已经越来越紧密。UE作为业界领先的3D创作平台，受到了众多开发者的青睐，DS FUN-UE插件能够帮助开发者更便捷地在UE平台中利用动捕数据进行高效创作，提升项目效率。
admin
1月前
190
网站建设
五、程序员指南：数据平面开发套件
| Minimum Threshold | 0 | 1022 | 14 x queue size | | Maximum Threshold | 1 | 1023 | 12 x queue size | | Inverse Mark P
admin
1月前
220
网站建设
MySQL误删除 binlog 还原恢复已删除数据实战超详细
硬盘有价，数据无价，数据库执行，谨慎操作！ binlog日志还原不适用于直接删表删库的误操作！ 目录实战恢复 1、导出相关
admin
1月前
150
网站建设
linux mysql 数据恢复_怎样恢复Mysql数据库误删除后的数据
导读在日常运维工作中，对于mysql数据库的权限的规避，SQL审核优化、数据备份恢复就变成了，工作必备技能；数据库对于网站的重要性使得我们对mysql数
admin
1月前
180
网站建设
【分享】数据恢复大师6.10[特殊字符]恢复手机误删的数据[特殊字符]
【应用名称】数据恢复大师【应用版本】6.10【软件大小】71mb【适用平台】安卓【下载链接】:https:pan.xunleisVOOwtl2UjtwrpW3iNHTJn4b8A1?pwdrhkr#【应用简介】非常实用的数据
admin
1月前
180
网站建设
如何使用EXIF数据向摄影大师学习
There’s a hidden advantage to digital photography, and it’s called Exif. See what it is, how it can help you, and how yo
admin
1月前
230
网站建设
TCGA数据下载教程：使用官方gdc-client软件下载
前言本教程涉及内容： TCGA网页数据下载，检索方式gdc-client软件安装和配置使用gdc-client下载TCGA数据 [补充] 怎么根据TCGA官方的API下载数据&#
admin
1月前
230
网站建设
Elasticsearch：在本地使用 Gemma LLM 对私人数据进行问答
在本笔记本中，我们的目标是利用 Google 的 Gemma 模型开发 RAG 系统。我们将使用 Elastic 的 ELSER 模型生成向量并将其存储在 Elasticsearch 中。此外&#xff0c
admin
1月前
230
网站建设
[EAI-005] 具身视觉语言规划（EVLP）数据集基准汇总
参考论文：Core Challenges in Embodied Vision-Language Planning 论文作者：Jonathan Francis, Nariaki Kitamura,
admin
1月前
250
网站建设
由于拔插网线导致linux自动获取ip地址丢失
这几天遇到一个问题，由于之前将电脑网线拔了，导致虚拟机安装的linux系统ip丢失，连网卡名称en66667也变成了ens33,之前配置ip的文件也丢失了。由于我在上面安装了mysql数据库，没有ip，数据库也无法连接，所以需要解决。解
admin
1月前
250
网站建设
C# 获取QQ群数据的实现
一,分析 1,群数据获取当访问http:qun.qqair#mygroup我们通过Fiddler可以查看到QQ群列表是从http:qun.qqairgroupmine?wa这个URL获取到的群列表信息其中返回的jso
admin
1月前
160
网站建设
腾讯地图经纬度地址逆解析以及城市code值，关键字搜索地址
经纬度地址逆解析获取城市名以及城市code值腾讯逆解析获取code值geoCode(e){return new Promise((rel,rej) >{uni.request({发送请求url: https:apis.m
admin
1月前
210

发表回复

评论列表（0条）

暂无评论

用python画苹果_Python爬取京东IphoneX用户评论并绘制词云

发表回复

评论列表（0条）

联系我们

400-800-8888

用python画苹果_Python爬取京东IphoneX用户评论并绘制词云

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888