京东商品评论分析(爬虫+分词+词云图)

admin•2025-09-17 07:42:15•数码科技•阅读235

京东商品评论分析(爬虫+分词+词云图)

2023年12月11日发(作者：海信e5g)

京东商品评论分析（爬虫+分词+词云图）

项目背景：

本文通过抓取京东某笔记本的评论数据，简单从几个维度进行分析，并制作用户评论的词云图。

爬取数据：

通过对以上链接进行分析，几个参数代表的含义：

**productId:**商品的ID，本项目就抓一个商品，ID不用变更。

**score:**评论类型（好：3、中：2、差：1、所有：0）

**sortType:**排序类型（推荐：5、时间：6）

**page:**第几页，京东只能抓100页的数据，不能抓到全部评论数据，就拿这一部分数据来探索下吧。

**pageSize:**每页显示多少条记录（默认10）

虽然限制只能抓取100页评论数据，但抓取过程还是很快的，没有遇到封IP的现象。

如果需要在京东上抓大量的其它数据，一般还是需要找代理IP的，不然抓不到几页就会被限。

本项目数据量比较小，抓到的数据直接存到csv文件里，再进行后续的进一步分析。

爬取数据

import numpy as np

import pandas as pd

import requests

import json

构建爬虫函数，这个爬取过程还是比较简单的。

def get_comments():

评论页是从数据库调用的，可以直接从下面这个链接，返回

json

格式评论数据

url0=u'/comment/?callback=fetchJSON_comment98&productId=1&score=0&sortType=5&

page={0}&pageSize=10&isShadowSku=0&rid=0&fold=1'

模拟浏览器访问

header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'}

for i in range(100):

url=(i)

response=(url,headers=header)

返回的

json

不是标准格式，把头

尾的字符去除

json_response=e('fetchJSON_comment98(','').replace(');','')

#json

转换为字典格式，读取评论数据

json_response=(json_response)['comments']

提取出

[

用户

id,

用户名

购买时间，评价时间，商品

，商品规格信息，用户评分，用户评论

追评

]

columns=['id','nickname','referenceTime','creationTime','referenceId','productColor','productSize','score','content']

end_columns=['userId','userName','buyTime','commentTime','productId','productColor','productSize','score','comment','afterComment']

如下循环分别提取数据

for j in range(10):

userid=json_response[j][columns[0]]

username=json_response[j][columns[1]]

buytime=json_response[j][columns[2]]

commenttime=json_response[j][columns[3]]

productid=json_response[j][columns[4]]

productcolor=json_response[j][columns[5]]

productsize=json_response[j][columns[6]]

score=json_response[j][columns[7]]

comment=json_response[j][columns[8]]

有些用户没有追评，则返回空值

try:

aftercomment=json_response[j]['afterUserComment']['content']

except:

aftercomment=''

将以上提取出的数据放到一个列表里

comment_one=[userid,username,buytime,commenttime,productid,productcolor,productsize,score,comment,aftercomment]

生成器返回提取出的列表数据

yield (comment_one)

存入

csv

文件

import csv

path=r'E:codeasusasus_'

end_columns=['userId','userName','buyTime','commentTime','productId','productColor','productSize','score','comment','afterComment']

def SaveCsv():

comments=open(path,'w',newline='',encoding='utf-8')

w=(comments)

ow(end_columns)

comments=get_comments()

for comment in comments:

ow(comment)

运行爬虫函数，爬取评论数据并保存

SaveCsv()

数据探索：

一.此款产品对应多种规格，哪种规格的评论数比较多？

侧面反映出：哪款规格的销量比较好。

提取

productId

评论总数排名前十的产品及规格

t=raw_data[['productId']]

t['productCount']=1

t=y('productId').agg('sum').reset_index()

按评论数从大到小排序

t=_values(by='productCount',ascending=False).reset_index(drop=True)

提取排名前十的产品规格及评论数

t=[:10,:]

根据产品

提取产品规格

def get_product(id):

productColor=raw_data[raw_data['productId']==id]['productColor']

_index(drop=True,inplace=True)

for i in range(len(productColor)):

if len(productColor[i])>5:

color=productColor[i]

break

return color

t['productColor']=t['productId'].apply(get_product)

从上面结果可以看出：

1.最受用户欢迎的配置是：i7处理器;8G内存；512G固态硬盘；独立显卡。

这应该也是目前市场上的主流配置。

2.经济款：i5处理器；4G内存；256G固态硬盘；独立显卡。

这款配置低一档，但是价格也会低很多。这款产品适合向价格敏感性用户推广。

二.用户购买后多久会过来评价？

评价对于电商平台上的商品来说，是很重要的部分。而探索评价间隔天数，一方面从侧面反应出物流的速度，另一方面可以看到用户会不会

及时来参与评价，可以对比销量数据，如果评价率过低，或者用户间隔很长时间才来评价，有必要制定相应的措施来促使用户及时评价。

探索用户购买多少天后评价

from datetime import date

计算日期间隔的函数

def get_gaptime(b_time,c_time):

c_time=c_(' ')[0]

c_time=c_('-')

b_time=b_(' ')[0]

b_time=b_('-')

gaptime=(date(int(c_time[0]),int(c_time[1]),int(c_time[2]))-

date(int(b_time[0]),int(b_time[1]),int(b_time[2]))).days

return gaptime

计算日期间隔

gaptime=[]

for i in range(len(raw_data)):

b_time=raw_[i,'buyTime']

c_time=raw_[i,'commentTime']

gap=get_gaptime(b_time,c_time)

(gap)

raw_data['gapTime']=ame(gaptime)

探索间隔时间的描述性统计分布

raw_data['gapTime'].describe().reset_index()

从上面数据可以看到：

1.参与评价的用户中，25%的用户在购买后，两天内就评价了。侧面说明物流时效还是很快的，现实中京东笔记本一般购买后第二天就能到

货。

2.参与评价的用户中，50%的用户在购买后，五天内评价。笔记本也算是大件商品，购买后需要使用几天，而5天并不算太长。

3.参与评价的用户中，25%的用户在购买后，12天以上才参与评价。这部分用户可能是属于比较谨慎的用户，要多用段时间，然后再根据

实际使用情况评价商品。

上述指标，同时可以作为用户画像的一个维度。

三.绘制用户评论数据的词云图

词云图可以反映出用户比较关心的点，同时利于品牌方了解用户心理，营销中也可以主打这些特点进行推广。

另外可以专门针对差评做词云图，更能针对性的解决用户体验不好的问题。

这部分分析按照本文步骤，很容易进行，如果想探索，把上面抓取的初始链接改个参数就OK，其它代码基本不用动。

用户评论数据的词云分析

import jieba

import wordcloud

from PIL import Image

import as plt

合并用户评论及追评

raw_data['text']=raw_(lambda x:str(x['comment'])+';'+str(x['afterComment']),axis=1)

评论中一些词是京东评论页面提供的格式，用户按照这个格式填写，这部分不应该作为用户评论的一部分，剔除掉

def del_list(str1):

del_list=['运行速度：','屏幕效果：','散热性能：','外形外观：','轻薄程度：','其他特色：']

for i in del_list:

str1=e(i,'')

return str1

剔除京东评论的固定格式词汇

raw_data['text']=raw_data['text'].apply(del_list)

去除停用词

stopwords_dic=open(r'E:pythonstop_wordsstop_','rb')

stopwords_content=stopwords_()

stopwords_lst=stopwords_ines()

stopwords_()

下面列表是去除停用词后，通过观察，我们这个文本里还存在的一些停用词，加到停用词表里。

其中

华硕

作为品牌名称，本来抓的就是华硕的笔记本，没有统计的必要。

add_stopword=['，',';','nan','n','。','&','！','、','华硕','?','.','*']

更新停用词表

stopwords_(add_stopword)

分词，并去除停用词。且同一个用户的评论内容，如果有重复词，也同时去除

raw_data['text_cut']=raw_data['text'].apply(lambda x:[i for i in set((x)) if i not in stopwords_lst])

把所有评论数据，汇总到一个列表里

text=[]

for i in raw_data['text_cut']:

(i)

构建词频

词典

dic=dict()

for i in text:

if len(i) !=1:

dic[i]=(i)

#dic = sorted((),key=lambda x:x[1],reverse = True) #

可以通过词频排序，观察高词频的情况

定义词频背景，用的是华硕此款笔记本的一个图片

mask=((r'E:'))

wc=oud(font_path='C:/Windows/Fonts/', #

设置字体格式

mask=mask, #

设置背景图

max_words=100, #

最多显示词数

max_font_size=150) #

字体最大值

te_from_frequencies(dic) #

从字典生成词云

image_colors=olorGenerator(mask) #

从背景图建立颜色方案

r(color_func=image_colors) #

将词云颜色设置为背景图方案

(figsize=(6,6))

(wc) #

显示词云

('off') #

关闭坐标轴

()

从上面词云图可以看出：

用户评论比较多的点是：

开机/运行速度快；外观轻薄好看；屏幕清晰；散热不错；性价比高。

这部分特点应该是产品的主要特点，在商品的标题及详情页描述中，可以针对性的进行优化。

上面就是简单的仅仅针对这款商品的评论数据进行探索分析，实际运用中，可以结合销量、用户信息等多维度数据进行更多角度的分析、探

索。

发布者：admin，转转请注明出处：http://www.yc00.com/num/1702265271a1194397.html

用户评论数据评价商品

admin

网站建设
大数据 | 实验一：大数据系统基本实验 | 常用的 Linux 操作和 Hadoop 操作
文章目录📚cd命令：切换目录📚ls命令：查看文件与目录📚mkdir命令：新建目录&#x1f4d
admin
1月前
140
网站建设
linux显示当前登录到系统的用户状态,Linux怎么查看有哪些用户正在登录系统
1. who命令简介Linux who命令用于查询当前正在登录系统的用户，包括登录的身份(系统用户名)、终端号、登录时间、登录时长、IP地址等信息。所有用户都有权限使用。2. who命令选项-H 或 --heading
admin
1月前
180
网站建设
利用ChatGPT实现数据爬取
数据爬取，即网络爬虫技术，是通过编写程序来获取互联网上的信息的一种手段。然而，需要注意的是，数据爬取可能会违反网站的服务条款，因此在进行爬虫操作前，应当仔细阅读并遵守目标网站的robots.txt文件和使用条款。 ChatGPT作为一个基
admin
1月前
200
网站建设
Win系统便笺（Sticky Notes）的数据保存位置、迁移和恢复数据
习惯使用便笺（Sticky Notes），记录常用文本、图片的朋友，或许有换新电脑、重装系统后，以前便笺的笔记不知道如何同步的疑问
admin
1月前
210
网站建设
ios系统软件迁移到安卓_如何从ios迁移数据到安卓
2018-11-16 回答从安卓设备转移到ios的应用叫move to ios2015年9月17日，除ios 9外，苹果当地时间周三还发布了move to ios——帮助用户将应用由android
admin
1月前
180
网站建设
VC++使用zlib压缩及解压数据，使用base64编码及解码数据（附源码）
VC++常用功能开发汇总（专栏文章列表，欢迎订阅，持续更新...）https:blog.csdnchenlyclyarticledetails124272585C++软件异常排查从入门到精通系列教程（专栏文章列表，欢迎订阅，持续
admin
1月前
200
网站建设
SQL数据库置疑数据怎么恢复
甲驭数据恢复中心经过多年对主流数据库文件结构的研究，成功开发出赤兔数据库碎片恢复软件。可以从磁盘和分区恢复丢失的数据库文件与数据库备份文件，包括(mdf，ndf&#x
admin
1月前
200
网站建设
Web开发怎么理解我们是如何和服务器交互数据的 ( 网络 )
4399-游戏运营-面经狠狠地骂我吧 #24届(29523)# 百度后端日常实习面经（已oc） 百度算法岗面经二选一 OPPO C岗有接到面试的吗【面经大全】实习&提前批
admin
1月前
220
网站建设
Win10 安装系统跳过创建用户，直接启用 Administrator
oobe 到创建用户那里第一种方法：按 shiftF10 打开 cmd输入 lusrmgr.msc 将 administrator 启用关闭 lusrmgr.msc 回到 cmd输入 taskmgr.exe 打开任务管
admin
1月前
270
网站建设
Redis与数据库数据一致性解决方案
一、概述redis是一种开源、使用内存存储数据介质的键值对存储系统。redis的读写速度非常快，常用于应用与数据库之间做缓存层，能够减少数据库IO操作，提升数据库性能&
admin
1月前
230
网站建设
【零基础】使用python数据可视化时遇到的问题以及解决方法
涉及关键词：matplotlib，python，pycharm，numpy 前期准备：安装了python，
admin
1月前
190
网站建设
spark数据倾斜原因与解决方法大总结
总结自：https:wwwblogsxiaodfp6055803.html 数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜&#xff
admin
1月前
150
网站建设
oracle数据连接断开连接,ORACLE自动断开数据库连接解决办法
ORACLE自动断开数据库连接解决办法最近，有客户提出在系统的应用中出现数据库频繁自动断开连接(每10分钟)的异常现象，通过查找学习，找到如下两种解决方法。供大家参考。方法一
admin
1月前
190
网站建设
在UE中利用动捕数据提升项目效率无穿戴高精度易上手
在虚拟现实、游戏开发、影视制作等领域中，动作捕捉技术与实时渲染引擎的结合已经越来越紧密。UE作为业界领先的3D创作平台，受到了众多开发者的青睐，DS FUN-UE插件能够帮助开发者更便捷地在UE平台中利用动捕数据进行高效创作，提升项目效率。
admin
1月前
180
网站建设
2023“中科实数杯”全国电子数据取证竞赛
解压密码：希望大家都能取得好成绩1、检材一硬盘的MD5值为多少？（1分）取证大师打开就好了80518BC0DBF3315F806E9EDF7EE13C
admin
1月前
230
网站建设
【微信开发】免费域名—网页授权获取用户openid
最近在接触微信支付开发，要进行微信支付就需要用户的唯一标识——openid，因为第一次接触踩了很多坑，于是就把他记录下来，也便于以后查阅&#xf
admin
1月前
280
网站建设
SSD常见故障模式与数据修复工具
固态硬盘常见的故障模式，主要有以下几种：温度过高：在固态硬盘长时间大压力读写，或者机器散热不高的情况下，持续高温运行&#x
admin
1月前
210
网站建设
关于在浏览器中监听用户点击返回键
前端时间做了个需求，是关于监听用户点击实体返回键出现挽留弹窗的需求做过混合开发的都知道，要在自己的app内监听返回事件是很简单的，但是在浏览器中呢，我们
admin
1月前
190
网站建设
为什么浏览器上xpath可以获取数据，python中无法获取
偶尔我们在写爬虫的时候会遇到这样一个问题，在浏览器上写的xpath语法明明可以获得数据，但是到python里面，一模一样的xpath语法却无法得到数据，
admin
1月前
220
网站建设
大数据开发Stable Diffusion电脑千元配置清单
大数据开发电脑配置清单电脑型号HUANANZHI 台式电脑操作系统Windows 11 专业版 64位（Version 23H2DirectX 12）处理器英特尔 Xeon(至强) E5-2
admin
1月前
150

发表回复

评论列表（0条）

暂无评论

京东商品评论分析(爬虫+分词+词云图)

发表回复

评论列表（0条）

联系我们

400-800-8888

京东商品评论分析(爬虫+分词+词云图)

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888