2023年6月29日发(作者:)
运营商经营分析系统大数据建设项目汇报
大数据项目综述
一、建设背景
在“移动互联网时代”的战略转型下,运营商从话务运营转向了流量运营,而完成“流量运营”需要引入互联网数据,以及网络信令等海量数据。为此,*省建设了经分大数据项目,来满足移动互联网海量数据的存储、计算、以及移动互联网用户内容分析支撑。并通过标准的数据访问服务,为经分仓库等系统共享大数据分析成果,为实现精准营销、实时营销提供了基础分析数据。
二、建设历程
*省经分大数据项目,在我司前期相继完成了对大数据重点技术,包括云ETL、大数据平台、流量经分wap日志分析等方面的实验与研发后,于2013年2月正式启动*省经分大数据项目。具体建设历程如下:
1、 云ETL研究:在2011年启动了大数据平台关键技术的实验,通过与高等院校专家合作,完成了云ETL课题研究,同时优化了Hadoop平台;
2、 大数据平台设计开发:2012年研发中心大数据组,着手设计开发TBE。TBE是针对大数据生态环境的部署、管理、运维于一体的管理平台,覆盖离线计算、海量数据查询、实时流计算三个技术方向的平台。包括hadoop HDFS、hadoop MR
V1/V2、Hive 、Zookeeper、storm、redis的方案选型、平台架构和底层调优,构建了一套高效、可用、可运维的大数据平台。
3、 流量经分WAP日志分析实验:2012年9月– 2013年4月,大数据研发团队完成了流量经分WAP日志分析专题的技术实现路线实验。主要基于华为、诺西的wap网关日志,按集团规范完成网页采集、内容处理、用户行为分析,输出用户级wap流量视图、网站级流量视图和终端APP视图等分析统计数据。
4、 *省经分大数据项目实施:2013年2月中旬,正式启动大数据平台硬件集成和软件实施。具体实施过程包括:在3月完成了大数据平台集群搭建;4月初完成大数据平台的安装部署以及基于华为、诺西的wap网关日志的大数据处理流程调试;4月底完成了数据源从WAP日志接口到Gn口数据的调整;5-6月完成了11类流量类基础数据的统计输出。
➢ 当前平台的实施上线情况如下:
A、 平台集群情况:建成混合了sas和sata硬盘的26台PC大数据平台集群,可用存储60T;集群功能规划:2台爬虫,2台NameNode,5台管理运维平台(包括hive、hbase、mr操控节点;zk;数据库;管理平台),17台用于数据计算节点;
B、 数据处理方面:已采用Gn口数据源作为大数据平台的主要数据源,基于26台PC平台集群,2小时完成Gn口25亿条记录的业务流程处理,并与仓库互动实现流量专题的海量基础数据计算;
C、 数据分析方面:为经分仓库输出11个流量类基础数据,其中4个流量报表已经完成前台展现,可以开展后续相关业务应用。
通过项目的实施上线,验证了该大数据平台和大数据处理技术在稳定性、可用性、时效性方面能够满足系统要求。在项目下一步规划中,将继续完善平台数据处理技术、安全管控、及数据分析等能力的支撑。
➢ 当前关键处理实验情况:
A、 海量详单实验情况:6月初基于HBase完成50亿记录规模的用户上网日志详单的查询实验,通过建模和调优,目前可以在2毫秒内定位任意用户某天的所有访问记录。通过1亿、5亿、10亿和50亿规模数据的查询对比实验和原理分析,通过扩展机器规模实现千亿级以上的海量数据查询。
B、 基于流计算的A口信令预研情况:
完成流计算平台监控、告警和管理功能。基于A口信令数据结构,按信令中携带的时间、地点、人物和动作等通过业务规则实现实时用户提取的设计和研发。
三、建设内容
*省经分大数据项目,是基于大数据平台进行设计实施。项目的整体建设内容,主要包括了四大部分:大数据平台、并行云ETL、网页内容采集处理、大数据日志处理等。
大数据平台:包括hadoop平台的安装、部署、监控、告警、管理和hadoop平台的调优;
并行云ETL:负责海量数据清洗,采用并行加载技术加载到大数据平台中;
网页内容采集处理:负责用户访问网页内容的采集和网页内容的文本挖掘;
大数据处理:负责网页日志处理、用户行为分析汇总、网站流量分析汇总等分析技术处理。
四、总体架构
系统总体架构如下图所示:
硬件层由X86集群构成整体基础计算能力,采用低成本的x86架构设备搭建,满足项目对海量数据处理的高计算能力的要求。
大数据处理平台:采用基于HADOOP的分布式处理架构,以HADOOP开源软件为核心的分布式计算平台是业界常用的海量数据存储与处理主流方式,满足商用计算对海量数据处理高可靠性、高可用性要求。在平台层上,根据本项目要求主要建设云ETL和DM两类应用,初步满足实际业务应用需要。同时在X86集群上实现对互联网数据采集与相关应用。
数据仓库:数据仓库是*省现有数据分析计算平台,具有大量的应用模型与业务数据积累,在本项目中作为汇总数据存储与业务分析平台,接受分布式平台预处理后的较小规模数据,结合已有数据进行复杂业务分析。
前端应用:体现业务应用支撑能力。本项目将充分复用已有应用的用户体验与习惯,构建流量监控与流量服务两大类应用,满足具体营销过程中对海量数据分析结果的需要。 项目成果
一、数据源
1、WAP网关日志接口:
接口说明:该类接口涉及13个接口,平均每天6亿条记录,300M存储。
接口使用:自2012年9月起,基于华为和诺西的wap网关日志进行了内容挖掘实验,分析了cmwap用户行为等业务。
2、Gn口数据接口:
接口说明:该类接口涉及2个接口,3台接口服务器,平均每天25亿条记录,0.8T存储。
接口使用:自2013年4月底,分析数据源切换到中兴提供的Gn口数据,覆盖cmwap与cmnet。
3、流量详单关键数据字段:
字段 说明
该话单对应的手机号码编码成唯一序列码。(因数据安全要求,手机号码采用序列号。)保证手机号码与序列号唯一对应关系
手机卡IMSI号。
实际访问URL。网关转码后的URL
user agent
HTTP协议定义的请求方法。例如GET、POST、HEAD等。
mimetype。网关转码后的MIME TYPE
远程端口号
网站Web/wap服务器返回状态吗
下载流量,字节。流量采集值,即应答消息Content-length长度,按照文件大小统计时使用。单位为字节。
手机号码
IMSI
URL
UA
请求方法
MIME
远程端口
反馈状态
流量(内容)
开始时间(终端) 终端URL请求时间
结束时间(终端) 终端访问终止时间
接入点 接入点,cmwap、cmnet等。
二、数据输出
当前完成的仓库数据输出包括Gn口APP汇总数据、Gn口明细数据。
具体说明如下:
1、基于用户访问日志清单统计的Gn口明细数据,数据量约为19-22亿条/天。
A. 网站级汇总:按网站名称分类统计用户的访问量及用户情况,为分析热门网站等提供数据支撑。
包括的数据信息:日期、网站名称、网站类型、访问次数、用户数、2G流量、3G流量。
应用:对比分析移动自有网站和第三方网站的用户数、访问次数和流量等数据。
B. 用户访问内容大类汇总:按互联网访问内容大类,分类统计用户访问数、流量情况,为分析用户群在内容大类的偏好等提供数据支撑。
包括的数据信息:日期、内容分类ID、内容分类、访问次数、用户数、2G流量、3G流量。
内容大类分类:见附一。
应用:按大类分析周期内访问客户数、访问次数、访问流量。
C. 用户访问内容小类汇总:按互联网访问内容小类,分类统计用户访问数、流量情况,为分析用户群在内容小类的偏好等提供数据支撑。
包括的数据信息:日期、内容分类ID、内容分类、内容小类ID、内容小类、访问次数、用户数、2G流量、3G流量。
内容小类分类:见附一。
应用:根据分类体系分析周期内访问客户数、访问次数、访问流量。
2、基于Gn口用户统计的汇总数据,数据量约5-7亿/天。
A. 用户客户端统计视图:分地市,统计移动互联网用户使用的各类客户端的用户数量,为分析各类客户端的客户群分布情况提供数据支撑。
包括的数据信息:日期、地市ID、QQ使用客户数、Opera使用客户数、Firefox使用客户数、Chrome使用客户数、MSIE使用客户数、Safari使用客户数、Mathon使用客户数、Avant使用客户数、BrowserNG使用客户数。
应用:分地市统计各种主流手机浏览器(如QQ、火狐、IE、谷歌等)的用户数。
B. 分地市业务大类用户与流量统计报表:分地市,业务大类分析访问用户及流量情况,为分析各个地市用户在业务大类方向的偏好提供数据支撑。
包括的数据信息:日期、地市ID、业务大类、用户数(去重)、2G流量(B)、3G流量(B)。
业务大类:见附二
应用:分地市统计各种主流手机应用软件类型(如即时通信、阅读、视频、音乐等)的用户数、2G流量、3G流量等数据。
C. 分地市业务小类用户与流量统计报表:分地市,业务小类分析访问用户及流量情况,为分析各个地市用户在业务小类方向的偏好提供数据支撑。
包括的数据信息:日期、地市ID、业务小类ID、业务小类、用户数(去重)、2G流量(B)、3G流量(B)。
业务小类:见附二
应用:分地市统计各种主流手机应用软件小类(如QQ、飞信、手机报、139邮箱、QQ邮箱、手机电视等)的用户数、2G流量、3G流量等数据。
大数据平台后续将输出如下分析数据:
A. 用户APP类型偏好分析
分析内容:月份、MSISDN、业务小类、偏好系数、访问次数、2G流量、3G流量。
B. 用户内容分类偏好分析
分析内容: 月份、MSISDN、内容大类、偏好系数、访问次数、流量。
C. 访问流量去向监控
分析内容:日期、县市、上网时段、网站类型、网站名称、小区、基站、接入点、用户数、访问次数、流量(MB)。
D. 用户上网时段分析
分析内容:日期、县市编码、上网时段、内容大类、品牌、访问用户数、访问次数、流量(MB)。
E. 热点网站排名
分析内容:排名、网站名称、网站域名、访问次数、用户数、流量。
F. 搜索引擎排名
分析内容:日期、百度(UV)、搜狗(UV)、Google(UV)、搜搜(UV)。
G. 阅读目标客户
分析内容:排名、小说类别、访问次数、用户数、流量。
三、平台性能
➢ 数据规模:大数据平台目前每天处理gn口统计数据和明细数据约600GB,总记录数约25亿。完整存储从6月1号以来20天的原始数据与统计数据约15TB,建立用户上网清单即时查询详单库3TB,120亿条上网清单。
➢ 耗时:数据预处理耗时1小时,模型视图:2小时,业务应用:40分钟
➢ 平台对比:
某运营商总部数据中心云ETL测试数据截图:(数据规模:237GB非压缩,46GB压缩)
四、技术上攻克难题
1. 平台容灾能力
Hadoop HDFS 有多个备份,数据有安全保障。Name Node保存数据的元数据,采用默认的HA策略,理论上可以保障元数据安全。实践场景中,数据达到一定规模(测试的150G),宕机的情况下会导致大量数据丢失。
采用基于ZK的NameNode-HA实现,分离Jobtracker,同时对参数进行适当的配置可以把数据丢失问题控制在事务范围内。
2. HadoopMR 性能
数据倾斜是BI类业务数据处理不可避免的问题。因业务数据值的范围分布不均匀,而数据倾斜分布在少数的1台或几台机器上计算,导致大部分机器空闲资源浪费,同时执行时间成倍增长。
采用平台中间结果的/tmp存储文件挂载优化、按硬件配置等调优hadoop参数、启用压缩等综合手段可以提高处理性能高达5-7倍。(相当于硬件投资差距5-7倍)
3. HBase性能
对于HBase启动压缩可减少加载时间,模型优化和参数调优可以减少查询时间。优化的性能差距高达8-10倍。(相当于硬件投资差距8-10倍)
4. 爬虫性能
5. 网页内容挖掘
五、应用
在经分仓库系统,利用大数据平台对互联网数据的处理结果,弥补了仓库系统在移动互联网分析数据的缺乏,为保障建设移动流量运营分析专题中的各项应用提供了有效的基础数据支撑。利用大数据平台输出结果,在流量运营方面的主要应用有:
1、 综合业务分析:通过建立网站热度分析、关键字TOPN分析、分地市分析主流手机应用软件类型等综合分析,了解移动用户在网站访问、应用使用、搜索热词等情况;
2、 用户特征分析:通过用户APP类型偏好分析、用户上网时段分析、用户内容分类偏好分析等应用,掌握各类用户群的互联网偏好特征,为针对用户采取精确营销提供数据支撑;
3、 营销服务支撑:通过对比分析移动自有网站和第三方网站应用、互联网业务分析、互联网客户分析等,掌握自有及竞争对手应用情况、互联网业务热点情况、互联网用户发展情况,为发展自有应用、推荐热门业务、扩展互联网用户等方面提供有力的数据支撑。
未来推进计划
一、数据
大数据平台下阶段的主要工作之一就是引入 A口信令数据,其数据规模初步预估为3TB/天。
根据移动公司经验公式,流量数据的年增长率为20%。
二、150台平台规划
离线计算平台
实时计算平台
流计算平台
爬虫内容分析平台
管理运维平台
分域(生成环境、开发环境(开发沙箱))
存储预估
三、调优计划
四、应用
➢ 精准营销
1. 基于流计算的A口信令实时营销业务
基于A口信令数据结构,按信令中携带的时间、地点、人物和动作,通过业务规则实现实时用户提取的设计和研发。
场景一:
a. 移动用户拨打电话号码为114 动作时触发营销指令。指令携带时间、过期时间、地点、号码、偏好等信息。 b. 竞品12580平台通过用户信息推送12580广告短信。
c. 移动用户在摘记时收到12580关怀短信。
场景二:
a. 集团关键人接到竞争对手营销客户经理电话触发实时告警指令,向对应的集团客户经理告警。
b. 对应的集团客户经理实时获取相关事件。
2. 动态标签准实时营销
基于网页标签、用户信息、使用信息能快速生成用户动态标签,输出用户分群。
从搜索关键字入手,快速定位相关网站,实时获取访问用户,实现即时营销
➢ 客服关怀
3. 客户上网详单查询
全省用户上网详单一天按25亿条记录,一个月是750亿条,采用传统数据库技术是无法实现。拟采用HBase列存储技术,实现秒级定位单个用户某时段上网详单。
场景:
某客户对上网流量存疑,咨询客服10086,10086坐席可以直接查询该用户哪天访问了哪些网站、用了哪些APP、是否手机中了病毒或恶意程序,分别的流量是多少?目标是减少升级投诉,增加咨询投诉处理效率。
五、推进计划
时间、进度、计划
附录
附一.Gn口明细业务大类(一级分类)、业务小类(二级分类)、自有业务对照表
分类体系 一级分类 二级分类
地图导航
网络相册
网址导航
规则分类体系 工具类
(10个1级分类) (6个2级分类)
邮箱
在线工具
下载
三级分类
软件下载
MM
自有业务
手机地图 博客微博类
即时聊天类
沟通交流类
交友类
(5个二级分类)
社区SNS
论坛LBS
门户与综合
搜索类
(1个二级分类)
天气预报
求职招聘
健康
生活服务类
(7个二级分类)
数码
旅游
教育
网上银行
汽车类
股票
黄金
移动微博
飞信、飞聊
139社区
12580优惠
天气预报
手机证券
手机彩票
手机支付/银行
手机视频/电视
无线音乐
手机游戏
手机阅读
基金
财经类
(6个三级分类)
理财
期货
新闻资讯
(6个二级分类)
外汇
综合类
军事类
科技类
商机类
篮球
体育类
足球
(2个三级分类)
其他
行业网站
(2个二级分类)
学校
政府
博彩类
女性类
购物类
休闲娱乐
(9个二级分类)
色情网站
视频类
音乐类
游戏类
图片类
娱乐新闻
小说
阅读类
(2个二级分类)
历史
自有业务
其它类
阅读明细分类对应关系
阅读类
(15个二级分类)
玄幻
言情
武侠
校园
游戏
都市
历史
军事
侦探
推理
网游
科幻
恐怖
灵异
悬疑
附二.Gn口汇总接口业务大类、业务小类对照表
序号 业务小类
1 MSN
2 QQ
3
QQ语音
4
微信
5
旺旺
6
米聊
7
雅虎MSG
8
飞信
9
移动手机报
10
移动手机阅读
11
起点手机阅读
12
搜狐微博
13
新浪微博
14
腾讯微博
15 QQLive
16
优酷视频
17
其它web视频
18
土豆视频
19
手机电视
业务大类
即时通信
即时通信
即时通信
即时通信
即时通信
即时通信
即时通信
即时通信
阅读
阅读
阅读
微博
微博
微博
视频
视频
视频
视频
视频
20
移动手机视频 视频
21
酷6视频 视频
22
QQ音乐 音乐
23
移动无线音乐 音乐 24
音乐随身听
Android
25
Market
音乐
应用商店
26 AppStore
应用商店
27 Mobile Market
应用商店
28
QQ游戏 游戏
29
139邮箱
30 IMAP
31 POP3
32
QQ邮箱
33 SMTP
34
HTTP上网
35
WSP上网
36
人人网
37
土豆网
38
大众点评
39
开心网
40
通用下载
41 FTP
42 MediaPlay
43 QuickTime
44 RTSP
45 RealPlay
46
风行
47 BT
48 PPLive
49 PPStream
50
Web下载
51 eDonkey
52 eMule
53
迅雷
54
迅雷看看
55 H.323
56 SIP
57 Skype
58 HTTPS
59 IPSec
60 SSL
61 VPN
62 MM4
63 MM7
64
彩信
邮箱
邮箱
邮箱
邮箱
邮箱
浏览
浏览
浏览
浏览
浏览
浏览
浏览
FTP
流媒体
流媒体
流媒体
流媒体
流媒体
P2P
P2P
P2P
P2P
P2P
P2P
P2P
P2P
VOIP
VOIP
VOIP
加密业务
加密业务
加密业务
加密业务
彩信
彩信
彩信 65 ICMP
66 TCP
67 UDP
其他
其他
其他
发布者:admin,转转请注明出处:http://www.yc00.com/web/1687985478a63906.html
评论列表(0条)