用户名: 密码: 验证码:
彩铃统计分析平台数据采集与预处理子系统的设计与实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
彩铃业务是“个性化多彩回铃音业务”(Color Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。
     近年来,彩铃业务以其新颖、个性化的特点,在国内得到了迅速发展,已经成为电信运营商ARPU(Average Revenue Per User)值的重要贡献力量和新的利润增长点。彩铃用户多为年轻人群,为了满足他们追求时尚和个性的需求,运营商不断推出彩铃新功能和特色服务,并不定期地举办各种营销活动。为了更好地监控业务的运行,发现用户偏好,运营商提出的统计需求越来越多,并需要及时得到统计数据并加以分析。传统上,这些需求的实现需要加载到彩铃业务主机运行。这在一定程度上消耗了彩铃系统的主机资源,影响彩铃系统的正常运行。另一方面,统计分析的结果不够丰富和灵活,及时性、针对性不强,难以满足运营商的要求。
     彩铃统计分析平台(Color-ring Statistic Platform,CSP)是专为彩铃业务推出的统计分析解决方案。通过把彩铃业务相关数据采集到专有的统计分析主机,然后在此主机上进行数据加工和运算,从而有效地缓解了彩铃系统的运行压力,降低了彩铃业务主机的负荷。同时,该系统充分利用了统计主机的计算能力和存储资源,更有效地进行数据加工,向用户提供专业、详实的统计数据,并通过多种方式展现给用户。
     彩铃统计分析平台可划分为数据采集层、数据预处理层、数据处理层和数据展现层四个功能层。本文的核心是设计并实现数据采集与预处理子系统,它实现了数据采集层和数据预处理层的功能。数据采集层负责将原始数据从彩铃业务主机批量采集到统计分析主机,加载到数据库中。数据预处理层则根据预先定义的规则,对原始数据进行清洗和格式转换,删除脏数据并保证数据格式的正确性,为上层系统提供可靠的数据保障。
     本文从彩铃业务的发展现状展开讨论,第一章介绍了彩铃业务的背景,分析了运营商对彩铃统计的需求,并介绍了彩铃统计分析平台的总体结构。第二章详细分析了本文核心的数据采集与预处理子系统的需求,对子系统的实现难点和关键技术特征进行了总结,并对比不同的解决方法,找到了合理的解决方案。第三章在需求分析的基础之上,对子系统的设计与实现进行详细的介绍。首先介绍了子系统的结构和工作流程,并根据功能将子系统划分为数据采集、历史数据管理和数据预处理三大模块。然后对各个模块的详细设计与实现进行了介绍。第四章对数据采集与预处理子系统进行了测试,以验证其满足系统需求。最后一章对彩铃统计分析平台的现状进行了介绍,提出了需要改进和进一步研究的问题,并对彩铃统计分析平台的前景进行了分析和展望。
Color Ring Back Tone (CRBT) Service is a feature to enable a calling subscriber to hear a music tone, instead of the old-fashioned ring-back tone, while waiting for the called subscriber to answer the call.
     Relied on novelty and personalized service feature, CRBT service develops rapidly in recent years. And has become an increasingly important contributor of ARPU (Average Revenue Per User) for telecommunication operators. Users of CRBT are mainly young people, they are fashionable and like novelty. Telecommunication operators often design new functions and provide distinctive services to cater to their needs. In order to carefully examine the running situation of CRBT service and find out users' preference, telecommunication operators' statistic and analysis requirements for the service have been increasing. At the same time, they need the feedbacks immediately. In conventional ways, these requirements should be implemented by loading to functional utilities, which reside in the production environment server to run. This method, to some extent, consumes the resources of the production environment server, and interferes with the CRBT service's normal function. On the other hand, statistic information get through this strategy is not abundant and not flexible, hardly meet telecommunication operators' requirements.
     Color-ring Statistic Platform (CSP) is a statistic and analysis resolution dedicated to the CRBT service. It collects service operation data of CRBT, retrieves them into an independent server, and then performs data computing on this server. By this way, working load of the production environment server is extremely reduced. At the same time, it is able to provide professional and detailed statistic information by utilizing the computing and storage resources of the independent server.
     CSP divides into four functional layers, which are data retrieve layer, data pre-process layer, data process layer and presenting layer. This thesis focuses on the design and implementation of the data collection and pre-process subsystem, which implement the function of the data retrieve layer and the data pre-process layer. The data retrieve layer retrieves original data of CRBT service from production environment server. Then, loads them into database. The data pre-process layer cleans and transforms the data accords to predefined rules. It deletes the "duty data", ensures correctness of data format, and provides dependable data to upper layer system.
     In chapter 1, this thesis firstly introduced the CRBT service, and analyzed telecommunication operators' statistic requirements. Then, the system structure of CSP is introduced. In chapter 2, the requirements of data retrieving and pre-processing are analyzed, key issues of implementing the subsystem are described. Through comparing different resolving method, reasonable ways are presented. In chapter 3, the detail of design and implementation of the subsystem is introduced based on the requirements analysis. This chapter firstly proposed the subsystem's structure and working process, divides it into three functional modules, which is data retrieve module, history data management module and data pre-process module. Then, implementation detail of each module is presented. In chapter 4, subsystem test is proposed in order to verify the subsystem meets the requirements presented in chapter 2. The last chapter introduced the current situation of CSP, and analyzed its future development.
引文
[1]中国移动通信集团公司,彩铃业务规范3.0.0,2006年3月,pp2-3
    [2]中国移动通信集团公司,彩铃业务总体技术要求V3.0.0,2006年3月,pp5-6
    [3]http://www.cezju.com.cn/SSEManager/fileupload/1159407466961.doc,电话彩铃的现状、问题、对策,2006年9月,pp1-5
    [4]Jiawei Han,Micheline Kamber著,范明,孟小峰译,数据挖掘概念与技术,机械工业出版社,2007年3月,pp67-69
    [5]William H.Inmon著,王志海译,数据仓库,第四版,机械工业出版社,2006年8月,pp 12-15
    [6]Claudia Imhoff,Nicholas Galemmo,Jonathan G Geiger著,于戈,鲍玉斌译,数据仓库设计,机械工业出版社,2004年12月,pp 22-27
    [7]Erik Thomsen著,朱建秋,张晓辉译,OLAP解决方案:创建多维信息系统,第二版,电子工业出版社,2004年9月,pp 27-30
    [8]张宁,贾自艳,史忠植,数据仓库中ETL技术的研究,计算机工程与应用,第38卷第24期,2002年7月,pp 1-3
    [9]张勇,杨昆锦,王文杰,移动经营分析系统中ETL的分析和设计,计算机工程与应用,第42卷第3期,2006年3月,pp202-204
    [10]王君珂,鲁卫东,电信行业的经营分析系统研究,电信科学,第21卷第7期,2005年7月,pp39-44
    [11]庄园,电信统计分析平台ETL工具的设计与实现,北京邮电大学硕士研究生学位论文,2007年2月,pp 21-39
    [12]章水鑫,徐宏炳,于立,增量式ETL工具的研究与实现,现代计算机,总207期,2002年10月,pp 2-3
    [13]Abraham Silberschatz,Henry F.Korth,S.Sudarshan著,杨冬青译,数据库系统概念,机械工业出版社,2003年3月,pp253-258
    [14]INFORMIX INC,INFORMIX-ESQL/C Programmer's Manual,Mar 1997,pp 259-261
    [15]Vincent McBurney,So what is better,ETL or ELT?,http://blogs.ittoolbox.com/bi/websphere/archives/so-what-is-better-etl-or-elt-13572,Dec 2006
    [16]W.Richard Stevens著,尤晋元译,UNIX环境高级编程,机械工业出版社,2000年2月,pp74-79
    [17]W.Richard Stevens著,范建华译,TCP/IP详解,卷1:协议,机械工业出版 社,2000年4月,pp2-5
    [18]东信北邮,COPART编程手册,2003年6月,pp2-5
    [19]Robert C.MARTIN著,邓辉译,敏捷软件开发:原则、模型与实践,清华大学出版社,2003年9月,pp221-228
    [20]Stephen Prata著,孙建春译,C++PrimerPlus第五版,人民邮电出版社,2005年5月,pp211-276
    [21]Stanley B.Lippman,,Josee Lajoie,Barbara E.Moo,C++ Primer,Post&Telecom Press,Mar 2006,pp59-113
    [22]Erich Gamma,Richard Helm,Ralph Johnson著,李英军译设计模式:可复用面向对象软件的基础,机械工业出版社,2005年6月,pp178-191
    [23]W.Richard Stevens著,杨继张译,UNIX网络编程,清华大学出版社,2006年1月,pp83-162
    [24]王木林,基于SQL优化提高数据仓库的ETL效率的方案,中国科技信息,2005年第18期,pp1-3
    [25]Trevor Hastie,Robert Tibshirani,Jerome Friedman,统计学基础—数据挖掘、推理与预测,电子工业出版社,2004年2月,pp11-17
    [26]Ron Patton著,张小松译,软件测试,机械工业出版社,pp23-31

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700