为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

1潍坊网通CRM数据仓库系统的设计与实现(可编辑)

2017-11-27 33页 doc 70KB 13阅读

用户头像

is_279425

暂无简介

举报
1潍坊网通CRM数据仓库系统的设计与实现(可编辑)1潍坊网通CRM数据仓库系统的设计与实现(可编辑) 北京邮电大学 硕士学位论文 潍坊网通CRM数据仓库系统的设计与实现 姓名:沈刚 申请学位级别:硕士 专业:计算机技术 指导教师:孟祥武 20060920潍坊网通数据仓库系统的设计与实现 摘要 本文结合目前潍坊网通的实际情况,设计了潍坊网通的客户关系 管理系统,该系统包含统一客户接入管理、渠道管理、销售管理、订 单处理、客户信息管理、俱乐部管理、帐单与收费管理、系统管理、 经营分析管理、总部接口等子系统。本文就经营分析管理子系统,根 据决策者的决策思...
1潍坊网通CRM数据仓库系统的设计与实现(可编辑)
1潍坊网通CRM数据仓库系统的与实现(可编辑) 北京邮电大学 硕士学位 潍坊网通CRM数据仓库系统的设计与实现 姓名:沈刚 申请学位级别:硕士 专业:计算机技术 指导教师:孟祥武 20060920潍坊网通数据仓库系统的设计与实现 摘要 本文结合目前潍坊网通的实际情况,设计了潍坊网通的客户关系 管理系统,该系统包含统一客户接入管理、渠道管理、销售管理、订 单处理、客户信息管理、俱乐部管理、帐单与收费管理、系统管理、 经营分析管理、总部接口等子系统。本文就经营分析管理子系统,根 据决策者的决策思维方式,利用数据仓库、联机分析处理、应用决策 理论等多种技术,从系统分析角度为决策者或决策分析人员创建一种 决策分析环境,以支持决策者解决半结构化和非结构化决策问 。而 数据挖掘恰恰是经营分析管理中一个全面的智能化解决方案,通过数 据挖掘从大量的数据中抽取出潜在的,有价值的知识、模型或规则, 经过分析,使企业能够从中发现其业务发展的趋势,并为决策提供支 持,提供深层次的客户智能服务,为企业赢得更高的收入。 本文主要利用数据仓库、联机分析处理技术和数据挖掘等多种技 术构建潍坊网通的分析系统,即经营分析管理子系统。文中详 细介绍了客户关系管理系统、数据仓库、联机分析处理和数据挖掘技 术。接着重点讨论了数据仓库的构建模型和构建过程,从操作型环境 抽取数据并导入数据仓库方法,对数据进行综合处理的实现技术,以 及后期数据如何追加到数据仓库的机制,并详细介绍了关系规则挖掘 模型,“算法,和.叭算法的实现技术。在确定了系统的 关键技术后,结合潍坊网通的实际情况,完成了其分析型系统 的设计和实现。 关键词客户关系管理系统数据仓库数据挖掘关联规则 . 江’ ?, .,抽 . ” 抽 印.讯锄 : ,’ , , 锄, , 卸即,唱, , . , , 卸 仃?. ?行 , ,?? . 们 . 加, ,,行卸仃 .. ,廿 ?,印锄 . , 加 缸,? 印蜘 . , 柚, 锄 仃 . 仇 如 廿 , 衄,】 ,. ,研 ,?州.抽 , 画. 独创性或创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 本人承担一切相关责任。 申请学位论文与资料若有不实之处, 本人签名:之钆蛰』 日期:兰』:: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文 的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。保密的学位论文在解密后遵守此规定 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 适用本授权书。 本人签名: 日期: 尘』::竺 导师签名: 日期:玉匹』: 里: 里北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 第一章绪论 . 客户关系管理系统的发展现状 客户关系管理系统即 ,主要含 义就是通过对客户详细资料的深入分析,来提高客户满意程度, 从而提高企业的 竞争力的一种手段。其主要功能是获取和集成来自企业内部和外部的各种数据, 并对这些数据进行挖掘,以获取对企业商业决策有价值的信息或模式?,因此, 数据仓库是跚系统的基础,数据挖掘是系统的核心。 在初期是偏重操作流程的,我们可以称之为流程型或操作型 。所谓流程型,是指对市场、销售、服务等方面,也是企业的前端管 理的业务流程进行重新规划和调整,以最佳的工作方法来获得最好的效果。无论 是客户自动销售也好,还是利用呼叫中心的交互式客户关怀也好,都比较注重流 程的管理,例如客户管理、销售管理、俱乐部管理、客户投诉管理、客户维系挽 留、任务管理、渠道管理、服务请求的回复等等。在从无到有的过程中, 流程型的软件产品对整个产业起到了非常重要的作用。流程型主要解决的 是围绕客户信息进行的各个部门的协同工作,其中最重要的是解决了以下的问 题: ?如何收集客户信息 ?谁来收集客户信息 ?收集什么样的客户信息 ?与某个客户相关的所有信息是否是整合的 ?公司前端管理的每一个部门是否都建立起“以客户为中心”的理念 ?对不同的客户是否能够提供不同的服务 通过流程型的应用,在企业中将的概念和基础数据的采集从无 到有的建立了起来,但是,很快在大量的客户数据积累起来之后,对数据的分析 将成为重担。所以由流程型向分析型转变。分析型的主要特点如下: ? 能够统计大量的客户信息并支持对客户进行多维的特征分析: 以潍坊网通为例,客户数据量非常庞大,要对这些客户数据进行分析,要求 分析工具必须能够处理大量的客户信息。客户数据量达到千万级,甚至更多,并 且每个客户的属性描述还包括地址、年龄、性别、证件号码、姓名、等 多个字段。系统必须能够支持对这样多维的组合性的分析,可以快速给出符合分 析条件的客户名单和数量。在分析型中,速度成为重要的衡量指标,在对 海量的数据进行分析的时候,速度的要求几乎是第一位的。 第页潍坊网通数据仓库系统的设计与实现 北京邮电大学硕士学位论文 ?能够处理复杂的数据并支持对客户进行行为分析: 由于潍坊网通在方面一直以来没有一个完整的系统,对于现有客 户的最初的信息来源只能是现有的计费系统、“九七”系统以及其他相关的系统。 这要求中的分析工具可以从多个数据库中抓取并形成复杂的数据立方体 。在此基础上我们可以结合客户信息对某一类客户群的消费行为进行 分析,例如:分析经常打本地电话的人群具备什么样的客户特征;哪一类是长途 电话的消费主体等等。行为分析是比特征分析更为复杂的分析,因为它涉及到行 业知识和分析模型的结合。 ?具有自定义的建模方式和参数调整的功能: 除了特征分析和行为分析,预测正在日益成为强大的分析功能必须提供的应 用。在详细了解消费行为之后,很自然地,我们会想到对数据的参数进行某些调 整,例如:价格的变化,如果调整周末的消费费率,对整体收入会带来什么影响 如果我们着力吸引那些能够带来高价值的客户,那么初期的投入应当在什么范围 内客户的消费点临近什么值的时候开始成为“正利润”客户其生命周期至少 要在多长时间以内才具有成为“忠诚客户”的潜力现有的模型分析很大程度上 是为企业的市场研究和分析人员提供,有助于他们能够更理性的制定市场细分策 略。 ?能够进行融合了人工智能的数据挖掘: 客户信息的录入和存储方式是数据,但是对于决策者来讲,独立的单个的数 据的意义并不大,更重要的是信息和知识。现有的数据挖掘方法已经能够支持进 行按照内置逻辑语言进行归纳和演绎。例如:根据数据模型,系统建议以达成最 高利润为目标进行的价格优化政策。输入抽样调查得到的测试数据,可以根据呼 出电话的反馈率、广告的反馈率等数据确定最佳的市场活动模式,以虽低的成本 获得最好的市场活动效果。 分析型的应用是在成熟的分析工具的基础上,结合每个行业的特点进 行的,具体的过程如图卜所示: 第页潍坊网通数据仓库系统的设计与实现 北京邮电大学硕士学位论文 图卜分析型结构图 理解业务:最初的阶段,着眼于了解业务特点,并把它还原成为数据分析的 条件和参数。例如:在网通的用户当中,我们的第一步是了解客户购买的标准, 购买资费套餐类型和每次消费金额之间是否有明显的相关关系。 数据分析:这个阶段是对现有的数据进行归整,我们发现,在最初的设计中, 可分析的数据和前面提出的分析目标是不匹配的,例如:消费者的收入水平可能 与许多购买行为相关,但是,原始的数据积累中却不一定具备这些数据。对这一 问题的解决方法是从其它的相关数据中进行推理,例如:通过抽样调查发现,购 买网通高资费套餐的客户,其月收入水平是否集中在高水平的档次,并且其通话 次数是否真正符合其购买的高资费套餐,如果这一结论基本成立,我们可以从消 费习惯中推理出现有客户有多大的百分比是收入水平在这个档次中的;另外可根 据抽样调查的方法,在问卷调查的基础上推理整个样本人群的收入水平线。 数据准备:这个阶段的着眼点是转换、清理和导入数据,可能从多个数据源 抽取并加以组合,以形成恤。对于缺失的少量数据,是用均值补齐,还是 忽略,还是按照现有样本分配,这是在这个阶段需要处理的问题之一。 组模:现在已经有各种各样的模型方法可以利用,让最好的一种应用于我们 要着眼的主要问题中,是这个阶段的主要任务。例如:对于利润的预测是否应当 采用回归方式预测,预测的基础是什么这些问题需要行业专家和数据分析专家 协商并达成共识。 评估:已经建成的模型是否可以有效的完成工作很好的一个评估 方法是利 用不同的时间段,让系统对已经发生的消费情况进行预测,然后比较预测结果和 实际状况,这样模型的评估就容易进行了。 应用:完成了上述的步骤之后,多数的分析工具都支持保存并重复应用已经 第页北京邮电大学硕士学位论文 潍坊同通数据仓库系统的设计与实现 建立起来的模型。更重要的是,在这个过程中,对数据分析的方法和知识应当已 经由市场分析人员或决策者所了解,我们提供的,不仅仅是最终结果,而且是获 得这一结果的方法。 最后,在软件的构架方面,分析数据库与运营数据库应当是分离的,避免影 响运营数据库在操作方面的实时响应速度。其结构如图卜所示: 图卜分析型软件架构 . “潍坊网通数据仓库系统的设计与实现”项目的立题背 旦 尿 随着中国加入,中国电信业市场竞争的加剧,电信运营商必须向 “以 客户为中心,市场为导向”的经营模式转变,也将从网络资源竞争、价格竞争转 向服务竞争、渠道竞争、品牌竞争和客户竞争相结合的全方位竞争模式。面对竞 争,必须以客户为中心,以客户的价值取向和消费心理为导向,为用户提供高品 质的服务。为了能在存量市场竞争中取胜,通信运营企业必须具有强大的客户关 系维系能力,为客户提供主动关怀,不断提高客户忠诚度。目前潍坊网通的客户 数据仍然分散在各个不同的子系统当中,系统间接口复杂,难以形成统一的客户 视图,无法为客户提供一致的服务;缺乏对客户信息的有效分析和对客户行为的 全面掌控,无法有效的为客户提供个性化、差异化的服务。潍坊网通将通过先进 的技术整合和发挥企业资源的优势,构建一个以客户为中心的全面的智能化 系统,通过对客户进行系统化的研究,对有价值的客户信息进行识别、挖 掘和研究,为企业提供决策支持,为客户提供深层次的智能服务, 为企业带来更 多的利润。 第页潍坊网通数据仓库系统的设计与实现 北京邮电大学硕士学位论文 作者在撰写论文阶段,参加了中国网通潍坊分公司“潍坊网通数据仓 库系统的设计与实现”方案的研究、设计和开发工作。通过对系统的研究, 使我对系统的总体结构有了一个较为全面的认识,同时对许多具体的技术 细节也有了一些较为深入的理解。在系统设计和开发过程中,还在某些前沿领域, 结合企业的具体实际应用.进行了一些有意义的尝试和探索性的研究。因此,在 论文中,我以潍坊网通系统为背景,以系统设计开发的具体过程为线索, 依次介绍数据仓库、联机分析处理和数据挖掘技术的理论发展及其在系统中的实 际应用情况,并在此基础上,论述了系统的框架体系及实现。 .本文主要研究内容 本文是在对数据仓库的设计、构建技术和数据挖掘技术进行研究的基础上, 结合科研项目,根据潍坊网通的实际需求和应用特点,给出了系 统的数据 仓库模型和数据挖掘模型,并在此基础上设计了整个系统,实现 了其中的部分功 能。 本文主要包括以下几大部分: 、 论述了数据仓库技术的理论基础,包括数据仓库的概念、发展、 数 据的组织、数据模型和数据仓库的工具;讨论了技术,包括 和的关系、的实施方法、多维和关系; 、 详细介绍了数据挖掘技术,包括关联规则的介绍、研硎算法和关 联规则生成算法; 、 对潍坊网通系统的数据仓库进行设计和构建研究,包括对数据 抽取、数据的处理和综合以及数据的追加的方法进行了研究; 、 对潍坊网通系统的数据挖掘算法的实现进行了研究,以及对整 个系统的结构和功能设计进行研究和实现; 、 结合客户流失分析,研究了数据挖掘技术在潍坊网通系统中的 应用。 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计 与实现 第二章数据仓库的理论基础 .数据仓库的概念 数据仓库概念始于本世纪年代中期,首次出现是在数据仓库之父锄 的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维 护等方面的深刻认识和不断完善,在总结、丰富、集中多种企业信息的经验之后, 为数据仓库给出了更为准确的定义,即“数据仓库是在企业管理和决策中面向主 题的、集成的、与时间相关的、不可修改的数据集合,是存储数据的一种组织形 式”嘲。 数据仓库是面向主题的 所谓主题是指企业或组织的高层实体,如顾客、销售商、产品活动等。传统 的操作型系统是面向过程或功能的,如缴费、存款等。传统的操作型系统的设计 包括数据库设计和过程设计两个方面的内容。而数据仓库设计只考虑数据模型和 数据库设计,因为主题是相对稳定的,而过程则可能处于不断的 变化之中。 “主题”在数据仓库中是由一系列表实现的。也就是说,依然是基于关系数 据库的。虽然现在许多人认为多维数据库更适用于建立数据仓库,它以多维数组 形式存储数据,但目前的事实是:“大多数多维数据库在数据量超过字节时 效率不佳”。一个主题之下包含许多表,表的划分可能是由于对数据的综合程度 不同,也可能是由于数据所属的时间段不同而进行的划分。但无论如何,基于一 个主题的所有表都含有一个称之为公共码键的属性作为其主码的一部分。公共码 键将各个表统一联系起来,从根本上体现出它们属于一个主题。比如:基于“客 户”这一主题的所有表都包含公共码键 。同时,由于数据仓库 中的数据都是同某一时刻联系在一起的,所以每个表除了其公共码键之外,还必 然包括时间成分作为其码键的一部分。因为数据仓库包含的都是历史数据,它的 表必然包括对应的时间属性。数据仓库里的数据是时序的。 有一点需要说明的是,同一主题的表未必存在同样的介质中,根 据数据被关 心的程度不同,不同的表分别存储在磁盘、磁带、光盘等不同介质中。一般而言, 年代久远的、细节的或查询概率低的数据存储在廉价慢速设备如磁带上,而 近期的、综合的或查询概率高的数据则可以保存在磁盘等介质上。 数据仓库是集成的 操作型系统由于面向过程或功能的,从而导致在不同的应用系统会出现以下 不合理的现象:数据编码的不一致:数据的量度标准不一致。通过数据仓库很好 的解决了这一问题。在数据仓库中,通过集成使数据从命名、量度标准、编码结 第页潍坊网通数据仓库系统的设计与实现 北京邮电大学硕士学位论文 构以及数据的物理属性等均取得了一致。 数据仓库是与时间密切相关的 数据仓库中数据的时间特性具体体现在以下几个方面: ?数据仓库中数据代表了事务在很长的时间段内的变化 ?数据仓库中数据的键结构通常与时间有关 ?数据仓库中数据一旦确定,则通常不再进行更改 数据仓库是稳定的 在操作型系统中,数据库的数据经常以记录为单位进行插入、删除和修改等 操作。但数据仓库的主要目的是为管理人员的决策提供查询帮助,因此,数据仓 库中数据操作极为简单。通常数据仓库中的数据操作有两种类型:数据的载入和 存取,而无需修改。因此数据仓库中的数据是稳定的。 数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于 工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析, 并按其关键技术部分分为数据的抽取、存储与管理以及数据的表现等三个基本方 面。 数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一 个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据 源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、 复制、增量、转换、调度和监控等方面。数据仓库中的数据并不 要求与联机事务 处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时 间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的 组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形 式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技 术特点着手分析。 数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集 中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现 形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提 供基于前端联机分析界面,而不仅仅是在网上发布数据。 数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数 据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用 这些综合数据为用户提供经过处理后的有用信息的应用系统”。。如果说传统数 据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话, 那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据, 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 经过加工转换成有规律信息之后,再供管理人员进行分析使用。 .数据仓库的数据组织 .. 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构如图?所示“: 高度综合级 轻度综合级 当前细节级 早期细节级 图?数据仓库的数据组织结构图 在数据仓库中数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进一步 综合从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。数据 仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表示细节程度越低, 综合程度越高。级别的划分是根据粒度进行的。 数据仓库中另一重要数据是元数据。元数据是描述数据仓库内数据的结构和 建立方法的数据。可将其按用途的不同分为两类:技术元数据和商业元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使 用的数据。包括:数据源信息、数据转换的描述、数据仓库内对象和数据结构的 第页潍坊同通数据仓库系统的设计与实现 北京邮电大学硕士学位论文 定义、数据清理和数据更新使用的规则、源数据到目的数据的映射、用户访问权 限、数据备份历史记录、数据导入历史记录、信息发布历史记录等。 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的 描述,包含的数据、查询、报表。 元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库 中都有什么数据、这些数据怎么得到的和怎么访问这些数据。元数据是数据仓库 运行和维护的中心,数据仓库服务器利用它来存储和更新数据,用户通过它来了 解和访问数据。 ..数据仓库中的粒度与分割”’ 粒度是数据仓库中的重要概念。它是对数据仓库中的数据的综合程度高低的 一个度量。如图?所示,数据仓库中有四个不同概括程度的数据粒度。这种 概括程度不仅影响数据仓库中数据量的多少,而且也决定了数据仓库所能回答的 问题种类和详细程度。一般来说,粒度越小,综合程度越低,细节程度越高,则 回答问题的能力就越强,回答的种类就越多。 在数据仓库中,多重粒度是必不可少的。由于数据仓库是用于决策分析的, 因此其绝大多数的联机分析都是基于一定程度的综合数据之上的,而只有极少的 查询涉及细节。将不同粒度的数据加以区分,并选用不同的存储 方式对提高系统 的性能非常有利。一般来说,简单大粒度数据存储于快速设备上,这样对于绝大 多数的查询,性能将大大提高。而将小粒度的数据存储在低速的设备上,万一有 对细节数据的查询,也可以满足。 分割是数据仓库中的另一个重要概念。它是指将数据分散到各自的物理单元 中去以使能够分别独立处理,以提高数据处理的效率。在进行实际的分析处理时, 往往根据数据的某种相关性来进行分割。例如根据时间段的数据分割,根据地区 范围的数据分割,根据商品类型的数据分割。数据经过分割后的数据单元称之为 数据分片,数据分片内的数据相对独立,处理起来更快,同时也更容易索引、重 组、恢复。 数据分割分为系统级和应用级两种。系统级的分割是由和操作系统 实现的。而应用级的分割是由开发人员和程序员通过应用代码来直接控制的。应 用级的分割更为灵活,便于提高系统的性能。因此,在数据仓库的 设计中,应用 级的分割使用得更为普遍。 ..数据仓库中的数据存储 目前的数据仓库,都是以传统的关系型数据库为基础的,所以数据最终都表 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 现为表格的形式,本文所指的数据存储是指数据存放的组织形式。 简单堆积型: 就是将每日数据库中提取并加工的数据逐天积累起来。这种方式能够保存大 量的细节数据,对于细节类的数据分析非常的适宜,但是对总体型的分析不太合 适,效率比较低。因为这种方式只是对不同来源的数据进行了简单的整理和集成, 并没有对数据进行各个层次的综合。 轮转综合文件: 这种存储形式是在简单堆积文件的基础上实现数据的轻度综合和高度综合。 数据存储单元根据时间属性被分为日、周、月、季、年等几个级别。在一个星期 的七天中,数据被逐一记录到每日数据集中;然后七天的数据被综合,记录在周 数据集合中。接下去是新的星期,数据仍然被记录到每日数据集中。同理,当周 数据集达到五个以后,数据再被综合到月数据集合中。依此类推,先将细节数据 综合为周,然后再综合为月,再综合为季,最后综合为年,每次综合都是定期执 行的。这种组织形式不仅可以获取必要的细节性的分析数据,而且对于一些综合 度较高的分析也可以不必损失时间,提高了效率。其缺点是存储空间冗余。 .数据仓库的三级数据模型 数据模型是对现实世界进行抽象的工具。操作型环境和分析型环境的数据模 型均由整体数据模型发展而来。整体数据模型仅含有原始数据,从整体数据模型 到操作数据模型的变化是很少的。两种数据模型基本等价,只是在操作型数据模 型中增加了一些性能因素,以提高系统的性能。而数据仓库的数据模型的变化却 很大:首先删除了那些纯操作型的数据:其次,扩充了码结构,增 加了时间属性; 并增加了一些导出数据。虽然存在这样的差别,在数据仓库设计中,仍然存在着 三级数据模型,即:概念模型、逻辑模型和物理模型”。 ?概念模型: 概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统、 收集信息而服务的一个概念性工具。对计算机系统来说,概念模型是客观世界到 机器世界的一个中间层次。概念模型最常用的表示方法是?法实体关系。 ?法用.图作为它的描述工具。由于?图具有良好的可操作性,形式简单, 易于理解,便于与用户交流,对客观世界的描述能力也较强,在数据库设计方面 得到广泛的应用。因为目前的数据仓库一般建立在关系数据库的基础上,为了和 原有数据库的概念模型一致,采用?图作为数据仓库的概念模型是合适的。 ?逻辑模型: 由于目前数据仓库一般建立在关系数据库基础上,因此,在数据仓库的设计 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 中采用的逻辑模型就是关系模型。无论是主题还是主题之间的联系,都用关系来 表示。关系模型概念简单、清晰、易懂、易用,有严格的数学基础和在此基础上 发展的关系数据理论;关系模型简化了程序员的工作和数据仓库设计开发的工 作,当前比较成熟的商品化数据库产品都是基于关系模型的,因此采用关系模型 作为数据仓库的逻辑模型是合适的。 ?物理模型: 所谓数据仓库的物理模型就是逻辑模型在数据仓库中的实现,如物理存取方 式、数据存储结构、数据存放位置以及存储分配等等。物理模型是在逻辑模型的 基础上实现的,在进行物理模型设计实现时,所考虑的主要因素是/存取时 间、空间利用率和维护代价。在进行数据仓库的物理模型设计时,考虑到数据仓 库的数据量大但操作单一的特点,有时可以利用一些能提高数据仓库性能的技 术,如:合并表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、 建立广义索引等。 .数据仓库工具 数据仓库中的工具以分析型为主,但仍然包括查询工具。我们这里所提出的 查询,并不是对数据记录的查询,而是对分析结果的查询,它面向的用户为中高 层领导,主要执行决策和趋势分析类应用。用户从数据仓库采掘信息时可能有多 种不同的方式,但大体上可以分成两种模式,即验证型和发掘型?。 ?验证型工具 用户首先提出自己的假设,然后利用各种工具通过反复的、递归的检索查询 以验证或否定自己的假设。从用户的观点来看,他们从数据仓库中发现事实。这 方面的工具主要是多维分析工具。联机分析处理需要多维分析工具。 多维分析工具通过对信息的多种可能的观察角度进行快速、一致和互义的存取, 从而使分析员、经理和行政人员能够对数据进行深入的分析和观 察。通过 服务器,将来源于关系型数据库的数据转换和抽取为一种新型数据??多维数 据,以反映用户所能理解的企业的真实的维。 ?发掘型工具 发掘型应用主要负责从大量数据中发现数据模式,预测趋势和行为。与验证 型工具一个很大不同在于:用户在整个信息的发掘过程中无需或只需很少的指 导。发掘型的工具主要指的是数据挖掘。数据挖掘是一种从大型数据库中提取隐 藏的预测性信息的新技术。与验证型工具不同,数据挖掘是一种展望和预测型工 具,它能挖掘数据间潜在的模式,发现经营者可能忽略的信息,并为企业做出前 摄的、基于知识的决策。 第儿页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 查询工具、验证型工具、发掘型工具结合在一起构成了数据仓库的工具层, 它们各自侧重点不同,因此适用的范围和针对的用户也各不相同。从工具对数据 分析的深度来看,验证型工具处于较浅的层次,而发掘型工具处于较深层次的工 具。从工具实现的数据分析模型来说,验证型工具主要实现了前三种模型,即绝 对模型、解释模型和思考模型;而发掘型工具则实现了第四种分析模型,即公式 模型。 .联机分析的基本概念 . 的概念 根据委员会的定义,. ?” 是一类软件 技术,使分析、管理或执行人员能从多种角度对信息快速、一致、交互的存取, 从而更深入了解数据”。这里所说的信息是从原始数据中转化而来的,能真实反 映企业单位维特性,而且用户能真正理解。 包括以下概念: 、维 是人们观察客观世界的角度,一种高层次的类型划分。维有以下三种类型: ?概念上的:多个列属于同一维,如地点维,从而在属性问关系的 基础上 创建一个层次结构。 ?数字的:用于那些具有连续数字值的列属性。系统能自动划分其中的值, 生产层次。 ?日期/时间 、维的层次 人们观察数据的某个特定的角度,还可以存在细节程度不同的多个描述方 面,称这多个描述方面为维的层次。一个维往往具有多个层次。 、维成员 维的一个取值称为该维的一个成员。如果一个维是多层次,那么该维的维成 员是在不同维层次的取值的组合。 、度量 将某几个列属性加入度量,选择合适的聚合形式,例如总和、平均值和最大 /最小值等,这些度量在分析数据时就可以用来作为分析标准。 、多维数组 一个多维数组可以表示为维,维,?,维,度量 系统注重对相对大容量的、主要是聚合的数据进行分析,其基本特征 第页潍坊网通数据仓库系统的设计与实现 北京邮电大学硕士学位论文 是综合用户数据进行动态多维分析,提供给用户快速一致的查询响应速度。 查询通过检查历史数据,确定其发展趋势和异常的情况,并找出导致 异常的原因,从而为管理人员决定决策提供有效的帮助。这一概念包括以下几个 方面的内容: ?应能够提供在给定的时间框架里进行信息检索的功能 ?应能够运行支持多维“信息片”的查询 ?应提供以时间为坐标的时间序列分析功能 ?应支持不同维的数据相关分析的功能,如两种看起来毫不相关的 产品类型的销售量相关分析 应具有以下功能: 数据的切割功能:即可以按照用户需求提供给用户所需查询的那部分数据; 透视功能:即按照数据层次管理从上层钻到下层去取数据,以满足用户的查 询需求; 寻觅功能:即按照用户特定的和个别的需求去查找数据; 回翻功能:即可追溯回用户查找数据的全过程。 ..多维数据结构 在联机分析处理系统中,数据是以多维的结构进行组织的,这种多维的结构 也称作立方体结构。如图?所示,一个数据立方体最基本的单位是一个数据 单元,这个数据单元称为度量,它代表了数据的实际意义,是以后用来查询分析 时所用到的实际数值。 在数据立方体中,度量通过多个数据维来定位。每个维都表示某一类的数据, 它是人们观察数据单元的特定角度。在数据立方体中数据维相当于一个坐标轴, 数据维里的数据都被限定在各自维的定义域内,坐标轴上的坐标对应维成员变量 的相应的取值。 坐标轴 量 图?数据立方体 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 对每个数据维来说,可以存在一个或多个等级结构,如图?所示, 每个 等级结构是一棵树。位于等级结构顶部的是树根,位于等级结构底部是 一个或多个叶子。等级结构可以被分为多个级,任何一级都可 以被看做是数据维里的一类数据。在每个级中,一般由多个成员组成。由所 有成员组成的集合包含了该级别中所表示的数值的全体。等级结构的顶部存放了 粗略划分的数据集合,而在底部则包含了精细划分的数据集合。 图?等级结构 .多维与关系 目前在实现上,主要有两种数据组织方式:一种建立专用的多维数 据库系统,另一种仍然利用现有的关系数据库来模拟多维数据库。 .. 基于多维数据库的买现即 以多维数据库为核心,也就是说,使用多维数据库管理系 统来管理所需要的数据或数据仓库。多维数据库就是以多维的方式存储数据,以 多维的方式来显示数据。 “维”是人们观察客观世界的角度,但多维数据库中维不是随意 定义的,它 是一种高层次类型的划分。如产品可以作为维,而产品的颜色、产品商标等一般 不能作为维。“维”一般包含着层次关系,这种层次关系有时会相对复杂。多维 数据库在存储中将生成“超立方体”的结构,在中对“超立方体”的“旋 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 转”、“切块”、。切片”是产生多维数据报表的主要技术。 ..基于关系数据库的实现即 以关系数据库为核心,以关系结构星型模型或雪花模型进行多 维数据的表示和存储。这样在实际实现时,可以根据需要进行均衡。对某些层次 复杂、成员类较多的维采用多张表来描述,而对于较简单的维可以用一张表来描 述。 一般来说,通过把事实表和每一个维表联系起来,经过一次查询,就可以从 事实表里选取事实。该方式使用户和分析人员可以用商业名词元数据名或标记 来描述一个需求,该需求被重新翻译成每一个维的代码或值。但 是对每一个维都 需要一次连接,性能就成为此方案的关键问题。当维和事实表变大时,就需要各 种不同类型的查询优化,数据仓库中需要各种索引技术。 . 与的关系及比较 为数据库或数据仓库,其最终数据来 源与. 一样均来自底层的数据库系统,但 由于二者面对的用户不同,数据的特点和处理也明显不同见表?所示,由 表?可见,与是两种不同的应用,面对的是操作人员和底 层管理人员,面对的是决策人员和高级管理人员;是对基本数据进 行查询和增删修改操作,它以数据库为基础,而更适合以数据仓库为基 础的数据分析处理。其历史的、导出的及经综合提炼的数据均来自 所依赖的底层数据库。数据较数据要多一些数据多维化或预综合处 理,建立不同级别的统计数据,从而满足快速统计分析和查询的要求。 表? 与的比较 限数据 数据 原始数据 导出数据 细节数据 综合性数据或提炼性数据 当前值数据 历史数据 可更新 不可更新、但周期性刷新 一次处理的数据量小 一次处理的数据量大 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 面向分析、分析驱动 面向应用、事务驱动 面向决策人员、支持管理需求 面向操作人员、支持日常操作 .数据挖掘 数据挖掘是从海量的数据中提取或挖掘知识,就是从数据集中识别出有效 的、新颖的、潜在有用的以及最终可理解模式的高级处理过程”。它挖掘的对象 不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集合。 数据挖掘过程“? ?数据准备:数据挖掘处理的对象是大量的数据,这些数据一般 存储在数 据库系统,是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖掘, 需要做数据准备工作,一般包括数据的选择选择相关的数据、净化消除噪 音、冗余数据、推测推算缺失数据、转换离散值数据与连续值数据之间 的相互转换,数据值的分组分类,数据项之间的计算组合等、数据缩减减少 数据量。如果数据挖掘的对象是数据仓库,那么这些工作往往在生成数据仓库 时已经准备妥当。数据准备是数据挖掘的第一个步骤,也是比较重要的一个步骤。 数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。 ?数据挖掘:数据挖掘是最关键的步骤,也是技术难点所在。研究数据挖 掘的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚 类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据目的,选取相应 算法的参数,分析数据,得到可能形成知识的模式模型。 ?评估、解释模式模型:上面得到的模式模型,有可能是没有实际意义或 没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况 下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以 根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。这个步骤还 包括把模式以易于理解的方式呈现给用户。 ?巩固知识:用户理解的、并被认为是符合实际和有价值的模式模型形成 了知识。同时还要注意对知识做一致性检查,解决与以前得到的知识互相冲突、 矛盾的地方,使知识得到巩固。 ?运用知识:发现知识是为了运用,如何使知识能被运用也是数据挖掘的 步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果, 就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的 问题,而需要对知识做进一步的优化。 数据挖掘过程可能需要多次的循环反复,每一个步骤一旦与预期 目标不符, 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 都要回到前面的步骤,重新调整,重新执行。 数据挖掘的分类 数据挖掘的任务是从数据中发现模式。模式是一个用语言来表示的一个 表达式,它可用来描述数据集中数据的特性,所描述的数据是集合的一 个子集。作为一个模式要求它比列举数据子集中所有元素的描述方法简 单。例如,“如果成绩在~之间,则成绩优良”可称为一个模式,而“如 果成绩为、、、、、、、、或,则成绩优良”就不能称 之为一个模式。 模式有很多种,按功能可分为两大类:预测型模式和描述型 州模式。 ?预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测 型模式所使用的数据也都是可以明确知道结果的。例如,根据各种动物的资料, 可以建立这样的模式:凡是胎生的动物都是哺乳动物。当有新的 动物资料时,就 可以根据这个模式判别此动物是否是哺乳动物。 ?描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性 把数据分组。描述型模式不能直接用于预测。例如:在地球上,%的表面是水, %是土地。 在实际应用中,往往根据模式的实际作用细分为以下种: ?分类模式:分类模式是一个分类函数分类器,能够把数据集中的数 据项映射到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的值从 树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。 ?回归模式:回归模式的函数定义与分类模式相似,它们的差别在于分类 模式的预测值是离散的,回归模式的预测值是连续的。如给出某种动物的特征, 可以用分类模式判定这种动物是哺乳动物还是鸟类:给出某个人的教育情况、工 作经验,可以用回归模式判定这个人的年工资在哪个范围内,是在元以下, 还是在元到万元之间,还是在万元以上。 ?时间序列模式:时间序列模式根据数据随时间变化的趋势预测将来的值。 这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年 等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要 特殊考虑的地方如时间前后的相关性过去的事情对将来有多大的影响力等。 只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预 测将来的值。 ?聚类模式:聚类模式把数据划分到不同的组中,组之间的差别尽可能大, 组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 和什么样的组,也不根据哪一个数据项来定义组。一般来说,业务知识丰富的人 应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能 是无意义的,需要回到上阶段重新组织数据。 ?关联模式:关联模式是数据项之间的关联规则。关联规则是如下形式的 一种规则:“在无力偿还贷款的人当中,%的人的月收入在元以下。” ?序列模式:序列模式与关联模式相仿,而把数据之间的关联性与时问联 系起来。为了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发 生的时间。例如,在购买彩电的人们当中,%的人会在个月内购买影碟机。 在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用 最普遍的模式。分类模式、回归模式、时间序列模式也被认为是受监督知识,因 为建立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的产 生是在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样 本,用另一部分数据来检验、校正模式。聚类模式、关联模式、序列模式则是非 监督知识,因为在模式建立前结果是未知的,模式的产生不受任 何监督。 .关联规则的挖掘模型?儿” 在前面我们已经粗略介绍了关联挖掘,下面进行详细讨论。 设订,,?,是一组物品集,是一组事务集称之为事务 数据库。中的每个事务是一组物品。 如果不考虑关联规则的支持度和可信度,那么事务数据库中存在无穷多的关 联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。 在文献中,一般称满足一定要求的如较大的支持度和可信度规则为强规则。 因此,为了发现出有意义的关联规则,需要给定两个阀值:最小支持度和最小可 信度。前者即用户规定的关联规则必须满足的最小支持度;后者即用户规定的关 联规则必须满足的最小可信度。当事务数据库中支持物品集的事务频度大 于最小支持度,称物品集是大物品集或频繁项目集。 关联规则发现的任务或问题是:给定一事务数据库,求出所有满足最小支 持度和最小可信度的关联规则。该问题可以分解为两个子问题: 求出中 满足最小支持度的所有频繁集; 利用频繁集生成满足最小可信度 的所有关联规则。 计算关联规则的关键是第一个子问题,即如何高效地求出频繁集。目前在关 联规则发现的研究论文中提出的几种方法都是围绕此问题而来的。典型的算法有 和算法。算法的基本思想是如果物品是频繁物品集,则 的任一子集必定也是频繁物品集;反过来说,如果有一子集不是频繁物品 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 集,则肯定也不是。 实现第二个子问题相对比较简单。一般思想是:对于频繁物品集的所有非 空子集,如果的支持度/的支持度最小可信度,则规则一成立。 在此基础上可以对算法进一步改进。 若规则一一一的可信度?,则规则一的可信 度? . 所以可以首先求出规则右边只含一个物品的规则,然后根据上述规则迭代求 出右边含个、个?物品的规则。这样就大大提高了生成规则的效率。 ., 州算法 求解频繁物品集的算法一般都需要对源数据进行多遍扫描。第一遍扫描计算 单个物品的支持度并去除小于最小支持度的物品,并把剩下的作为种子物品集。 在以后的扫描中,每次根据上次扫描生成的种子物品集来生成候选物品集,并根 据候选物品集生成数轮扫描的最终频繁物品集。并把它作为下一次扫描的种子物 品集,然后继续下一轮的扫描。 一算法是在算法和算法基础上的改进。在算法和 算法中候选物品集在扫描数据时同时生成。即每读完一次事务后,根据事务 中所有上次扫描生成的频繁物品集的物品,来生成本轮的候选物品集。这是通过 对上一轮得到的频繁物品集进行扩展一维实现的,扩展的那一维物品则必须在事 务中。 而对于研硎算法,在生成候选物品集时,只使用了上一轮扫描生 成的频 繁物品集,而不再考虑数据库中的事务。这一过程如下面的算法描述。 它的主要思想就是上面提到的:如果物品集是频繁物品集,则的任一 子集必定也是频繁物品集。因此维的候选物品集可以由一维的频繁物品 集进行联合来生成,并去除那些存在子集不是频繁物品集的那些集合。采用这种 算法,生成的候选物品集的数目明显少于用算法和算法生成的数目。 因此大大提高了效率。 算法描述如下: ?; ;一?; 一??; 仃卸 ? 第页北京邮电大学硕士学位论文 潍坊同通数据仓库系统的设计与实现 鲫似,; ? .一卜: : ? .? : ; .,.,..,.?,.? ? , ,.,...,.一.一,..? 】 ? ’ ?一 ;..关联规则的产生 ,为的任意 为了产生关联规则,考虑以下结论。设为一个唱 非空子集,卜是关联规则当且仅当/根据这个结论, 最直接的算法是:对于每个 ,分别验证它的非空子集,从而找出 所 有的关联规则。 但问题并不就这样简单,因为还必须要充分考虑算法的执行效 率。为此再给 出以下的结论;如果关联规则?不成立,那么对任意向量真包含于 ,关联规则向量卜向量也不成立,该结论为设计高效的算法提供 了导向。 对某个 ,首先产生后键为唱?的关联规则: .。然后利用所有这些后键,使用函数,产生后键’为唱 一的关联规则.。依次类推,直到递归结束。完整的算法如下: ?,三 关联规则的后键这种关联规则由,并且后键为?: 』,; , 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计 与实现 ?; ? 捌? ; ? : 印一,; .本章小结 在这一章中,首先详细介绍了数据仓库的理论,包括数据仓库概 念、特点和 数据的组织方式。其次介绍了数据仓库的三级数据模型和数据仓 库工具。接着介 绍了联机分析处理技术和数据挖掘技术。最后比较分析了 和技术,并详细介绍了关联规则挖掘的经典算法谢算法,和关联 规 则生成算法。这些为后面的数据仓库的设计奠定了理论基础。 数据仓库不是产品,而是一个解决方案。它的设计和开发要针对具体的需求 环境和用户关心的主题来进行,这些在后续的章节中将进一步阐述。 第页北京邮电大学硕士学位论文 潍坊网通数据仓库系统的设计与实现 第三章潍坊网通蝴数据仓库的设计 . 数据仓库的设计步骤 数据仓库的系统设计是一个动态的反馈和循环的过程。一方面数据仓库的数 据内容、结构、粒度、分割以及它的物理设计根据用户所返回的信息不断的调整 和完善,以提高系统的效率和性能;另一方面,通过不断的理解用户的分析需求, 向用户提供更准确、更有用的决策信息。相比之下,数据仓库的设计不具有像数 据库设计那样可以明确划分的设计阶段。通过对潍坊网通数据仓库的设计 和实施,总结出数据仓库设计的一般步骤如图?所示。 图?数据仓库的设计步骤 、概念模型、逻辑模型设计 设计数据仓库的数据模型是建立数据仓库的第一个步
/
本文档为【1潍坊网通CRM数据仓库系统的设计与实现(可编辑)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索