为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 数据采集处理项目技术方案

数据采集处理项目技术方案

2019-03-30 31页 doc 2MB 61阅读

用户头像 个人认证

不系舟红枫

从教近30年,经验丰富,教学水平较高

举报
数据采集处理项目技术方案XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案xxx大数据库中心数据库投资商和企业数据采集处理项目项目编号:I5300000000617001206技术方案xxx有限公司二○一七年六月目录31引言31.1项目背景31.2项目目标31.3建设原则41.4参考规范51.5名词解释72云数据采集中心72.1需求概述72.2总体设计102.3核心技术及功能343大数据计算平台343.1需求概述343.2总体设计353.3数据模型设计384数据运营384.1数据挖掘分析384.2数据分析处理的主要工作394.3数据分析团...
数据采集处理项目技术方案
XXX大数据库中心数据库投资商和企业数据采集处理项目-技术xxx大数据库中心数据库投资商和企业数据采集处理项目项目编号:I5300000000617001206技术方案xxx有限公司二○一七年六月目录31引言31.1项目背景31.2项目目标31.3建设原则41.4参考51.5名词解释72云数据采集中心72.1需求概述72.2总体设计102.3核心技术及功能343大数据计算平台343.1需求概述343.2总体设计353.3数据模型设计384数据运营384.1数据挖掘分析384.2数据分析处理的主要工作394.3数据分析团队组织和管理425安全设计466风险分析477部署方案488实施499技术规格偏离表5210售后服务承诺5511关于运行维护的承诺5612保密措施及承诺5813培训计划1引言1.1项目背景XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。1.2项目目标制定招商大数据运营规范及管理办法。制定招商大数据相关元数据,完成相关数据的采集、整理与存储。根据业务需求,研发招商大数据招商业务分析模型,并投入应用。根据运营规范及管理办法的要求持续开展数据运营工作。1.3建设原则基于本项目的建设要求,本项目将遵循以下建设原则:前瞻性和高标准整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻性。经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。先进性和成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。1.4参考规范GB/T20269-2006信息安全技术—信息系统安全管理要求GB/T20984-2007信息安全技术—信息安全风险评估规范GB/T22239-2008信息安全技术—信息系统安全等级保护基本要求GB/T22240-2008信息安全技术—信息系统安全等级保护定级指南GA/T388-2002B计算机信息系统安全等级保护管理要求GB/T8567-1988计算机软件产品开发文件编制指GB/T11457-1995软件工程术语GB/T11457-2006信息技术软件工程术语GB/T16260.1-2006软件工程产品质量第1部分:质量模型GB/T16260.2-2006软件工程产品质量第2部分:外部度量GB/T16260.3-2006软件工程产品质量第3部分:内部度量GB/T16260.4-2006软件工程产品质量第4部分:使用质量的度量GB/T14394-2008计算机软件可靠性和可维护性管理GB/T17544-1998信息技术软件包质量要求和测试1.5名词解释·S2DFS:简单存储分布式文件系统(SimpleStorageDistributedFileSystem)·D2B:分布式数据库(DistributedDatabase)·JSS:作业调度服务(JobSchedulerService)·DCS:数据计算服务(DataComputerService)·MPS:消息处理服务(MessageProcessService)·SDS:流数据处理服务(StreamDataService)·DMQ:分布式消息队列(DistributedMessageQueue)·JGS:作业生成服务(JobGenerationService)·ACS:自动清理服务进程(AutomaticCleaningServices)·HTTP:超文本传输协定(HyperTextTransferProtocol)·SMB:服务器信息块协议(ServerMessageBlock)2云数据采集中心2.1需求概述根据规划,云数据采集中心的建立至少满足1至2年内的数据存储和计算规模,需要满足:·数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。·总数据容量至少达到30T。2.2总体设计整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/WEB/APP软件的WEB及消息服务器,用来部署用PostgreSQL关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据,索引数据,log数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数据计算服务进程(DCS)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的64位操作系统CentOS6.5(也可以选择RHEL6.5x64);其核心软件或者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调度服务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处理服务进程(MPS)、流数据处理进程(SDS)等等。WEB及应用服务器软件Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云数据采集中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及UI表达层,功能实现需要基于软件平台层的支撑,后期设计和实施的主体。该层的主要功能应用有:数据采集应用、数据统计应用、云数据采集中心的资源监控及调度。通过公共数据网(电信、联通、移动)和HTTP协议,把采集的海量文本、图片数据以及用户行为数据存储在云数据采集中心里,以供后期分析计算用。云数据采集中心整体架构图云数据采集中心网络结构图2.3核心技术及功能2.3.1分布式文件存储技术(1)传统存储技术面临的问题:构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、文件系统难以扩展,容易形成瓶颈。扩展性困难:技术存在瓶颈(Scale-up架构决定的)、扩展成本无法控制。可用性问题:潜在的单点故障,数据恢复困难,代价高。应用目标差异:主要面临运营商、金融行业的OLTP应用、很少针对海量的流数据,或者非结构化数据进行设计和优化。异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技术架构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的存储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用x86部件之上的高可用、高可靠、高可扩展的新型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用服务器、SATA/SAS硬盘以及以太网络来构建媲美企业级存储产品的存储系统。(2)分布式文件系统应对的数据特性和访问特性:数据量巨大,数百TB或PB级,增长迅速;类型多样化,包括图像、文本、语音、视频等文件数据;按时间有序生成,数据均带有时间标志;前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录或者上GB量数据;更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类型的数据存在联合分析查询;分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性,任意单一节点失效均不会导致数据丢失和数据服务的正常运行;同时,分布式文件系统通过良好设计的系统结构和数据分布策略,可保证系统性能的高可扩展性,并支持存储容量/性能的在线扩展。相比较于DAS(直连存储)、SAN(存储区域网络)和NAS(网络存储),应用分布式文件系统构建的网络存储系统更像是一个NAS,提供类似于传统NAS的文件级访问接口(SAN和DAS都是块设备级别的访问接口)。(3)分布式文件系统与传统NAS/SAN设备的比较: 比较项 高端NAS FC-SAN 分布式文件系统 性能 一般双端口,性能受机头影响,难以扩展,出口带宽是瓶颈 一般双端口,性能受机头影响,难以扩展,IOPS较好 性能随节点数的增加成线性增长 扩展能力 性能及容量无法扩展,或者有限扩展 能较好扩展,但成本高昂 性能及容量按需扩展,动态均衡 可用性 RAID方式保护,双机保护,停机RAIDRebuid,耗时 RAID方式保护,双机保护,停机RAIDRebuid,耗时 基于灵活的多副本机制,自动检测,自动故障恢复,无需停机 数据管理 企业级功能需要单独购买 企业级功能需要单独购买(还需要单独的文件系统,100多万一套) 内嵌多种企业级应用:快照、镜像、回收站 成本 专有的硬件平台,软件拥有成本高,扩展成本高 专有的硬件平台,软件拥有成本高,扩展成本高 开发通用的硬件平台,一体化的软件,成本低,扩展成本低 可维护性 专门的技术支持服务,需要培训 结构异常复杂,需要大量培训,厂商服务昂贵 内嵌多种自动化的故障检测和恢复功能,国内开发,技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统NAS通常以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和单一故障点。而分布式文件系统则有多个节点集合地提供服务,由于其结构特征,分布式文件系统的性能和容量均可在线线性扩展,并且系统内不存在单一故障点。对比参看下面两幅示意图:传统存储架构图分布式文件系统架构图分布式文件系统的设计应用特别适合海量非结构化数据存储,大量客户端并发的I/O密集型应用。目前,分布式文件系统已经被应用于政府、医疗影像、勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特征均为:数据量巨大,I/O吞吐率高,数据增长迅速以及数据可用性要求高。经过长时间的实际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案。布式文件系统的服务器端程序运行于Linuxx64系统之上,支持多种Linux64位发行版,包括Redhat、CentOS等。分布式文件系统客户端则支持Linux和Windows,同时分布式文件系统还可以通过第三方软件输出CIFS和NFS接口,可以兼容大多数应用。(4)分布式文件系统的核心技术及特征:扩展性和高性能:分布式文件系统利用双重特性来提供几TB至数PB的高扩展存储解决方案。Scale-Out架构允许通过简单地增加资源来提高存储容量和性能,磁盘、计算和I/O资源都可以独立增加,支持10GbE和InfiniBand等高速网络互联。分布式文件系统弹性哈希(ElasticHash)解除了分布式文件系统对元数据服务器的需求,消除了单点故障和性能瓶颈,真正实现了并行化数据访问。高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下也能正常访问。自我修复功能能够把数据恢复到正确的状态,而且修复是以增量的方式在后台执行,几乎不会产生性能负载。分布式文件系统没有设计自己的私有数据文件格式,而是采用操作系统中主流标准的磁盘文件系统(如XFS/EXT4/ZFS)来存储文件,因此数据可以使用各种标准工具进行复制和访问。全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或收缩。当存储虚拟机映像时,存储的虚拟映像文件没有数量限制,成千虚拟机均通过单一挂载点进行数据共享。虚拟机I/O可在命名空间内的所有服务器上自动进行负载均衡,消除了SAN环境中经常发生的访问热点和性能瓶颈问题。弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中定位数据,而不是采用集中式或分布式元数据服务器索引。在其他的Scale-Out存储系统中,元数据服务器通常会导致I/O性能瓶颈和单点故障问题。分布式文件系统中,所有在Scale-Out存储配置中的存储系统都可以智能地定位任意数据分片,不需要查看索引或者向其他服务器查询。这种设计机制完全并行化了数据访问,实现了真正的线性性能扩展。弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统,这些操作都可在线进行。文件系统配置更改也可以实时在线进行并应用,从而可以适应工作负载条件变化或在线性能调优。完全软件实现(SoftwareOnly):分布式文件系统认为存储是软件问题,不能够把用户局限于使用特定的供应商或硬件配置来解决。分布式文件系统采用开放式设计,广泛支持工业标准的存储、网络和计算机设备,而非与定制化的专用硬件设备捆绑。对于商业客户,分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器打包,或者是公有云中部署的映像。开源社区中,分布式文件系统被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实现,完全独立于硬件和操作系统。·完整的存储操作系统栈(CompleteStorageOperatingSystemStack:分布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多其他重要的分布式功能,比如分布式内存管理、I/O调度、软RAID和自我修复等。分布式文件系统汲取了微内核架构的经验教训,借鉴了GNU/Hurd操作系统的设计思想,在用户空间实现了完整的存储操作系统栈。用户空间实现(UserSpace):与传统的文件系统不同,分布式文件系统在用户空间实现,这使得其安装和升级特别简便。·模块化堆栈式架构(ModularStackableArchitecture):分布式文件系统采用模块化、堆栈式的架构,可通过灵活的配置支持高度定制化的应用环境,比如大文件存储、海量小文件存储、分布式文件系统、多传输协议应用等。每个功能以模块形式实现,然后以积木方式进行简单的组合,即可实现复杂的功能。比如,Replicate模块可实现RAID1,Stripe模块可实现RAID0,通过两者的组合可实现RAID10和RAID01,同时获得高性能和高可靠性。·原始数据格式存储(DataStoredinNativeFormats):分布式文件系统以原始数据格式(如EXT3、EXT4、XFS、ZFS)储存数据,并实现多种数据自动修复机制。因此,系统极具弹性,即使离线情形下文件也可以通过其他标准工具进行访问。如果用户需要从分布式文件系统中迁移数据,不需要作任何修改仍然可以完全使用这些数据。·无元数据服务设计(NoMetadatawiththeElasticHashAlgorithm):对Scale-Out存储系统而言,最大的挑战之一就是记录数据逻辑与物理位置的映像关系,即数据元数据,可能还包括诸如属性和访问权限等信息。传统分布式存储系统使用集中式或分布式元数据服务来维护元数据,集中式元数据服务会导致单点故障和性能瓶颈问题,而分布式元数据服务存在性能负载和元数据同步一致性问题。特别是对于海量小文件的应用,元数据问题是个非常大的挑战。分布式文件系统独特地采用无元数据服务的设计,取而代之使用算法来定位,服务器都可以智能地对文件数据分片进行定位,仅仅根据文件名和路径并运用算法即可,而不需要查询索引或者其他服务器。这使得数据访问完全并行化,从而实现真正的线性性能扩展。无元数据服务器极大提高了分布式文件系统的性能、可靠性和稳定性。基于标准协议:分布式文件系统存储服务支持NFS,CIFS,HTTP,FTP以及分布式文件系统原生协议,完全与POSIX标准兼容。(5)分布式文件系统技术及性能指标:支持设备数量:最大百万台以上支持存储容量:最大1024PB以上客户端的数量:最大支持上亿并发·网络支持:以太网:1Gbps、10Gbps/INFINIBAND:10Gbps、40Gbps文件副本数量:任意(缺省1份)·协议:NFS/CIFS/HTTP/FTP/WEBDAV,及原生协议,兼容POSIX标准支持文件数量:最大上亿个文件最大单个文件:16TB(6)S2DFS与HDFS的比较 对比项 HDFS(GFS) S2DFS 架构类型 带元数据库中心架构(瓶颈及故障易发生点) 全分布式去中心架构 存在方式 分布式文件系统软件,基于x86平台 使用方式 CLI/RESTAPI NATIVECLIENT/CIFS/NFS标准协议 (应用代码与平台无关性,便于移植和维护) 系统可用性 低 高 数据可用性 复制 类RAID 数据定位方式 INode Hash 同步方式 异步 同步 负载均衡 自动 自动 支持网络 千兆以太网 千兆/万兆以太网,IB网 网络写:读(万兆/单流) 约100MB/s:160MB/s 约800MB/s:1000MB/s 读(1*20GB)(万兆) 约125s 约25s 写(1*20GB)(万兆) 约200s 约20s 读/写(千兆) 差距不大2.3.2分布式并行计算技术(1)概述并行计算技术真正将传统运算转化为并行运算,从而更加充分的利用广泛部署的普通计算资源实现大规模的运算和应用的目的,在此基础上为第三方开发者提供通用平台,为客户提供并行服务。这里主要为门户网站提供作业调度平台,实现日志分析,性能优化,全文检索,视频处理,用为分析等等的支撑平台。用户通过统一计算平台把任务分派给系统内的多个节点,调度节点资源执行任务,发挥多核并行处理优势,提升运算效率,充分运用网络内的计算资源达到解决大规模计算问题的目的。(2)分布式并行计算架构图分布式并行计算架构图(3)作业调度及计算过程(4)分布式并行计算技术特点池化资源管理利用池化技术,任何一台联在互联网上的普通PC机从硬件到软件,可通过池化技术加入服务器池中,等待任务分配,系统能充分利用现有服务器资源,将所有运算子任务分配给节点服务器,有效避免计算资源闲置现象的发生。无中心系统架构在平台管理下的单节点能力一致,使节点在部署上和使用上具备无差别性,任一节点功能可由其他节点替代或强化,可以最大程度确保平台资源使用的灵活性以及在灾备环境下的可靠性系统架构。通道式工作机制平台为用户提供一个并行任务处理通道,处理过程对用户来说完全透明,由平台自动进行负载均衡、资源匹配、任务传输等,使用户专注于自身任务管理,将执行过程交由平台完成。2.3.3分布式数据库技术D2B是一个具有高性能的高性能,可扩展,无模式,面向文档(document-oriented)的数据库,其内存储的是一种JSON-like结构化数据的分布式数据库软件,尤其具有高扩展性和高可靠性,支持大表水平折分,以及分区镜像。提供内存缓存数据,所以数据存取速度非常快,主要是由于它处理写入的方式:它们存储在内存中,然后通过后台线程写入磁盘。该软件支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。D2B另外的最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。它的特点是高性能、易部署、易使用,存储数据非常方便。主要功能特性:面向集合存储,易存储对象类型的数据“面向集合”(Collenction-Oriented),意思是数据被分组存储在数据集中,被称为一个集合(Collenction)。每个集合在数据库中都有一个唯一的标识名,并且可以包含无限数目的文档。集合的概念类似关系型数据库(RDBMS)里的表(table),不同的是它不需要定义任何模式(schema)。模式自由模式自由(schema-free),意味着对于存储在D2B数据库中的文件,我们不需要知道它的任何结构定义。如果需要的话,你完全可以把不同结构的文件存储在同一个数据库里。自动分片以支持云级别的伸缩性:自动分片功能支持水平的数据库集群,可动态添加额外的机器。支持动态查询支持完全索引,包含内部对象。自动处理碎片,以支持云计算层次的扩展性。可通过网络访问·可用于Windows®、MacOSX、Linux®和Solaris的官方二进制版本。·可用于C、C#、C++、Haskell、Java™、JavaScript、Perl、PHP、Python、Ruby和Scala的官方驱动程序,以及广泛可用于其他语言的社区支持的驱动程序。·Ad-hocJavaScript查询让您能够使用基于任何文档属性的任何条件来查找数据。这些查询对应于SQL查询的功能,使SQL开发人员能够很直观地编写D2B查询。支持查询中的正则表达式。·D2B查询结果存储在提供过滤、聚合和排序等一系列功能的游标中,包括limit()、skip()、sort()、count()、distinct()和group()等等高级特性。·高级聚合的map/reduce实现。·类似于RDBMS的属性索引支持,可以直接在文档的选定属性上创建索引。使用提示、解释计划和分析的查询优化特性。类似于MySQL的主/从复制,支持复制和故障恢复。基于集合的对象存储,在需要规范化数据时允许参考查询。通过自动分片功能水平扩展。高性能无争用并发机制的即时更新。D2B服务端可运行在Linux、Windows或OSX平台,支持32位和64位应用。推荐运行在64位平台,因为D2B在32位模式运行时支持的最大文件尺寸为2GB。分布式数据库(D2B)集群示例图D2B与关系型数据库的逻辑结构对比: D2B 关系型数据库 数据库(database) 数据库(database) 集合(collection) 表(table) 文档(document) 行(row)D2B的性能指标: 10亿 约600GB以上(与每条记录大小有关系,这里的数据:1Kb/条) 写(1亿,无索引) 约15000-20000条/s 写(1亿,有索引) 约10000条/s 写(1亿:ReplicaSets+Sharding模式) 约6000-8000条/s 读(1亿) 约80MB-120MB/s 读(1亿) 8000-10000个查询/s 统计一个值(10亿) <3s(复杂查询) 最大节点数量 >1024(理论上)测试环境的硬件配置:IntelXeonE7-88372路16核心,256GB内存,15kSAS16*600GB硬盘,RAID50;总共12台设备;D2B的架构模式:ReplicaSets+Sharding。2.3.4负载均衡1)开源负载均衡软件比较 LVS Nginx HAProxy LVS(LinuxVirtualServer)可以实现Linux平台下的负载均衡,提供了含有三种IP负载均衡技术的IP虚拟服务器软件IPVS、基于内容请求分发的内核Layer-7交换机KTCPVS和集群等功能 Nginx是一款轻量级、高可用性的Web服务软件及反向代理软件,基于HTTP(第七层)应用代理服务器。在国内大型的互联网公司都有使用。 HAProxy是一款提供高可用性的基于TCP(第四层)和HTTP(第七层)应用的代理软件。在国内大型的互联网公司都有使用。 1、抗负载能力强、是工作在网络4层之上仅作分发之用,没有流量的产生,这个特点也决定了它在负载均衡软件里的性能最强的;2、配置性比较低,这是一个缺点也是一个优点,因为没有可太多配置的东西,所以并不需要太多接触,大大减少了人为出错的几率;3、工作稳定,自身有完整的双机热备方案,如LVS+Keepalived和LVS+Heartbeat;4、无流量,保证了均衡器IO的性能不会收到大流量的影响;5、软件本身不支持正则处理,不能做动静分离; 1、工作在网络的7层之上,可以针对http应用做一些分流的策略,比如针对域名、目录结构,它的正则规则比HAProxy更为强大和灵活;2、Nginx对网络的依赖非常小,理论上能ping通就就能进行负载功能;3、Nginx安装、配置、维护比较简单;4、可以承担高的负载压力且稳定,一般能支撑超过几万次的并发量;5、Nginx可以通过端口检测到服务器内部的故障,不支持url来检测;6、Nginx也可作为Web反向加速缓存器; 1、能够补充Nginx的一些缺点比如Session的保持,Cookie的引导等工作;2、HAProxy对网络的依赖非常小,理论上能ping通就就能进行负载功能;3、它跟LVS一样,本身仅仅就只是一款负载均衡软件;单纯从效率上来讲HAProxy更会比Nginx有更出色,在并发处理上也是优于Nginx;4、HAProxy安装、配置、维护比较简单;5、可以承担高的负载压力且稳定,一般能支撑超过几万次的并发量;建议用Nginx(或者HAProxy)作为负载均衡(反向代理)软件配合硬件负载均衡使用。究竟选择Nginx还是HAProxy要看团队对这两种软件的熟悉程度,越熟悉,就能容易掌控,减少风险,我们团队对Nginx非常熟悉,所以,这里我们推荐用Nginx作为软件的反向代理工具。2.3.5数据采集1)概述数据采集功能主要完成海量数据采集、上传。数据采集的来源有:国家工商局、企业网站、百度、谷歌等。根据特定的数据源,不同应用,不同类型的数据进行收集,并提供统一的数据采集方式,方便后台数据集成、数据存储。数据采集结构图:数据采集主要是由采集服务器,通过HTTP协议和Restful技术把数据上传并缓存在WEB及消息服务器上,WEB及消息服务器可以缓存一周的数据上传量,数据上传后,再由消息处理服务进程(MPS)进程完成数据的最终清洗及格式,并最终入库存储。台标等非结构化数据存储在分布式文件系统(S2DFS)中,log或者行为等结构化数据存储在分布式数据库(MongonDB)中。参见如下数据采集/存储流程图:DMQ是一个分布式的消息服务平台,提供的功能包括:配置维护、名字服务、分布式同步、组服务等,能提供一种高性能、可靠的、可扩展的、分布式的、可配置关键特性,DMQ的核心技术特点:大容量堆内存和高可用性:假设你有100台服务器,并且每个节点有2GB的空间用于复制缓存,最终你获得的总数据量的大小为200GB,每台服务器仅仅是一个拷贝。相反,借助于分布式复制架构,可获得100GB的备份虚拟堆内存,并且在网格中的任何位置都能访问。如果某台服务器崩溃了,网格只需要简单地创建一份丢失数据的新副本,并将它们放到另一台服务器上。应用也无需再借助于一个巨大的独立数据库来获取数据以追求最大性能的-这是80%以上的企业应用中的瓶颈所在!扩展性:由于数据是均匀分布的,所以除了考虑到网络上的组通讯,根本就没有必要来限制网格的大小网络上的组通讯只要能够发现一个新的节点即可.所有的数据获取方式都是通过点对点通信,即节点之间直接进行通信,非常容易控制。DMQ的增加或者减少不需要关闭整个服务。简单的添加删除集群中的机器不会引发任何服务中断。数据分布:DMQ使用一致性哈希算法来决定集群中键值的存储位置。一致性哈希算法成本低,速度快并且最重要的是不需要额外的元数据或者网络通信就能确定键值的位置。数据分布的目的是为了在集群环境下保持足够的状态副本以使其具备可持续性和容错性,但是又不会有过多的副本而阻碍DMQ的可扩展性。原子性:一个Update操作不是成功就是失败,不会有第三种状态出现。顺序性:在一个DMQ集群中,其中一台DMQ服务器上的消息a在消息b之前发布,那么在所有的DMQ服务器上的消息a都会在消息b之前被发布,DMQ会保持一致顺序。实时性:对于每个Client,DMQ集群中的所有服务器都会保持实时更新制度,使得所有的服务视图都会是最新的。分布式统一镜像:Client无论连接到集群中的哪一个DMQ集群节点服务,都是得到同样的镜像视图。可靠性:数据在内存中缓存了2份,任何一台计算机故障,都不会造成数据的丢失。2)分布式消息管理架构图:DMQ有以下几种关键较色,每类较色的职责如下表格描述? 角色名称 职责 领导者(Leader) 就是DMQ集群的老大,它不接受Client的请求,是管理其他DMQ服务的,只负责进行投票的发起和决议,最终更新状态. 追随者(Follower) 追随者(Follower)的上司是领导者(Leader),参与领导者(Leader)发起的投票,向下是面向客户端的交互,用于接收客户端的请求和反馈客户端的结果。参与领导者(Leader)发起的投票。 观察者(Observer) 观察者可以接收客户端连接,将写请求转发给领导者(Leader)节点。但是Observer不参加投票过程,只是同步领导者(Leader)的状态。Observer为系统扩展提供了一种。DMQ的核心是原子广播,这个机制保证了各个Server之间的同步,有两种模式,它们分别是恢复模式和广播模式。恢复模式:一般是在服务刚启动或者在领导者(Leader)崩溃后,开始进入恢复模式,此时先就会开始选举领导者(Leader),当领导者(Leader)被选举出来,并且追随者(Follower)完成了和当前领导者(Leader)的状态及数据同步以后,恢复模式就结束了。广播模式:恢复模式结束后,即领导者(Leader)已经和追随者(Follower)进行了状态同步以后,他就可以开始广播消息了,即进入广播状态。3)分布式消息数据架构图:上图的MM(MessagesManager):消息数据管理者。通过嵌入式nosql内核完成上百万并发量的缓存数据来提供异步发布和订阅。应用程序通过JDBC/REST/Memcached等符合业界标准接口完成集群中的消息缓存数据的操作,集群成员之间也通过该接口完成成员之间的数据同步,状探测步。4)典型分布式消息平台比较:由于常见的RabbitMQ、ActiveMQ和ZeroMQ消息中间件不具备分布式功能,所以不在比较之列。数据采集中心面对的是高并发海量数据上传,所以分布式消息平台必须在‘数据接收数据缓存数据发布’整个过程保证数据的高性能吞吐、高可靠性、高扩展性、可维护性等属性。注:*越多速速越快。3大数据计算平台3.1需求概述根据应用,这个项目数据量30T,企业数据量非常大,需要大量并发,网络爬虫爬取的企业数据信息存储在数据中心。此数据量跟企业记录相关。同时,需要对清洗后的记录和计算好的推荐结果进行存储,但是这些数据不放在数据中心。此项目之后会做成实时计算,需要用到流式计算的相关计算和调度。计算量很大,可以多部署DCS进程,提高计算并发度,作业调度也要采用分部署调度架构。3.2总体设计云数据采集中心与大数据计算平台的关系是,云数据采集中心提供存储和计算资源,通过API的方式访问资源,大数据计算平台主要实现核心算法,包括图像匹配算法,挖掘算法,智能推荐算法,知识学习算法等等,也能够通过API的方式建立统计应用、智能推荐应用等等。大数据计算平台的需要的数据:包括网上实时爬取得、二次计算分析而获取的等等,都通过通用接口存储在云数据采集中心的分布式存储平台中(分布式文件系统(S2DFS)、分布式数据库(D2B))。计算时候,通过接口发起作业,由云数据采集中心的作业调度服务进程(JSS)负责调度,由数据计算服务进程(DCS)负责计算处理,并把结果反馈给大数据计算平台的各个应用。根据2.3.2小节对S2DFS分布式文件系统的详细介绍,本章节就不重复叙述,由于要增加新的存储设备,对于新设备上安装分布式文件系统是否继续选用S2DFS还是HDFS,我们需要回答以下几个问题:第一,预算增加及扩展问题:要部署HDFS,还得单独购买两台高性能设备作为HDFS的元数据库服务器(注:两台设备,构成主备;配置不能比我们现在选择的设备配置差,不然就会成为瓶颈,如果差了,数据节点就扩展不了几台。)。第二,学习成本及进度问题:要使用HDFS,必须熟悉它的API,以及后面带来的整个HDFS集群部署维护等工作,这个与可利用的团队资源相冲突;S2DFS提供标准的POSIX协议接口,应用程序代码不需作任何改变就可以执行。如果采用HDFS,为了保证应用系统的透明,那么统一接口的底层必须要写两种代码,第一是对面S2DFS,第二是面对HDFS。新增加了开发、维护、测试的时间。第三,空间浪费及孤岛问题:S2DFS与HDFS是两套不同体系的文件系统,他们之间设备及存储空间是不能共用的,后面增加的6台,设备存储与前面部署的10台设备通过对原始数据处理压缩后,存储空间还有多余。二者构成了孤岛,同时造成空间浪费。第四,应用场景问题:HDFS对存储网页等文件比较友好,毕竟它的基因就是为互联网搜索而开发出来的。3.3数据模型设计数据模型主要主企业数据模型与投资商数据模型两个部分。3.3.1企业数据模型 字段名 备注 name 公司名称 econ_kind 企业类型 regist_capi 注册资本 scope 经营范围 term_start 营业开始日期 term_end 营业结束日期 belong_org 所属工商局 oper_name 法人 start_date 成立日期 status 在业 employees.job_title 主要人员职位 employees.sex 主要人员性别 employees.name 主要人员姓名 branches.name 分支机构名称 changerecords.change_item 变更项目 changerecords.change_date 变更日期 changerecords.before_content 变更前内容 changerecords.after_content 变更后内容 partners.stock_name 股东姓名 partners.stock_type 股东类型 partners.identify_type 证照/证件类型 partners.identify_no 证照/证件号码 partners.should_capi_items.shoud_capi 认缴出资额 partners.should_capi_items.invest_type 出资方式 partners.should_capi_items.should_capi_date 出资时间 partners.real_capi_items.real_capi 实缴出资额 partners.real_capi_items.invest_type 出资方式 partners.real_capi_items.real_capi_date 实缴时间3.3.2投资商数据模型 字段名 备注 name 投资商名称 econ_kind 企业类型 regist_capi 注册资本 scope 经营范围 term_start 营业开始日期 term_end 营业结束日期 belong_org 所属工商局 oper_name 法人 start_date 成立日期 status 在业 employees.job_title 主要人员职位 employees.sex 主要人员性别 employees.name 主要人员姓名 branches.name 分支机构名称 changerecords.change_item 变更项目 changerecords.change_date 变更日期 changerecords.before_content 变更前内容 changerecords.after_content 变更后内容 partners.stock_name 股东姓名 partners.stock_type 股东类型 partners.identify_type 证照/证件类型 partners.identify_no 证照/证件号码 partners.should_capi_items.shoud_capi 认缴出资额 partners.should_capi_items.invest_type 出资方式 partners.should_capi_items.should_capi_date 出资时间 partners.real_capi_items.real_capi 实缴出资额 partners.real_capi_items.invest_type 出资方式 partners.real_capi_items.real_capi_date 实缴时间 Investment_industry 投资行业 investment 投资金额4数据运营4.1数据挖掘分析行业数据挖掘分析普遍采用CRISP-DM方法论。CRISP-DM将一个数据挖掘项目的生命周期定义为六个阶段:业务理解(也称为商业理解)、数据理解、数据准备、建立模型、模型评估、模型发布。1.业务理解:从业务的角度理解项目目标和需求,然后将这种需求转换成一种数据挖掘的问题定义,并设计出达到目标的一个初步计划。2.数据理解:收集初始数据,识别数据的质量问题,找到对数据的基本观察、或假设隐含的信息来监测出感兴趣的数据子集。3.数据准备:对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。4.建立模型:选择各种建模技术,并将其参数校正到优化值。常常要退回到数据准备阶段。5.模型评估:对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。6.模型发布:将发现的结果进行总结与应用。4.2数据分析处理的主要工作首先,是数据仓库或数据集市的建立,对数据进行预处理。数据分析处理以企业经营管理需求为基础,根据不同分析主题,从企业许多来自不同的运作系统的数据中提取出有用的数据,以保证数据的正确性,然后经过抽取、转换和装载,即ETL过程,合并到一个企业级的数据仓库里,得到企业数据的一个全局视图。其次,是联机分析处理和数据挖掘,进而将数据转化为信息和知识。联机分析处理是在数据仓库的基础上,对商业问题进行建模和数据进行多维分析。而数据挖掘通过分析每个数据,从大量数据中寻找其规律的技术。即使用诸如神经网络、规则归纳等技术,用来发现数据间的联系,做出基于数据的推断。通过联机分析处理和数据挖掘,决策人员和高层管理能从多维角度准确掌控企业的经营状况和了解不同数据之间的相关关系,以便制定正确的决策。最后,是知识结论的可视化展示,实现知识向智慧转变。通过借助信息化系统,以简单、丰富和直观的形式,将查询报表、统计分析、多维联机分析和数据发掘的结论展现企业管理者和决策者的面前。而随着管理者对知识的不断积累和更新,会进一步将知识转化为企业管理者的智慧。最终成果为:根据招商大数据平台数据运营规范相关要求至少进行三个月的数据运营服务,并提供数据运营报告。验证数据运营规范的流程、优化数据模板,并形成特定的数据运营操作指南。4.3数据分析团队组织和管理数据分析团队负责开展数据采集、数据处理、数据管理和数据综合分析等工作。分析专家做的是预测建模、数据挖掘以及其他一些高级分析工作,而不是像定制报表和电子表格这样程序化的工作。他们解决问题的环境,使用的方法,甚至需要参加的各类培训都有很大的不同。因此在数据分析团队建设和组织管理上有其非常特殊的要求。1、数据分析团队建设(一)合理组建数据分析团队。整合客服中心人才资源,组建数据分析团队,负责开展数据采集、数据处理、数据管理和数据综合分析等工作。(二)强调共同价值体现。数据分析团队成员在目标、达到这些目标的路径和所需的合作上要努力达成一致,这样可以增强团队的认同感。强调数据分析团队的整体利益,确定共同的目标,鼓励分析团队共享信息和思想,互相帮助实现共同目标。(三)引入过程分析会议。过程分析会议是数据分析团队内部充分讨论的平台,通过过程分析会议,增强彼此的沟通,要求每个数据分析人员都提出实现共同目标的方法、思路。(四)鼓励和促进团队内部相互交流。提供数据分析团队的定期交流机会,鼓励每个数据分析人员在完成某个大数据挖掘分析课题后,进行充分的交流与总结,增强数据分析团队能力与水平,提炼数据分析经验。(五)公开数据挖掘分析成果形成激励。及时将数据分析分析团队的应用情况向办内发布,使数据分析分析团队成员增强使感。2、团队组织建设(一)为分析团队树立榜样。要让数据分析团队发挥作用,首先是要在团队中突出一个或多个优秀的团队成员,成为数据分析团队成员的表率,将优良的工作作风带入团队中,影响团队中的每一位成员。(二)传授经验培养团队精英。要在数据分析团队中做好培训、培养工作,把数据分析思路的形成方法传授给团队成员,团队组织要培养团队精英,发挥团队精英的作用,成为团队的主力。(三)灵活授权。随着数据分析团队的逐渐形成与发展,团队组织要通过合理授权让团队成员分担责任,使团队成员更多的参与团队工作中,允许团队成员灵活的开展工作,给予团队成员信任,让他们更积极的为开展挖掘数据价值服务,也给予团队成员学习与成长空间,实现团队成员自我价值的体现。(四)发挥团队凝聚力。数据分析团队的凝聚力是团队精神的体现,高凝聚力会带来高绩效。团队组织要让团队成员形成共同目标,并且增强团队的融合度,形成高昂的团队士气,提高团队绩效。(五)形成有效的团队指挥。数据分析团队的成员在工作不可避免的会出现各种无法应付的问题,团队组织的管理者,最重要的职责就是做好指挥工作,要和团队成员形成良好的沟通,及时了解团队成员面临的问题,团队管理者通过个人的工作经验、阅历,以及与相关部门或上级的沟通给出良好的解决方案,处理好团队工作问题。5安全设计云数据采集中心的安全分为两大部分,一个是应用数据的安全,一个是平台运行的安全。如果租用成熟的IDC机房,那么机房本身的安全就可以不管,防火,安防,门禁等统统可以忽略,外接的路由器和防火墙也可以不采购。1)平台安全平台本身的运行安全我们采用分布式集群技术完成,每个业务处理群都是以集群方式存在,保证冗余度,每个集群中服务进程都是主/主、主/备方式运行,承载设备都保证在2台以上。按照此设计思路,方案划分了存储/计算服务器集群(共8台设备)、WEB/消息服务器集群(共4台设备)、应用数据服务器集群(共两台设备),负载均衡服务器集群(共2台设备),专门的数据备份服务器设备。2)数据安全应用数据的安全采用实时或者定时备份方式完成,备份设备可以在一定时期内把数据备份到专门的数据备份服务器上,试实际情况而定,也可以采用己构建的分布式文件系统(S2DFS)来完成数据的存储备份。当然最好是构建异地灾备平台,把数据同步到绵阳或者其他地方的数据中心中同样以分布式文件系统(S2DFS)为主备份存储设备。先期方案我们建议把数据备份到数据备份服务器上,存储在分布式文件系统(S2DFS)由于数据量大,容量大,不建议再做备份,因为分布式文件系统(S2DFS)可以建立RAID1架构模式。我们会把分布式数据库(D2B)除了架构构建为Master-Slave、ReplicaSets模式外,另外通过BackUp/Restore工具完成数据备份及恢复,第一次完成冷备份,后面我们就可以通过增量备份方式完成。参考下面的备份及恢复架构:3)备份策略一个好的备份恢复系统,除了配备有好的软硬件之外,更需要有良好的备份策略进行保证。对于备份系统,必须根据各种应用和业务的处理类型来分别制定具体的备份策略。对于备份系统备份策略的规划,建议按照以下流程进行:1)将数据备份任务按业务系统划分,确定各系统的备份数据量,并为每个备份任务指定专用的介质集;2)根据各业务系统对备份的需求,以及系统的忙闲程度,为每个备份任务划定可以进行数据备份的时段。3)合理的选择备份方式。备份的最终目的是为了进行数据恢复,在选择备份方式时,要在业务系统性能需求许可的情况下,最大程度的降低数据恢复时的复杂程度。建议:对于数据量较大的系统,为降低数据备份对业务系统运行的影响,减少对备份介质的需求,可采用全备份+增量备份的方式进行,建议每周进行一次全备,一周内其他时间每天进行一次增量备份;对于数据量较小的备份任务,或较为关键的业务,则建议每天进行一次全备份,以降低恢复时的复杂程度;在每次业务数据做大调整后应立即做一次全备份;4)在确定以上内容后,对普通备份任务的调度策略进行统一规划:对于相关业务系统的数据,为保证数据一致性,尽量安排在同一天进行备份;首先保证关键业务的数据备份;尽量使备份数量在一周内的每天平均分布,可以采用大小数据量相搭配,或关键业务与非关键业务相搭配等方式进行;5)根据业务需要确认备份介质保存周期。如无特殊需求,则保存周期的设置应以保证每一次全备份完成以前,都有可用介质供数据恢复使用为准。下表给出了一个备份策略定制的示例: 星期一 星期二 星期三 星期四 星期五 星期六 星期日 备份任务组一 F I I I I I I 备份任务组二 I F I I I I I 备份任务组三 I I F I I I I 备份任务组四 I I I F I I I 备份任务组五 I I I I F I I 备份任务组六 I I I I I F I 备份任务组七 I I I I I I F …… 备注:F=FullBackup,即完全备份;I=IncrementalBackup,即增量备份;具体策略根据用户的要求来定。6风险分析 序号 风险内容 严重程度 应对办法 1. 能否在公司规定的较短时间内完成公司这次要求建设的内容:IaaS平台建设,包括软件硬件
/
本文档为【数据采集处理项目技术方案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索