为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

计算机专业英语考试作文题目演示稿件

2019-04-23 12页 ppt 655KB 12阅读

用户头像 个人认证

会人会语

暂无简介

举报
计算机专业英语考试作文题目演示稿件DataMiningYanciZhang*WhatisDataMining? Extractionofimplicit,previouslyunknownandpotentiallyusefulinformationfromdata Exploration&analysisoflargequantitiesofdata automaticorsemi-automaticmeans discovermeaningfulpatterns这张图什么意思,怎么解释?这张图从什么地方找到的?*ProcessofKnowledge...
计算机专业英语考试作文题目演示稿件
DataMiningYanciZhang*WhatisDataMining? Extractionofimplicit,previouslyunknownandpotentiallyusefulinformationfromdata Exploration&analysisoflargequantitiesofdata automaticorsemi-automaticmeans discovermeaningfulpatterns这张图什么意思,怎么解释?这张图从什么地方找到的?*ProcessofKnowledgeDiscovery这张图的出处和相应的解释*Example:NBA1/2 Play-by-playinformation Whoisonthecourt Whoshoots … Coacheswanttoknow Whoworksbest? Whatstrategiescombinationworksbest? …美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。  系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(AnferneeHardaway)和伯兰.绍(BrianShaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(DarrellArmstrong)组合时,魔术队得分为正14分。  在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但AdvancedScout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。  AdvancedScout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过AdvancedScout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。  AdvancedScout的开发人,因德帕尔.布罕德瑞,开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员,他演示了一个技术新手应该如何使用数据挖掘。布罕德瑞说:“教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略”。与此同时,另一个正式的体育联盟,国家曲棍球联盟,正在开发自己的数据挖掘应用NHL-ICE,联盟与IBM建立了一个技术型的合资公司,去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与AdvancedScout相似的数据挖掘应用,可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的比赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。Artorscience?Definingtheelusivemixofskillsacoachusestospottalentisalwaysdifficult.ButforOrlandoMagic'sassistantcoachTomSterner,there'slittledoubtaboutthehelpinghandlentbyIBM'sAdvancedScoutdataminingapplicationinidentifyingtheuniquetalentsofDarrellArmstrong,thisyear'sNBASixthManAwardwinner.DevelopedbyIBMspecificallyforusebyNBAcoaches,AdvancedScoutautomaticallyminesmassiveamountsofstatisticaldatafromleaguegamesandcondensesitintousefulpiecesofinformation,suchasidentifyingplayerpatternsandscenariosthatboxscoresdon'tshow.Thisinformationgivescoachesnewinsightsabouttheirownteamsandtheiropponents.AccordingtoSterner,oneoftheearliestusersofIBMAdvancedScout,thetoolplayedapivotalroleinspotlightingArmstrong'stalentasthesparkplugthatcouldignitehisteamduringcrucialmoments.Inthe1997playoffseriesOrlandotrailedMiami0gamesto2havingbeenoutscoredby35and17pointsinthesegames.UsingIBM'sAdvancedScout,Orlandocoachesdiscoveredweaknessinthepointguardandcenterpositions.WhattheOrlandocoachessawbyrelatingAdvancedScoutinformationtothegamevideowassomethingnotlikelytobepickedupbyreadingasimpleboxscore.DarrellArmstrong'spresenceoncourtinthepointguardpositionmeantbetterlooksforPennyHardawayandMiami'sshootingpercentagewaslowerwhenArmstrongwasinthegamecomparedtotheotherchoicesforpointguard.OrlandoalsonotedthatDannySchayesreboundswellandtheMagic'soverallshootingpercentagewashigherwhenhewasmatchedagainstMourningatcenter.WiththisinformationfromAdvancedScouttheOrlandoMagicdecidedtoplayDarrellArmstrongatpointguardandDannySchayesformoreminutes.Withthesechanges,Orlandowasabletowinthenexttwogamesathomeandeventheseries,butwasunabletoreturntoMiamiandwingame5.Therestishistory.Sincethatturningpoint,Armstrong'splayingtimepergameincreasedfromanaverageof3minutesto35minutes.Asrecipientofthisyear'sSixthManAward,he'sbeenhonoredastheleague'spremierplayerwhoservedasareserveinmoregame'sthanhe'sstarted.Armstrongaveragedcareerhighsinpoints(13.8),assists(6.7),rebounds(3.6)andsteals(2.16)in30.0minutespergamewhilecomingoffthebenchin35of50gamesthisseason.WouldArmstrong'stalenthavebeenspottedwithoutIBMAdvancedScout?"Nodoubt,itwasdefinitelyacontributingfactor"saysSterner,"ButAdvancedScoutgaveustheinsighttomakeanon-the-spotdecisionaboutaplayerthatwemightnothavemadebysimplyanalyzingboxscores.Ithelpeduswintwogamesinthe1997playoffseries,andmoreimportantly,hascontributedtoDarrell'sprogressasapremierteamplayer.Thisisacasewheretheartofcoachingwassubstantiallyenhancedbythescienceofcomputing."AccordingtoIBM'sTomBurke,seniormanagerforsportsmarketing,thecompanydevelopedAdvancedScoutfortheNBAspecificallytohelpshowcasethecompetitiveadvantagethatdataminingtechnologycanbringtobusinessesofallkinds."Thetoolisnowusedby22NBAcoaches,"saysBurke."We'veusedthesamedataminingprinciplesthatunderlieAdvancedScouttodevelopandrefinesimilarsolutionsforcustomersinavarietyofindustries."*Example:NBA2/2 AdvancedScoutisadataminingtooltoanswerthesequestions Datacollection Datapreprocessing:cleaning,transformations,enrichment Datamining InterpretationandknowledgediscoveryDatacollection:Dataincludewhotookashot,thetypeofshot,theoutcome,anyrebounds,etc.Eachactionisassociatedwithatimecode.Datapreprocessing:ASperformsaseriesofconsistencycheckstoensurethatthedataareasaccurateaspossiblebeforeanyanalysisoccurs.InAS,consistencychecksaredesignedtodetecterrorsmadeduringthedatacollectionprocess.Adataerrorisamissingactionoranimpossibleevent.Correctionsaremadeusingarulebase,and/orwiththeinputofadomainexpert(typicallyacoach).Aftertheconsistencychecks,thedataaretransformedandreformatted.Thisistofacilitateacoach’sinspectionofrawdataandtodefineanappropriateunitofanalysisthatisconsistentwiththeirperspective.Dataenrichmentreferstotheuseofadditionalinformationtoaddvaluetoanalysis.Dataisenrichedthroughbyinferencerulesandadditionaldataentry.Theroleofeachplayeronthecourt(e.g.powerforward,1-guard,etc.)isinferredbyASbasedoninformationinaplayer-roletable.Theseinferencesallowusefulanalysesofplayer-rolerelationships.Datamining:Dataminingcanbeviewedastheautomatedapplicationofalgorithmstodetectpatternsindata.InAS,acoachcaninitiateageneraldataminingqueryinwhichtheprogramwillautomaticallysearchforinterestingpatternsforeitherthehomeorawayteamusingeitherfieldgoalshootingpercentagetodetectpatternsrelatedtoshootingperformance,orpossessionanalysistodetermineoptimallineupcombinations.Knowledgediscovery:Theresultsofdataminingarepresentedtotheuserintwoforms-atextdescriptionandagraph.Automaticallygeneratedtextdescribesthepatterns.*Whatis(not)DataMining? Whatisnotdatamining Lookupphonenumberinphonedirectory Queryawebsearchengineforinformationabout“Amazon” Whatisdatamining CertainnamesaremoreprevalentincertainUSlocations(O’Brien,O’Rurke,O’Reilly…inBostonarea) Grouptogethersimilardocumentsreturnedbysearchengineaccordingtotheircontext(e.g.Amazonrainforest,Amazon.com)datamining关于amazon的例子是什么意思*WhyDataMining?datarichbutinformationpoorwearedrownindata,butstarvingforknowledge*Tasks PredictionMethods Usesomevariablestopredictunknownorfuturevaluesofothervariables DescriptionMethods Findhuman-interpretablepatternsthatdescribethedata数据挖掘任务分为下面两大类:l预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量(targetvariable)或因变量(dependentvariable),而用来做预测的属性称说明变量(explanatoryvariable)或自变量(independentvariable)。l描述任务。这里,目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。*Applications Dataanalysisanddecisionsupport Marketanalysisandmanagement Beeranddiapers Riskanalysisandmanagement Creditcardriskanalysisandcontrol Frauddetectionanddetectionofunusualpatterns 相关性分组或关联规则(Affinitygroupingorassociationrules)  决定哪些事情将一起发生。  例子:  a.超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)一个有趣的故事:"尿布与啤酒"的故事。  在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。  按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。数据挖掘在信用卡风险控制中的应用:美国Firstar银行市场调查和数据营销部发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。于是Firstar银行通过使用数据挖掘工具,根据客户的信用卡消费模式进行分组预测,来确定何时向消费者提供哪种产品,从而让Firstar银行在信用卡市场取得了竞争优势。近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(FraudDetection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,DataMining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用DataMining来分析市场动向,并预测个别公司的营运以及股价走向。DataMining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是控制的效率。*Applications TextminingandWebmining Streamdatamining DNAandbio-dataanalysis SimilaritysearchandcomparisonamongDNAsequences Associationanalysis:identificationofco-occurringgenesequences Pathanalysis:linkinggenestodifferentdiseasedevelopmentstages Visualizationtoolsandgeneticdataanalysis Text,Web,图形图像,视频,音频等均属于复杂数据类型挖掘。WebMining可看做是DataMining应用在网络数据的泛称。例子:该如何测量一个网站是否成功?哪些、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?以上种种皆属WebMining分析之范畴。利用DataMining技术建立更深入的访客数据剖析,并赖以架构精准的预测模式,以期呈现真正智能型个人化的网络服务,是WebMining努力的方向。例子:eBags技术副总裁MikeFrazini说:"我们尝试展示不同的内容,来观察哪些内容的促销效果最好。我们最终的目标是完全个性化"寻找基于较少的数据和商业规则来创建个性化网页是客户化网站减少资源耗费的方法之一。开利(Carrier)公司--位于美国康涅狄格州Farmington的一家空调制造厂商--声称,仅仅通过利用邮政编码数据,其升级版B2C网站的每位访问者所产生的平均收益在一个月内从1.47美元提高到了37.42美元。当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到WebMiner服务器,也就是一个数据挖掘ASP。然后,WebMiner的数据挖掘软件将对客户进行假设,并基于这些假设来展示商品。例如,如果客户来自富裕的郊外地区,网站将显示出带有遥控器的空调机;如果客户的邮政编码显示邻近大量公寓楼,则弹出式广告将展示窗式空调机。*Challenges Scalability Dimensionality ComplexandHeterogeneousData DataQuality DataOwnershipandDistribution PrivacyPreservation StreamingData1.scalability:可扩展性,可伸缩性(能够处理不同复杂程度的数据集或可运用于现实的不同应用)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例子:当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。2.dimensionality:数据维度高维性,数据集的维度是数据集中的对象具有的属性数目。现在常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。具有时间或空间分量的数据集也趋向于具有很高的维度。例子:在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因达数据。3.complexandheterogeneousdata:复杂\多样性的数据(不同种类分布的数据,极其复杂的实际数据)4.dataquality:数据质量。数据不一样,质量也不一样。5.DataOwnershipandDistribution:数据的所有权与分布有时,需要分析的数据并非存放在一个站点,或归属一个单位,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个资源得到的数据挖掘结果?(3)如何处理数据安全性问题?6.PrivacyPreservation:数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。7.StreamingData:流数据是一种新的数据形态。例如通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各类传感器网络中的检测数据流、金融领域的证券数据流、卫星传回的图像数据流以及零售业务中的交易数据流等形成了一种与传统数据库中静态数据不同的数据形态。流数据对数据挖掘提出了诸多挑战。*Assignments Group Group16:PCandMAC10 Group17:PCandMAC11 Group18:Whatisaugmentedreality? Group38:WhatisGraphicsProcessingUnits(GPU)? Individual: WriteanEnglisharticle:ApplicationsofDatamining(>300words) Deadline:2011-11-101.scalability:可扩展性,可伸缩性(能够处理不同复杂程度的数据集或可运用于现实的不同应用)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例子:当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。2.dimensionality:数据维度高维性,数据集的维度是数据集中的对象具有的属性数目。现在常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。具有时间或空间分量的数据集也趋向于具有很高的维度。例子:在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。3.complexandheterogeneousdata:复杂\多样性的数据(不同种类分布的数据,极其复杂的实际数据)4.dataquality:数据质量。数据不一样,质量也不一样。5.DataOwnershipandDistribution:数据的所有权与分布有时,需要分析的数据并非存放在一个站点,或归属一个单位,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个资源得到的数据挖掘结果?(3)如何处理数据安全性问题?6.PrivacyPreservation:数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。7.StreamingData:流数据是一种新的数据形态。例如通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各类传感器网络中的检测数据流、金融领域的证券数据流、卫星传回的图像数据流以及零售业务中的交易数据流等形成了一种与传统数据库中静态数据不同的数据形态。流数据对数据挖掘提出了诸多挑战。**这张图什么意思,怎么解释?这张图从什么地方找到的?*这张图的出处和相应的解释*美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。  系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(AnferneeHardaway)和伯兰.绍(BrianShaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(DarrellArmstrong)组合时,魔术队得分为正14分。  在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但AdvancedScout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。  AdvancedScout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过AdvancedScout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。  AdvancedScout的开发人,因德帕尔.布罕德瑞,开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员,他演示了一个技术新手应该如何使用数据挖掘。布罕德瑞说:“教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略”。与此同时,另一个正式的体育联盟,国家曲棍球联盟,正在开发自己的数据挖掘应用NHL-ICE,联盟与IBM建立了一个技术型的合资公司,去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与AdvancedScout相似的数据挖掘应用,可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的比赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。Artorscience?Definingtheelusivemixofskillsacoachusestospottalentisalwaysdifficult.ButforOrlandoMagic'sassistantcoachTomSterner,there'slittledoubtaboutthehelpinghandlentbyIBM'sAdvancedScoutdataminingapplicationinidentifyingtheuniquetalentsofDarrellArmstrong,thisyear'sNBASixthManAwardwinner.DevelopedbyIBMspecificallyforusebyNBAcoaches,AdvancedScoutautomaticallyminesmassiveamountsofstatisticaldatafromleaguegamesandcondensesitintousefulpiecesofinformation,suchasidentifyingplayerpatternsandscenariosthatboxscoresdon'tshow.Thisinformationgivescoachesnewinsightsabouttheirownteamsandtheiropponents.AccordingtoSterner,oneoftheearliestusersofIBMAdvancedScout,thetoolplayedapivotalroleinspotlightingArmstrong'stalentasthesparkplugthatcouldignitehisteamduringcrucialmoments.Inthe1997playoffseriesOrlandotrailedMiami0gamesto2havingbeenoutscoredby35and17pointsinthesegames.UsingIBM'sAdvancedScout,Orlandocoachesdiscoveredweaknessinthepointguardandcenterpositions.WhattheOrlandocoachessawbyrelatingAdvancedScoutinformationtothegamevideowassomethingnotlikelytobepickedupbyreadingasimpleboxscore.DarrellArmstrong'spresenceoncourtinthepointguardpositionmeantbetterlooksforPennyHardawayandMiami'sshootingpercentagewaslowerwhenArmstrongwasinthegamecomparedtotheotherchoicesforpointguard.OrlandoalsonotedthatDannySchayesreboundswellandtheMagic'soverallshootingpercentagewashigherwhenhewasmatchedagainstMourningatcenter.WiththisinformationfromAdvancedScouttheOrlandoMagicdecidedtoplayDarrellArmstrongatpointguardandDannySchayesformoreminutes.Withthesechanges,Orlandowasabletowinthenexttwogamesathomeandeventheseries,butwasunabletoreturntoMiamiandwingame5.Therestishistory.Sincethatturningpoint,Armstrong'splayingtimepergameincreasedfromanaverageof3minutesto35minutes.Asrecipientofthisyear'sSixthManAward,he'sbeenhonoredastheleague'spremierplayerwhoservedasareserveinmoregame'sthanhe'sstarted.Armstrongaveragedcareerhighsinpoints(13.8),assists(6.7),rebounds(3.6)andsteals(2.16)in30.0minutespergamewhilecomingoffthebenchin35of50gamesthisseason.WouldArmstrong'stalenthavebeenspottedwithoutIBMAdvancedScout?"Nodoubt,itwasdefinitelyacontributingfactor"saysSterner,"ButAdvancedScoutgaveustheinsighttomakeanon-the-spotdecisionaboutaplayerthatwemightnothavemadebysimplyanalyzingboxscores.Ithelpeduswintwogamesinthe1997playoffseries,andmoreimportantly,hascontributedtoDarrell'sprogressasapremierteamplayer.Thisisacasewheretheartofcoachingwassubstantiallyenhancedbythescienceofcomputing."AccordingtoIBM'sTomBurke,seniormanagerforsportsmarketing,thecompanydevelopedAdvancedScoutfortheNBAspecificallytohelpshowcasethecompetitiveadvantagethatdataminingtechnologycanbringtobusinessesofallkinds."Thetoolisnowusedby22NBAcoaches,"saysBurke."We'veusedthesamedataminingprinciplesthatunderlieAdvancedScouttodevelopandrefinesimilarsolutionsforcustomersinavarietyofindustries."*Datacollection:Dataincludewhotookashot,thetypeofshot,theoutcome,anyrebounds,etc.Eachactionisassociatedwithatimecode.Datapreprocessing:ASperformsaseriesofconsistencycheckstoensurethatthedataareasaccurateaspossiblebeforeanyanalysisoccurs.InAS,consistencychecksaredesignedtodetecterrorsmadeduringthedatacollectionprocess.Adataerrorisamissingactionoranimpossibleevent.Correctionsaremadeusingarulebase,and/orwiththeinputofadomainexpert(typicallyacoach).Aftertheconsistencychecks,thedataaretransformedandreformatted.Thisistofacilitateacoach’sinspectionofrawdataandtodefineanappropriateunitofanalysisthatisconsistentwiththeirperspective.Dataenrichmentreferstotheuseofadditionalinformationtoaddvaluetoanalysis.Dataisenrichedthroughbyinferencerulesandadditionaldataentry.Theroleofeachplayeronthecourt(e.g.powerforward,1-guard,etc.)isinferredbyASbasedoninformationinaplayer-roletable.Theseinferencesallowusefulanalysesofplayer-rolerelationships.Datamining:Dataminingcanbeviewedastheautomatedapplicationofalgorithmstodetectpatternsindata.InAS,acoachcaninitiateageneraldataminingqueryinwhichtheprogramwillautomaticallysearchforinterestingpatternsforeitherthehomeorawayteamusingeitherfieldgoalshootingpercentagetodetectpatternsrelatedtoshootingperformance,orpossessionanalysistodetermineoptimallineupcombinations.Knowledgediscovery:Theresultsofdataminingarepresentedtotheuserintwoforms-atextdescriptionandagraph.Automaticallygeneratedtextdescribesthepatterns.*datamining关于amazon的例子是什么意思**数据挖掘任务分为下面两大类:l预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量(targetvariable)或因变量(dependentvariable),而用来做预测的属性称说明变量(explanatoryvariable)或自变量(independentvariable)。l描述任务。这里,目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。*相关性分组或关联规则(Affinitygroupingorassociationrules)  决定哪些事情将一起发生。  例子:  a.超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)一个有趣的故事:"尿布与啤酒"的故事。  在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。  按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。数据挖掘在信用卡风险控制中的应用:美国Firstar银行市场调查和数据营销部发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。于是Firstar银行通过使用数据挖掘工具,根据客户的信用卡消费模式进行分组预测,来确定何时向消费者提供哪种产品,从而让Firstar银行在信用卡市场取得了竞争优势。近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(FraudDetection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,DataMining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用DataMining来分析市场动向,并预测个别公司的营运以及股价走向。DataMining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。*Text,Web,图形图像,视频,音频等均属于复杂数据类型挖掘。WebMining可看做是DataMining应用在网络数据的泛称。例子:该如何测量一个网站是否成功?哪些内容、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?以上种种皆属WebMining分析之范畴。利用DataMining技术建立更深入的访客数据剖析,并赖以架构精准的预测模式,以期呈现真正智能型个人化的网络服务,是WebMining努力的方向。例子:eBags技术副总裁MikeFrazini说:"我们尝试展示不同的内容,来观察哪些内容的促销效果最好。我们最终的目标是完全个性化"寻找基于较少的数据和商业规则来创建个性化网页是客户化网站减少资源耗费的方法之一。开利(Carrier)公司--位于美国康涅狄格州Farmington的一家空调制造厂商--声称,仅仅通过利用邮政编码数据,其升级版B2C网站的每位访问者所产生的平均收益在一个月内从1.47美元提高到了37.42美元。当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到WebMiner服务器,也就是一个数据挖掘ASP。然后,WebMiner的数据挖掘软件将对客户进行假设,并基于这些假设来展示商品。例如,如果客户来自富裕的郊外地区,网站将显示出带有遥控器的空调机;如果客户的邮政编码显示邻近大量公寓楼,则弹出式广告将展示窗式空调机。*1.scalability:可扩展性,可伸缩性(能够处理不同复杂程度的数据集或可运用于现实的不同应用)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例子:当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。2.dimensionality:数据维度高维性,数据集的维度是数据集中的对象具有的属性数目。现在常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。具有时间或空间分量的数据集也趋向于具有很高的维度。例子:在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。3.complexandheterogeneousdata:复杂\多样性的数据(不同种类分布的数据,极其复杂的实际数据)4.dataquality:数据质量。数据不一样,质量也不一样。5.DataOwnershipandDistribution:数据的所有权与分布有时,需要分析的数据并非存放在一个站点,或归属一个单位,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个资源得到的数据挖掘结果?(3)如何处理数据安全性问题?6.PrivacyPreservation:数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。7.StreamingData:流数据是一种新的数据形态。例如通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各类传感器网络中的检测数据流、金融领域的证券数据流、卫星传回的图像数据流以及零售业务中的交易数据流等形成了一种与传统数据库中静态数据不同的数据形态。流数据对数据挖掘提出了诸多挑战。*1.scalability:可扩展性,可伸缩性(能够处理不同复杂程度的数据集或可运用于现实的不同应用)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例子:当要处理的数据不能放进内存时,可能需
/
本文档为【计算机专业英语考试作文题目演示稿件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索