超级节点网络中的并行查询和排序机制下载_在线阅读_3

is_633627

暂无简介

超级节点网络中的并行查询和排序机制 —97— 超级节点网络中的并行查询和排序机制谭义红 1,2，林亚平 1，欧阳竟成 1，李彬 2 (1. 湖南大学计算机与通信学院，长沙 410082； 2. 长沙大学信息与计算科学系，长沙 410003) 摘要：超级节点网络中的超级节点可能成为网络性能的瓶颈并影响检索结果的统一排序，针对该问题提出一种并行查...

—97— 超级节点网络中的并行查询和排序机制谭义红 1,2，林亚平 1，欧阳竟成 1，李彬 2 (1. 湖南大学计算机与通信学院，长沙 410082； 2. 长沙大学信息与计算科学系，长沙 410003) 摘要：超级节点网络中的超级节点可能成为网络性能的瓶颈并影响检索结果的统一排序，针对该问

题

快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题

提出一种并行查询和排序机制。给出类特征等索引建立方法和查询节点选择算法，减少超级节点的存储和计算负担，使其在负载能力范围内，尽可能多地连接普通节点。在获取全局参数的前提下，提出查询节点的查询和排序方法，以提高检索质量。实验结果验证了该机制的有效性。关键词：超级节点网络；信息检索；并行查询 Parallel Query and Ranking Mechanism in Super-peers Network TAN Yi-hong1,2, LIN Ya-ping1, OUYANG Jing-cheng1, LI Bin2 (1. School of Computer and Communication, Hunan University, Changsha 410082; 2. Department of Information and Computing Science, Changsha University, Changsha 410003) 【Abstract】Super peers in super-peers network may become the network performance bottleneck and affect retrieval result global ranking. Aiming at this problem, this paper presents a parallel query and ranking mechanism. A building method for indexes such as class feature and a selection algorithm for query peers are presented to decrease the storage and computation burden of super peers and make it connect more common peers as possible in the scope of load capacity. A query and ranking method of query peers is presented to improve retrieval quality. Experimental results show that the mechanism is efficient. 【Key words】super-peers network; information retrieval; parallel query 计算机工程 Computer Engineering 第 36 卷第 2 期 Vol.36 No.2 2010 年 1 月 January 2010 ·网络与通信· 文章编号：1000—3428(2010)02—0097—03 文献标识码：A 中图分类号：TP396 1 概述在超级节点网络中，关键技术是网络的组织和查询机制。查询机制主要包括查询和排序，传统方法通常采用集中式查询处理方式[1]。由于超级节点连接普通节点的规模不断扩大，因此超级节点可能因负载过重而成为网络瓶颈。已有很多研究者对网络瓶颈问题进行研究[2-3]，他们提出的方法虽然在一定程度上解决了超级节点负载平衡问题，但没减少超级节点的处理负担。传统的超级网络排序处理方法大多基于本地信息计算文档相似度，在没有获取全局参数的情况下，计算出来的相似度不具可比性，将影响检索结果统一排序，进而影响检索结果的质量。近年来，人们对此展开了研究[4-5]，但未涉及超级节点网络的排序问题。因此，本文提出一种并行查询和排序机制。 2 超级节点网络模型本文的超级节点网络模型类似 EJDPC[2]系统，网络模型如图 1 所示。 p1 p2 p3 p5p4 p3 p2 SP2 SP4 SP1 SP3 图 1 超级节点网络模型网络采用 2 层结构管理模式来组织所有节点。网络中节点分为超级节点(如 SP1, SP2 节点)和普通节点(如 p1, p2 节点)。一个超级节点与若干个普通节点连接构成局部子网，在局部子网中，超级节点作为集中服务器，管理相连的普通节点。局部子网通过超级节点之间互连，而相互连接构成超级节点网络。普通节点按语义相关性加入到相应的超级节点。 3 并行查询和排序机制该机制的基本步骤如下：超级节点根据普通节点发送的相关信息建立索引。当超级节点接收到查询请求时，先获取全局参数值，计算各个节点的相关度，选择相关度超过某一阈值的节点，作为查询节点，并将查询请求和全局参数信息发送到所有查询节点。然后查询节点利用全局参数信息，按传统查询排序方法，计算文档与查询串的相似度，并将检索结果发送到查询请求节点。 3.1 查询节点的选择策略 3.1.1 超级节点索引假设超级节点网络中每个节点 p 都有唯一的标识符，记作 PID。为了便于查询和排序，超级节点建立节点特征索引、类特征索引和子网汇总特征索引，分别描述如下：当普通节点加入超级节点时，将节点特征和类特征信息基金项目：湖南省教育厅科研基金资助项目(07B007) 作者简介：谭义红(1971－)，男，副教授、博士研究生，主研方向：数据挖掘，P2P 信息检索；林亚平，教授、博士、博士生导师；欧阳竟成，博士研究生；李彬，讲师收稿日期：2009-07-18 E-mail：yhtan09@163.com —98— 发送到超级节点。节点特征以三元组(PID, N, V(p))

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

示，其中， N 表示节点共享的文档数； 1 1 1( ) { , , ,V p t tf dn= < > 2 2 2, , , , , , }m m mt tf dn t tf dn< > < >" ， it 为特征词， itf 为 it 在节点共享文档中出现的次数， idn 为节点共享文档中包含 it 的文档数，1≤i≤m，m 为节点共享文档中不相同特征词的个数。类特征是表示普通节点聚类后，加入到该超级节点的类(C)信息，用四元组(PID, CID, N, V(C))表示，其中，CID 为类 C 的标识符； N 表示该类的文档数； 1 1 1( ) { , , ,V C t tf dn= < > 2 2 2, , , , , , }m m mt tf dn t tf dn< > < >" ， it 为特征词， itf 为 it 在类 C 文档中出现的次数， idn 为类 C 文档中包含 it 的文档数，1≤ i≤m，m 为类 C 文档中不相同特征词的个数。超级节点接收这些信息建立相关索引。由子网中所有节点特征建立节点特征索引，由子网中所有类特征建立类特征索引。当普通节点中

内容

财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容

有更新时，将相关更新信息发送到超级节点，超级节点及时更新索引。当节点离开网络时，超级节点自动将与该节点有关的索引信息全部删除，使超级节点的索引信息总是保持最新。从节点特征索引和类特征索引中，可以很方便地获取子网中的全局信息。为了获取网络中的全局信息，各个超级节点对自身子网中的节点特征进行统计，得到子网汇总特征，用三元组(PID, N, V(SP))表示，其中，PID 为超级节点标识符；N, V(SP)的值分别由节点特征中相应值累加得到。超级节点将自身的子网汇总特征发送给其他超级节点，各个超级节点根据所有超级节点的子网汇总特征建立子网汇总特征索引。此时，所有超级节点都能获取整个网络中的全局信息。 3.1.2 查询节点选择超级节点接收到查询请求后，根据索引计算子网中普通节点与查询请求的相关度，选择更有可能包含检索结果的节点作为查询节点。对于查询串 Q={t1,t2,…,tm}，节点 p 与超级节点关联的类为 C，则用 score(Q,C)表示查询串与节点(类) 的相关度，计算公式如下： , 1 ( , ) m i C i score Q C Weight = = ∑ , ,i C i C iWeight T I= × , , , ( / _ ) i C i C i C C tf T tf qw avg qw = + lg( 0.5) / lg( 1.0) i i n nfI n += + (1) 其中，tfi,C 是查询词 ti 在 C 中的出现度频率；qwC 是 C 中包含的特征词数目；avg_qw 是网络中全部文档包含的平均特证词数目；n 是网络中的总文档数；nfi 是网络中包含 ti 的文档数。对子网中所有节点按式(1)计算相似度，选择相似度超过设定阈值 θ1 的节点作为查询节点，得到查询节点集，记为 SelectPeerSet={p1,p2,…,pn}，获取查询词出现的文档数和总文档数，得到全局参数集，记为 GlobalSet={n,,,…, }，并将查询请求 Q 和 GlobalSet 发送到 SelectPeerSet 中各个节点，完成查询节点选择和搜索操作。具体算法如下：算法 1 查询节点选择算法输入：Q，索引，θ1 输出：SelectPeerSet, GlobalSet (1)//获取 n,nsp 为超级节点数目 n=0; For j=1:nsp do n=n+ Nj GlobalSett=｛n｝ (2)//对所有查询词 ti 的 tfi,C For i=1:m do //计算查询词 ti 的 tfi,C tfi,C= V(C).tfi //计算查询词 ti 的 nfi For i=1:nsp do nfi= V(SP).dnj GlobalSet= GlobalSet∪｛｝ (3)//计算子网中所有节点(np)相关度 For j=1:np do //按式(1)计算各个节点的相似度 Sj=calS(pj); if (Sj>θ1) //选择超过 θ1 的节点，加入查询节点集 SelectPeerSet = SelectPeerSet {p∪ j} (4)return SelectPeerSet, GlobalSet 3.2 查询排序策略查询节点接收到查询请求和全局参数后，通过 cosine 距离法计算查询请求与本节点中文档之间的相似度，计算公式如下： 1 i 2 2 1 1 ( ) ( ) ( ) ( ( )) ( ( )) n j j i j n n j j i j j w q w d sim q,d w q w d = = = ×∑ = ×∑ ∑ (2) 其中， , ,( ) lgj i j i i j i j nw d tf idf tf nf = × = × ，tfj,i 是特征词 tj 在文档 di 中出现的频率，可从本地索引中获取，n 为所有文档的数目，nfj 为包含特证词 tj 的文档数，这些数值可从超级节点传送的全局参数集 GlobalSet 中获取，因此，各个节点计算得出的 sim(q,di)是具有可比性的，能真实反映文档与查询请求的相似度，可以参与统一排序。各个查询节点选择超过设定阈值 θ2 的文档作为检索结果，并返回给查询请求节点。 4 实验 4.1 实验环境本实验的目的是测试排序和合并后检索结果的质量，以及超级节点出现负载过重的概率。在实验中，网络拓扑产生模块采用美国乔治大学的 GT-ITM 软件包，原因是 GT-ITM 作为著名的开源代码的网络拓扑产生系统，可以产生类似于实际网络中存在的多个局域网、城域网的混杂联网模式。实验在一台 PC 机上完成，PC 机的配置为 CPU P3.0 GHz，内存 1 GB，操作系统为 Windows XP。实验用的文档集是 SMART 系统中使用的测试文档集 CACM，CACM 包含约 30 000 个计算机类文档摘要和约 200 个查询，为了更好地反映基于 Internet 的现实应用中信息消费的情形，文档集按 80/20 方式分布到各个节点，将 30%的文档进行复制，复制份数按 50%, 30%, 20%概率分别复制 1 份、2 份、3 份。为了消除实验误差，实验结果取 5 次实验的平均值。实验产生 10 000 个节点，各节点随机加入网络并提交查询。 4.2 实验内容与结果 4.2.1 检索结果测试实验比较了 EJDPC 和本文算法的查准率和查全率。通过设置阈值 θ1, θ2，测试算法的查全率和查准率。EJDPC 的检 —99— 索结果只与 θ2 有关，为了便于比较测试结果，将 θ1 的值设为 0, 0.6, 0.7，分别测试本文算法的查全率和查准率，通过设置 θ2 的不同值，得到的结果如图 2 和图 3 所示。从图 2 可以看出，当 θ1 为 0 时，即不考虑查询节点的选择，EJDPC 和本文算法的查全率较接近，随着 θ1 值的增大，本文算法的查全率略有降低，主要原因是超级节点在过滤查询节点时，剔除了一些只包含少量相关文档的节点。图 3 显示本文算法的查准率明显高于 EJDPC，主要原因是它采用全局参数进行排序。随着 θ1 值的增大，其查准率逐步提高。 0.0 0.2 0.4 0.6 0.8 1.0 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 θ2 查全率 EJDPC 本文算法，θ1=0 本文算法，θ1=0.6 本文算法，θ1=0.7 图 2 查全率比较 0.0 0.2 0.4 0.6 0.8 1.0 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 θ2 查准率 EJDPC 本文算法，θ1=0 本文算法，θ1=0.6 本文算法，θ1=0.7 图 3 查准率比较 4.2.2 超级节点出现负载过重的概率测试超级节点连接普通节点的规模会影响超级节点的负载平衡。通过超级节点连接的普通节点数，比较 EJDPC 和本文算法中超级节点出现负载过重的概率，得到的实验结果如图 4 所示。由图 4 可知，在超级节点连接的普通节点数相同的情况下，本文算法中超级节点出现负载过重的概率明显低于 EJDPC。一方面是因为普通节点上传的仅是元数据，数量远低于索引数据，导致超级节点要接收、处理和存储的数据量大幅减少。另一方面，由于超级节点只负责选择查询节点处理，将复杂的查询操作分散到各个查询节点，因此进一步减少了超级节点的处理时间。 100 200 300 400 500 600 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 普通节点数出现负载过重的概率 EJDPC 本文算法图 4 超级节点出现负载过重的概率 5 结束语本文机制有效减少了超级节点的存储和计算负载，提出的全局参数获取方法使查询和排序可以在各个查询节点上并行完成，提高了检索结果的质量。参考文献 [1] Shen Hengtao, Shu Yanfeng, Yu Bei. Efficient Semantic-based Content Search in P2P Network[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(7): 813-826. [2] Airiau S, Sen S, Dasgupta P. Effect of Joining Decisions on Peer Clusters[C]//Proc. of the 5th International Joint Conference on Autonomous Agents and Multiagent System. Hakodate, Japan: [s. n.], 2006. [3] Montresor A. A Robust Protocol for Building Super Peer Overlay Topologies[C]//Proc. of the 4th International Conference on Peer-to-Peer Computing. Zurich, Switzerland: [s. n.], 2004. [4] 何盈捷, 王栅, 杜小勇. 纯 Peer to Peer 环境下有效的 top-k 查询[J]. 软件学报, 2005, 16(4): 540-552. [5] Cuenca-Acuna F M, Peery C, Martin R P, et al. PlanetP: Using Gossiping to Build Content Addressable Peer-to-Peer Information Sharing Communities[C]//Proc. of HPDC’03. Seattle, USA: [s. n.], 2003: 236-249. 编辑陈晖

本文档为【超级节点网络中的并行查询和排序机制】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

超级节点网络中的并行查询和排序机制

热门搜索

历史搜索