以物件群組分析網頁代理伺服器之快取效能
Analyzing the Cache Performance of Web Proxy
Server with Obj ect Groups
段裘慶* 楊鍵樵
Chiu-Ching Tuan Chen-Chau Yang
國立臺北科技大學電子工程系*
國立臺灣科技大學電子工程系
摘要
有鑑於網頁代理伺服器之快取效能對現行WWW之服務品質具有關鍵性的影響所以本研究擬以”網頁物件特徵”作觀察面以”網頁物件群組”為觀察點來分項評量系統的快取效能。作法上物件特徵概分為「Http狀態碼」、 「內容型式」、 「資料量大小」與「下傳時間」等四個層面而物件群組是依單項物件特徵再作分群以約5~7個群組為主。再配合為網頁群組所定義的三項評估因子包括群組總存取比((i) )、群組總命中比((i) )與群組命中率基準差((i) )等以對校園代理伺服器作快取效能分析期望研判出影響本地快取效能的關鍵要素。
由分析所得之統計資料於實務上可望供區域網管人員作為案例參考藉以微調網內代理伺服器的快取系統組態另於理論上則對致力於網頁快取替換策略制定的研究人員可提供新的分析數據與思惟方向藉以研定更高效能的快取機制。
關鍵詞網頁代理伺服器、快取效能、網頁物件特徵、替換換策。
投稿受理時間 89年11月6日 審查通過時間 89年12月3 日
ABSTRACT
Based on the facts, the cache performance of web proxy server had critically impacted on thequality of service (QoS)of World Wide Web(WWW). In this paper,we will propose an analyticalway to investigate the factors affecting the cache performance by analyzing the on-line access logs
1
supported by NTUT. Four facets of web objects including “Http code”, “content type”, “objectsize”,and“elapsed time”will be used for examining the cache performance. Moreover, in each facet,all cached objects would be partitioned into 5-7 groups for performing the analysis. In the analysis,we use three kinds of evaluation including “access percentage”, “hit percentage”, and “hit ratiodifference” to explore the cache performance, and to find out the critical causes that affect thep erformanc e.
Finally,we expect that the results of analysis could contribute in two folds. In practice, it couldhelp the administrators of LAN to adapt the cache configuration of proxy server effectively. Intheory, it could assist the researchers to study the cache mechanism and construct a novel and moreefficient replacement policy.
Keywords web proxy server cache performance web obj ect property replacement policy.
壹、緒論 網際網路用戶數已達557萬戶且普及率攀升上
25%若依用戶類型區分其中台灣學術網
全球資訊網World Wide Web,WWW係 TANet 之用戶數高居第二位達174萬並且由隸屬於歐洲核子研究委員會CERN的Tim 維持約7%年成長率。於同年9月中旬加拿B erners-L ee在1989年所倡議意圖建置一個 大多倫多外電指出[2]台灣學生在校上網率達分散式超媒體系統可經由網際網路存取散佈在 63%是高居16個調查國家中的第三位僅次於各地的研究資料。隨後於1993年Marc 瑞典、加拿大但領先英、美兩國惟台灣學Andreessen和Eric Bina於美國國家超級計算應 生在家裏上網的比率則僅有45%略遜於他國。用中心NCSA開發出以滑鼠點選超媒體文 無論如何諸多研究的統計數據均顯示出網際件的網頁瀏覽器NCSA Mosaic[1] 開啟了 網路之使用早已是一股銳不可擋的新潮流將影WWW高速成長的新紀元。 響人類甚鉅而全球各國也都積極地規劃因應
由於WWW簡便易用的特性以及對超媒 之道。
體文件的有效支援這已使得網際網路的使用 WWW雖成功地促進了網際網路的使用熱人口數與連網的主機數每年均屢創新高且呈現 潮然而相較於使用人口的快速激增現行實急速地激增。根據研究統計2000年1月全球 體網路基礎建設的速度卻遠落後於使用者的需連網的主機數約7240萬部而我國亦有約85 求在網路頻寬供需失衡之狀況下更惡化網路萬部的成長就此趨勢預料於新世紀2001年時 的使用品質分析其原因有如后幾點包括全球連網主機數目將超過一億台。若往後人們 (1)網頁內容逐漸地大量使用較高容量的多媒對網際網路仍舊如此地深度使用這恐怕對人 體物件。
類生活型態的影響將更為深遠。 (2)網頁伺服器端為了因應系統需要而引用自
資策會於2000年8月底公告[2]指出我國 動的網頁推播push機制。
2
(3)傳統的商務系統大幅地整合並且改以網頁 留於快取中的使用價值。
平台提供全球性跨國服務造就了電子商 因此我們將以實際的網頁存取日誌檔
務 e-Commerce 的崛起。 access log作為案例來探究現行代理伺服器
(4)網際網路服務供應商 ISP競相設立更加 proxy server 的快取效能其評量方式是以
吸納大量新興的網路使用人口。 預選的四項網頁物件特徵來分項研判可能影響
相對於網路使用品質的低弱為了改善以 本地快取效能的關鍵要素。
及增進網際網路品質也有幾個相關的研究議 可望由分析所得之結論有助於網管人員題例如 改善代理伺服器的系統組態與快取效能此
(1)網際網路基礎建設建置寬頻網路與研發 外也有利於研究人員研制更高效能的網頁快
更高速的網路傳輸技術例如電纜數據傳 取替換機制。
輸 cable modem和非同步數位用戶專線 本文之章節架構如后包括第2節討論階
AD S L。 層式網頁快取系統第3節分項分析與探討代
(2)網路協定改善現有的協定或者設計更具 理伺服器的快取效能最後一節第4節作扼
效率的新網路協定。 要的結論。
階層式網頁快取系統
物件經過壓縮後再作網路傳輸時可大幅 於全球資訊網上使用快取系統可以有效提
地降減網路頻寬的使用。 昇網頁瀏覽的服務品質快取系統對內而言可
(4)網頁快取 cache 技術網頁的快取則是 加快網頁下載的速度對外而言可減少對相同
利用資料備份的概念來達到加速物件存取 的網頁物件作重複性要求藉以舒緩遠端伺服
與節省頻寬的目的。 器的工作負荷並且可降低對網路頻寬的使
上述這幾項研究議題中又以網頁快取技 用以提高WWW總體的運作效能來滿足用戶術在不須增加網路頻寬的基礎建設下可以立 端的需求。以下分節說明WWW快取運作方式即得到較大的效益並且也可以輕易地應用在現 與TAN et架構範例。
有的網路環境中。 因此目前大部分的網頁瀏覽
都透過快取系統來加快存取速度並減少對遠端 一、階層式快取系統之運作
3
圖一、網頁代理伺服器之快取圖運二作、模台北式科技大學LNCT-URT-W3校[8園,9]代、理LR伺FU服[器10]之、階LU層V架[1構1]與圖二
Microsoft IE與Netscape Communicator。
的硬碟空間來執行網頁快取的功能。 惟現行的代理伺服器系統例如 Squid為
一般是設置於區域網路內此類型的系統 主原因在於LRU演算程序較為簡易但是快軟體中較著名的有CERN HTTP Daemon[3]。
SNetsc
WW W快取系統的基本架構如圖一所示 至KB 且個別的網頁物件網址UR L原始當網頁代理伺服器收到由用戶端瀏覽器所發出 所在的伺服器端也散佈全球五大洲故網頁物的網頁請求Http request 時它會先檢查該 件下傳所需要的等待時間就存在更大的差距。網頁資料是否存在於快取硬碟中若是快取命 這常使得不耐久候的用戶端會經常中斷請求服中hit 則直接地取出該資料並傳回給瀏覽器 務而更加惡化網路的壅塞與浪費網路頻寬的一效率佳的網頁快取技術可以實質並等候資料回傳。當代理伺服器收到由上層所 地減少網頁物件在網路上的重複傳輸並且可回應的網頁資料後除了將資料再回傳給瀏覽 加速用戶端存取網頁資料。所以有關於高效器之外並且將複製一份副本存入快取系統 能網頁快取或預取技術的研製[17] 目前而言
仍是具有高度的研發價值。
4
二、校園代理伺服器之階層架構 階層路徑而逕送至網頁物件原始URL所在的
伺服器端作存取。
圖二所示為台灣學術網TAN et校園網路之
範例架構其中的台北科大NTUT校園區域網 參、快取效能分析
理伺服器包括如下兩型 一、 Proxy快取效能之總體概況分析
(1)兄弟 sibling協同快取
其運作模式通常是先以”快取摘錄” 本分析系統所採用的分析樣本係以 caching digest 方式來推測擬作轉向存取的 NTUT校園代理伺服器於網上運作所得的存取網頁物件存在與否[12] 。經由分析得知NTUT 日誌檔為主所快取物件之URL並未有網域上校網於2000年4~6月期間並未引用任何區網的 的劃分或者是限制所服務的對象以NTUT校兄弟協同代理伺服器。 網內的用戶端即IP為140.124.*.*者為限。
(2)父p ar ent 協同快取 首先為了佐證本分析樣本所呈現的網頁
以隸屬教育部的代理伺服器proxy.edu.tw 物件存取模式並非是特例而是吻合典型的 163.28.1.141 設定為父協同快取並且以” Zipf-like[13] i之分佈故針對個別的網頁單父協同” single parent 的規則作為伺服器 物件與被存取數作統計分析[14]。經由圖示的選取的運作模式。 結果確認了NTUT校網日誌檔的物件存取紀
上述之階層式代理伺服器在攔截由NTUT 錄圖三實線部份趨近於 i之分佈圖三校網所發出之H t tp請求的優先順序上其依次 虛線部份 其中值約為0.78。
是 1 校網代理伺服器140.124.10.1、 2父 並且此一值與Cao[16]於1999年分析協同代理伺服器163.28.1.141、 3 更高層協同 歐、美、澳等地區代理伺服器日誌檔之Zipf-like伺服器或原始網頁伺服器端等。 分佈的值如表一比對之下也頗為相近
其中若H t tp請求是屬於或必須以”直接” 這項事實有助於確立此後分析所得數據的代表direct 的方式作處理時則它可脫離協同式 性。
5
圖三、NTUT存取日誌檔之Zipf-like 對象 值是以「存取總命中數H」對「總
分佈圖 =0.78 存取次數R 」之比值為代表。式子1中 hi與
1hi分別表為單一物件oi之命中次數與總存
表一、其它日誌檔之Zip f-like分佈之值 取數。
為求分析樣本於取樣時間上的代表性所
)(a) 全體分析樣本的存取總數高達約759萬
筆總下載的資料量約為46.7GB而其中屬於 [定義二]快取資料量命中率 byte Cgi類型物件即副屬檔名為.cgi/.asp者的存 byte則為非Cgi類型存取的資料量命中取筆數約佔全體的10%左右。 率其比值以「總命中資料量H byte 」對「總存
另於圖四(a)、四(b)以單日曲線來觀測「總 取資料量R byte 」計算求得其中s i為物件o i的存取數」對「CGI存取數」、 「總命中率」對「總 資料量大小。
資料量命中率」等項分析資料的趨勢由結果
)所分析樣本的穩定性。
以下分析中基於代理伺服器大都未將 對伺服器之總體效能作概要的分析後由Cgi類型的物件作備份以為快取之用所以將 表二(b)的結果可獲得如下初步的結論
6
圖四、存取日誌檔之總體效能分析服器與上層伺服器端建立網路連線與轉送物件
要求的次數相對越少故可以有效地減少系統 表二、 台北科大網頁代理伺服器日誌檔與外層網路連線的時間和頻寬的使用。而越高 之總體概況分析(Squid 21 )
7
「內容型式」、 「資料量大小」與「下傳時間」 較之下的基準差詳如式子(5)。
等四個層面。而物件群組是依單項物件特徵再 式子(6)中 (i)係以單一群組之「命中數作分群以產生約5~7個群組為主。 H(i) 」與「存取數R(i) 」的比值作為群組的命中
同時在以群組為分析的要件下定義三 率。
項評估因子以作為評量伺服器快取效能之用 *則是以總體群組的「總命中數kH(k) 」這包括了群組總存取比(i)、群組總命中比(i) 與「總存取數kR(k) 」作比值計算得之如式與群組命中率基準差(i)等三項各項定義如下 子(7)。
所述[15]。
[定義三]群組物件總存取比「數kR(k) 」的百分比來表示之。式子3之1hj(i)
以下四小節依照網頁物件特徵作分項解[定義四]群組物件總命中比 (i) 析各項分析數據的分佈趨勢可參照圖五~圖八
hj(i)表為群組內物件oj(i)之命中總數。 主。但於下文中為力求數據引述的客觀性故
(i)
一、依網頁物件之「H ttp狀態碼」[定義五]群組物件命中率基準差 (i) 作群組快取分析
(i)係以總體群組命中率*為衡量基準
用以求得「單一群組命中率]存取日誌檔所設定的資料錄欄位
8
包 且”200”與”304”群組之(i)值就佔盡全體命中括 ”Tim es tamp”、 ”Elaps ed”、 ”Clien t_IP”、 ” 數的97.6%而非主流群組”456 err”、 ”000”L og_Tag/Http_Code”、 ”Object_Size”、 ”R eques t 與”Others”等僅約佔2.5%左右。同時由圖五_Method”、 ”Request_URL”、 ”User_Ident”、 ”H (a)與五(b)作趨勢比較發現(i)較高之群組其ierarchy_data/Host_Name”與”Conten t_Type”等 (i)值也有頃向居高的優勢。
10項。 3.群組命中率基準差 (i)
其中第4欄位為狀態碼 status code 是
記錄伺服器端回應由用戶端提出Http請求後的 欲比較群組物件保留於快取中的使再處理狀態。 用程度可用命中率基準差(i)來作客觀地探
本項分析以”000” non-Ht為衡量基求、 ”200” 請求成功、 ”304” 未作修 準用以凸顯個別群組之快取命中率(i)相對改。
碼與”O ther s”其它碼等區分為5個群組物 群 組 依 (i) 的 遞 減 次 序件以作為效能評量的對象。 是”304”(+31.2%)、 ”200”(-8.4%)、 ”456 err”(-32
首先由圖五(a)所示之總存取比(i)依遞 顯然地 ”304”群組之(i)最高且是唯一的減次序作觀察 則群組排序 正值表示”304”命中率(i)是優於總均值*且是”200”(59.2%) 、 ”304”(30.6%) 、 ”456 err”(5.2 大幅領先3成左右相當於(i)原始值達0.9之%)、 ”O th er s”(3.9%)與”000”(1.1%)等。 高。其次是”200” 其(i)為負值但只是微幅落
其中 ”200”與”304”兩群組總和就達全體 後* 其原本(i)仍達0.5之多。
的89.8%儼然是多數的主流群組。這表示用 非主流的”456 err”、 ”000”與”O th er s”等群組戶端所提出的H t tp請求中可成功獲得完整回 仍落居末三位其(i)均為負值而且大幅地落後應的部份幾近9成反之屬於請求錯誤 *至少3成。雖然三者的(i)約有10%之多的”456 err”與其他非完整或非實質回應的約各 但是(i)卻分別僅約0.27、 0.02與0.01。佔0.5成。 基於考量有限快取空間所存在的排擠效應
2.群組總命中比 (i) 問題顯然地命中率基準差(i)值較高的群組
9
今天遇到一个网友,他之前一直在用阿里云虚拟主机,我们知道虚拟主机绑定域名是直接在面板上绑定的。这里由于他的网站项目流量比较大,虚拟主机是不够的,而且我看他虚拟主机已经有升级过。这里要说的是,用过阿里云虚拟主机的朋友可能会比较一下价格,实际上虚拟主机价格比云服务器还贵。所以,基于成本和性能的考虑,建议他选择云服务器。毕竟他的备案都接入在阿里云。这里在选择阿里云服务器后,他就蒙圈不知道如何绑定域名。这...
RackNerd今天补货了3款便宜vps,最便宜的仅$9.49/年, 硬盘是SSD RAID-10 Storage,共享G口带宽,最低配给的流量也有2T,注意,这3款补货的便宜vps是intel平台。官方网站便宜VPS套餐机型均为KVM虚拟,SolusVM Control Panel ,硬盘是SSD RAID-10 Storage,共享G口带宽,大流量。CPU:1核心内存:768 MB硬盘:12 ...
近期RAKsmart上线云服务器Cloud Server产品,KVM架构1核1G内存40G硬盘1M带宽基础配置7.59美元/月!RAKsmart云服务器Cloud Server位于美国硅谷机房,下单可选DIY各项配置,VPC网络/经典网络,大陆优化/精品网线路,1-1000Mbps带宽,支持Linux或者Windows操作系统,提供Snap和Backup。RAKsmart机房是一家成立于2012年...