保存网页快照的方法及装置的制造方法

文档序号:10577312阅读:318来源:国知局
保存网页快照的方法及装置的制造方法
【专利摘要】本申请提供保存网页快照的方法及装置,所述方法包括:解析接收到的HTTP请求报文,获得URL地址,所述URL地址包含第一域名;根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页,若是,则在接收到所述HTTP请求报文的HTTP响应报文时缓存所述HTTP响应报文;将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照。应用本申请实施例实现了保存需要登录认证通过后才能访问的网页对应的网页快照。
【专利说明】
保存网页快照的方法及装置
技术领域
[0001]本申请涉及网络通信技术领域,尤其涉及保存网页快照的方法及装置。
【背景技术】
[0002]快照保存服务器对网页进行备份并保存,所述保存在快照保存服务器中的网页称为“网页快照”。现有技术中,当DPI(Deep Packet Inspect1n,深度包检测)设备接收到终端向Web服务器发送的HTTP(Hyper Text Transfer Protocol,超文本传输协议)请求报文时,将所述HTTP请求报文中的URL(Uniform Resource Locator,统一资源定位符)地址发送至快照保存服务器,快照保存服务器根据接收到的URL地址向Web服务器发送获取网页数据请求,从而根据Web服务器返回的网页数据生成网页快照并保存。
[0003]然而,有些网页在通过登录认证之后才能访问,例如网盘网页,当快照保存服务器直接使用接收到的URL地址向Web服务器请求获取这部分网页数据时,由于URL地址中不包括登录信息,Web服务器无法对登录信息进行验证,因此拒绝向快照保存服务器提供网页数据,导致快照保存服务器无法获取这部分网页数据,从而无法保存这部分网页的网页快照。

【发明内容】

[0004]有鉴于此,本申请提供一种保存网页快照的方法及装置,以解决使用现有技术无法保存需要登录认证通过后才能访问的网页对应的网页快照的问题。
[0005]具体地,本申请是通过如下技术方案实现的:
[0006]根据本申请实施例第一方面,提供保存网页快照的方法,所述方法应用在DPI设备上,所述方法包括:
[0007]解析接收到的超文本传输协议HTTP请求报文,获得统一资源定位符URL地址,所述URL地址包含第一域名;
[0008]根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页,若是,则在接收到所述HTTP请求报文的HTTP响应报文时,缓存所述HTTP响应报文;
[0009]将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照。
[0010]根据本申请实施例的第二方面,提供保存网页快照的装置,所述装置应用在DPI设备上,所述装置包括:
[0011]判断单元,用于根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页;
[0012]缓存单元,用于当所述URL地址对应的网页是需要登录认证通过后才可以访问的网页时,在接收到所述HTTP请求报文的HTTP响应报文时,缓存所述HTTP响应报文;
[0013]第一发送单元,用于将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照。
[0014]应用上述实施例,DPI设备解析接收到的HTTP请求报文,获得URL地址,当所述URL地址所对应的网页为需要登录认证通过后才能访问的网页时,DPI设备可以直接缓存所述HTTP请求报文对应的HTTP响应报文,并将所述HTTP响应报文发送至快照保存服务器,由于所述HTTP响应报文中包含了网页数据,从而快照保存服务器可以直接根据所述HTTP响应报文生成网页快照并保存。
【附图说明】
[0015]图1为应用本申请实施例实现保存网页快照的应用场景示意图。
[0016]图2为本申请保存网页快照的方法的一个实施例流程图。
[0017]图3为本申请保存网页快照的装置所在DPI设备的一种硬件结构图。
[0018]图4为本申请保存网页快照的装置的一个实施例框图。
【具体实施方式】
[0019]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0020]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0021]应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0022]请参见图1,为应用本申请实施例实现保存网页快照的应用场景示意图。
[0023]如图1所示,包括终端、DPI设备、快照保存服务器、Web服务器,其中,DPI设备分别与终端、快照保存服务器、Web服务器相连接,快照保存服务器还与Web服务器相连接。终端向Web服务器发送HTTP请求报文时,该HTTP请求报文通过DPI设备传输至Web服务器,之后,Web服务器返回HTTP响应报文时,该HTTP响应报文通过DPI设备传输至终端。在本申请实施例中,当DPI设备接收到HTTP请求报文时,可以解析所述HTTP请求报文,获得URL地址,当所述URL地址所对应的网页为需要登录认证通过后才能访问的网页时,DPI设备可以在接收到Web服务器向所述终端返回的HTTP响应报文时,缓存所述HTTP响应报文,并将所述缓存的HTTP响应报文发送至快照保存服务器,所述HTTP响应报文中包含了所述URL地址对应的网页数据,因此快照保存服务器可以根据所述HTTP响应报文生成网页快照并保存。可以理解的是,本实施例中的终端仅以电脑为例进行说明,实际应用中的终端可以是手机、平板电脑等其他具有网络资源访问功能的终端。
[0024]请参见图2,为本申请保存网页快照的方法的一个实施例流程图,所述方法应用在DPI设备上,所述方法包括以下步骤:
[0025]步骤S201:解析接收到的HTTP请求报文,获得URL地址,所述URL地址包含第一域名。
[0026]URL地址中包含域名,所述域名表示互联网中服务器的地址,URL地址表示所请求获取的网页资源在该服务器上的位置,例如,“http://mail.163.com/index.html”是一个URL地址,其中包含域名163.com。
[0027]可以参见图1,终端向Web服务器发送HTTP请求报文,以请求获取网页数据,该HTTP请求报文通过DPI设备传输至Web服务器,DPI设备在接收到该HTTP请求报文时,可以解析该HTTP请求报文,获得URL地址,为了描述方便,本申请实施例中将所述URL地址中包含的域名称为第一域名。本步骤中,在获取到URL地址后,可以按照预设的规则从所述URL地址中提取出该第一域名。
[0028]步骤S202:根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页,若是,则执行步骤S203,否则执行步骤S205。
[0029]在一个可选的实现方式中,可以预先配置网站域名,所述网站域名中可以包括需要登录认证通过后才能访问的网页的域名,例如,QQ空间网页的域名qzone.qq.com,360云盘网页的域名yunpan.360.cn。本步骤中,可以根据所述第一域名查找所述网站域名,若从网站域名中查找到该第一域名,可以确定所述URL地址对应的网页为需要登录认证通过后才能访问的网页,执行步骤S203,否则,可以确定所述URL地址对应的网页是无需登录认证就可以访问的网页,执行步骤S205。
[0030]步骤S203:在接收到所述HTTP请求报文的HTTP响应报文时,缓存所述HTTP响应报文。
[0031]本实施例中,当终端请求访问的网页为需要登录认证通过后才能访问的网页时,终端所发送的HTTP请求报文中将包含登录信息,当Web服务器验证登录信息通过后,向终端返回所述HTTP请求报文的HTTP响应报文,该HTTP响应报文中包含终端所请求访问网页的网页数据,当DPI设备接收到所述HTTP响应报文时,可以缓存该HTTP响应报文。
[0032]在一个可选的实现方式中,HTTP响应报文中可以包括网页数据的类型字段(Content-Type),该字段的值可以为 “text/html”、“text/js”、“text/css” 等,其中,当Content-Type字段的值为“text/html”时,表示该HTTP响应报文携带网页数据的内容信息,当Content-Type字段的值为“text/js”时,表示该HTTP响应报文携带的是网页数据中的修饰网页用的脚本信息,当Content-Type字段的值为“text/css”等时,表示该HTTP响应报文携带的是网页数据的样式信息,由于网页数据的关键部分在于网页数据的内容信息,并且缓存类型字段值为“text/js”和“text/css”的HTTP响应报文通常会耗费较多的网络流量,因此,DPI设备可以只缓存类型字段值为“text/html”的HTTP响应报文。具体地,当DPI设备接收到HTTP响应报文后,可以先对该HTTP响应报文进行解析,获取Content-Type字段,判断该字段的值是否为“text/html”,若是,则可以缓存该HTTP响应报文,否则,可以不用缓存该HTTP响应报文。
[0033]通常情况下,一个完整的网页内容信息可能需要由多个类型字段值为“text/html”的HTTP响应报文中携带的网页内容信息组成,所述HTTP响应报文携带TCP(Transmiss1n Control Protocol,传输控制协议)序列号,当DPI设备接收到所述HTTP响应报文时,可以先缓存该HTTP响应报文,并可以根据所述TCP序列号判断所缓存的HTTP响应报文是否包含完整的网页数据。
[0034]步骤S204:将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照,结束当前流程。
[0035]在一个可选的实现方式中,在步骤S203中,DPI设备根据TCP序列号判断缓存的HTTP响应报文中包含了完整的网页数据后,可以将该完整的网页数据所对应的HTTP响应报文发送至快照保存服务器,由于所发送的HTTP响应报文中携带了TCP序列号,因此快照保存服务器接收到HTTP响应报文后,可以根据TCP序列号将报文按顺序写入快照文件中,生成网页快照并保存。
[0036]在本申请实施例中,DPI设备还可以将所述URL地址发送至快照保存服务器,快照保存服务器可以保存所述URL地址与保存的网页快照的关联关系,以便后续可以根据URL地址输出对应的网页快照。
[0037]步骤S205:将所述URL地址发送至快照保存服务器,以使快照保存服务器根据所述URL地址向Web服务器请求获取网页数据并根据所述网页数据保存网页快照,结束当前流程。
[0038]当终端所请求的网页为无需登录认证就可以访问的网页时,DPI设备可以直接将所述URL地址发送至快照保存服务器,快照保存服务器可以根据所述URL地址向Web服务器请求获取网页数据,并根据所述网页数据生成网页快照,保存所述网页快照。
[0039]本实施例中,结合步骤S204和步骤S205的描述,当DPI设备向快照保存服务器发送URL地址时,可以同时携带一个标识,该标识用于表示是否由DPI设备向快照保存服务器发送了 HTTP响应报文,如果是,则由于HTTP响应报文中已经携带了所述URL地址对应的网页数据,因此快照保存服务器无需再向Web服务器请求所述URL地址对应的网页数据,如果否,则快照保存服务器向Web服务器请求所述URL地址对应的网页数据。
[0040]应用上述实施例,DPI设备解析接收到的HTTP请求报文,获得URL地址,当所述URL地址所对应的网页为需要登录认证通过后才能访问的网页时,DPI设备可以直接缓存所述HTTP请求报文对应的HTTP响应报文,并将所述HTTP响应报文发送至快照保存服务器,所述HTTP响应报文中包含了网页数据,从而快照保存服务器可以直接根据所述HTTP响应报文生成网页快照并保存。
[0041]与前述保存网页快照的方法的实施例相对应,本申请还提供了保存网页快照的装置的实施例。
[0042]本申请保存网页快照的装置的实施例可以应用在DPI设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在DPI设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本申请保存网页快照的装置所在DPI设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的DPI设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0043]请参考图4,为本申请保存网页快照的装置的一个实施例框图,所述装置包括解析单元410、判断单元420、缓存单元430、第一发送单元440。
[0044]其中,所述解析单元410,用于解析接收到的HTTP请求报文,获得URL地址,所述URL地址包含第一域名;
[0045]所述判断单元420,用于根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页;
[0046]所述缓存单元430,用于当所述URL地址对应的网页是需要登录认证通过后才可以访问的网页时,在接收到所述HTTP请求报文的HTTP响应报文时,缓存所述HTTP响应报文;
[0047]所述第一发送单元440,用于将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照。
[0048]在一个可选的实现方式中,所述判断单元420可以包括(图4中未示出):查找子单元、确定子单元。
[0049]其中,所述查找子单元,用于根据所述第一域名查找预先配置的网站域名;
[0050]所述确定子单元,用于在查找到所述第一域名时,确定所述URL地址对应的网页是需要登录认证通过后才可以访问的网页;在未查找到所述第一域名时,确定所述URL地址对应的网页是无需登录认证就可以访问的网页。
[0051]在另一个可选的实现方式中,所述缓存单元430可以包括(图4中未示出):解析子单元、缓存子单元。
[0052]其中,所述解析子单元,用于解析接收到的HTTP响应报文,获得类型字段;
[0053]所述缓存子单元,用于当所述类型字段表示所述HTTP响应报文包含的网页数据的类型是文本类型时,缓存所述HTTP响应报文。
[0054]在另一个可选的实现方式中,所述第一发送单元440还可以用于,将所述URL地址发送至快照保存服务器,以使快照保存服务器保存所述URL地址与保存的网页快照的关联关系。
[0055]在另一个可选的实现方式中,所述装置还可以包括(图4中未示出):第二发送单
J L ο
[0056]所述第二发送单元,用于根据所述第一域名判断得出所述URL地址对应的网页为无需登录认证就可以访问的网页时,将所述URL地址发送至快照保存服务器,以使快照保存服务器根据所述URL地址向Web服务器请求获取网页数据并根据所述网页数据保存网页快照。
[0057]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0058]对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0059]以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
【主权项】
1.一种保存网页快照的方法,其特征在于,所述方法应用在深度包检测DPI设备上,所述方法包括: 解析接收到的超文本传输协议HTTP请求报文,获得统一资源定位符URL地址,所述URL地址包含第一域名; 根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页,若是,则在接收到所述HTTP请求报文的HTTP响应报文时,缓存所述HTTP响应报文; 将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页包括: 根据所述第一域名查找预先配置的网站域名,若从所述网站域名中查找到所述第一域名,则确定所述URL地址对应的网页是需要登录认证通过后才可以访问的网页; 若从所述网站域名中未查找到所述第一域名,则确定所述URL地址对应的网页是无需登录认证就可以访问的网页。3.根据权利要求1所述的方法,其特征在于,所述缓存所述HTTP响应报文包括: 解析接收到的HTTP响应报文,获得类型字段; 当所述类型字段表示所述HTTP响应报文包含的网页数据的类型是文本类型时,缓存所述HTTP响应报文。4.根据权利要求1所述的方法,其特征在于,所述缓存所述HTTP响应报文之后,还包括: 将所述URL地址发送至快照保存服务器,以使快照保存服务器保存所述URL地址与保存的网页快照的关联关系。5.根据权利要求1所述的方法,其特征在于,所述方法还包括: 当根据所述第一域名判断得出所述URL地址对应的网页为无需登录认证就可以访问的网页时,将所述URL地址发送至快照保存服务器,以使快照保存服务器根据所述URL地址向Web服务器请求获取网页数据并根据所述网页数据保存网页快照。6.—种保存网页快照的装置,其特征在于,所述装置应用在DPI设备上,所述装置包括: 解析单元,用于解析接收到的HTTP请求报文,获得URL地址,所述URL地址包含第一域名; 判断单元,用于根据所述第一域名判断所述URL地址对应的网页是否为需要登录认证通过后才可以访问的网页; 缓存单元,用于当所述URL地址对应的网页是需要登录认证通过后才可以访问的网页时,在接收到所述HTTP请求报文的HTTP响应报文时,缓存所述HTTP响应报文; 第一发送单元,用于将所述HTTP响应报文发送至快照保存服务器,以使快照保存服务器根据所述HTTP响应报文生成网页快照并保存所述网页快照。7.根据权利要求6所述的装置,其特征在于,所述判断单元包括: 查找子单元,用于根据所述第一域名查找预先配置的网站域名; 确定子单元,用于在查找到所述第一域名时,确定所述URL地址对应的网页是需要登录认证通过后才可以访问的网页;在未查找到所述第一域名时,确定所述URL地址对应的网页是无需登录认证就可以访问的网页。8.根据权利要求6所述的装置,其特征在于,所述缓存单元包括: 解析子单元,用于解析接收到的HTTP响应报文,获得类型字段; 缓存子单元,用于当所述类型字段表示所述HTTP响应报文包含的网页数据的类型是文本类型时,缓存所述HTTP响应报文。9.根据权利要求6所述的装置,其特征在于, 所述第一发送单元,还用于将所述URL地址发送至快照保存服务器,以使快照保存服务器保存所述URL地址与保存的网页快照的关联关系。10.根据权利要求6所述的装置,其特征在于,所述装置还包括: 第二发送单元,用于当根据所述第一域名判断得出所述URL地址对应的网页为无需登录认证就可以访问的网页时,将所述URL地址发送至快照保存服务器,以使快照保存服务器根据所述URL地址向Web服务器请求获取网页数据并根据所述网页数据保存网页快照。
【文档编号】G06F21/62GK105938473SQ201510874592
【公开日】2016年9月14日
【申请日】2015年12月2日
【发明人】魏方征
【申请人】杭州迪普科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1