陕西师范大学扁平化网络实践
发布时间:2015-12-18
来源:陕西师范大学网络信息中心
作者:王佳 郁伟生 3561

摘要:本文以陕西师范大学扁平化网络实践为例,对比了传统三层网络与扁平化网络的架构以及优缺点,介绍了我校扁平化网络实施的关键过程,以及实施过程中需要考虑的若干问题;重点介绍了核心设备的安全防护策略以及基于用户的精细化管理措施。

一、传统三层网络与扁平化网络的对比

陕西师范大学校园网始建于1996年,采用传统的三层网络架构,即“核心层—汇聚层—接入层”。核心层负责网络数据的高速转发;汇聚层负责IPV4/IPV6三层终结、单播/组播控制以及ACL等;接入层负责用户的接入以及速率限制、ARP检测等。传统校园网的三层架构详见图1。

 

图1 传统校园网三层架构

随着校园网络规模的急速扩大,传统校园网架构的弊端也愈见明显。功能最强大、价格最贵的核心层设备仅仅负责数据的高速转发,而由较低端的汇聚层、接入层设备承担大部分业务功能,如安全控制、接入限制等,形成了明显的“倒挂”结构,导致核心设备的性能不能充分发挥,汇聚层设备的负担过重,接入层设备的功能要求较高,并且没有有效的隔离措施和保障手段,降低了整体网络的稳定性、可靠性,增加了运维人员的管理维护压力。

借鉴于国内运营商大规模网络建设的经验,网络架构从复杂化向扁平化发展。扁平化并不是意味着网络物理层次的减少,而是网络逻辑层次的扁平,在逻辑层面上将网络划分为业务控制层和宽带接入层,即大二层的网络架构,具体架构见图2。

 

图2 扁平化校园网二层架构

业务控制层由核心设备构成,提供集中的业务控制和管理,可以充分发挥核心设备的优势;宽带接入层由汇聚、接入设备构成,仅提供用户接入的基本功能,如VLAN隔离、组播VLAN等,降低了边缘设备的投资成本;全网绝大多数的业务和管理都由业务控制层完成,因此运维人员只需要重点维护核心设备即可,大大提高了工作效率。

二、我校扁平化网络的实施

我校于2012年对校园网进行扁平化改造,全网拓扑结构见图3所示。

 

图3 陕西师范大学网络拓扑图

两校区的核心层分别使用两台高性能路由器(BRAS)构成全冗余结构,四台设备之间使用万兆单模光纤相连形成环路,即每台设备都是双链路,当某台设备的任一条链路断开也不会中断网络业务。教学区的每栋楼宇直接与校园网核心光纤互联,学生区和家属区分别在本区域汇聚后再与核心设备光纤互联。

扁平化实施过程中,在接入层为每个端口分配一个内层VLAN标识,以实现用户隔离;配置组播VLAN,以识别组播流。汇聚层按楼宇为每栋楼分配一个外层VLAN标识,便于维护管理;同时透传组播VLAN、管理VLAN。核心层需要有支持用户接入和认证的配置,具体包含与DHCP Server、Radius、Portal Server交互的配置;支持组播的IGMP、PIM配置;安全防护策略配置等。

1、用户的接入和认证

BRAS设备是全网的核心,负责校园网用户的统一接入和认证。校园网用户主要有两种接入方式:PPPOE和IPOE,其中IPOE用户约占96%。

图4 IPOE+Portal用户上网流程

图4为IPOE用户的上网流程。当用户发起DHCP discover报文时,BRAS收到后首先使用默认的用户名和密码到Radius系统中进行MAC认证,同时将用户的MAC、VLAN、Session ID、DHCP option等信息发送到Radius系统,为后续的用户认证计费提供相应的信息。

待Radius返回认证成功后,BRAS将用户的DHCP请求中继到DHCP Server,随后给用户分配地址,与此同时Radius给用户下发认证前策略,该策略只允许用户访问有限资源,此时完成用户接入校园网的过程。当用户通过浏览器发起HTTP请求访问被限制资源时,BRAS将其重定向到Portal认证页面,在用户输入正确的用户名和密码之后,Radius再下发认证后策略,同时开始计费,此时用户就可以正常上网。

2、实施过程中需要考虑的问题

在扁平化网络实施的过程中,必须要考虑以下几个问题:

(1)核心设备的性能。作为全网的核心,核心设备的性能直接关乎全网的稳定性。由于学校用户的上网时间具有明显的规律性,如刚下课时、晚饭之后是上网高峰期,因此在核心设备选型时必须要考虑每秒支持新建的用户数以及单板口支持的最大用户数。与此同时,核心设备必须支持安全防护策略以及完备的日志系统。

(2)QINQ对组播业务的支持。传统的BRAS设备是按照用户复制组播数据,这将耗费整条链路上的大量资源,因此在实施时,要求接入层设备必须支持灵活QINQ,通过组播VLAN在接入层识别组播数据,并在汇聚层将组播VLAN透传到核心设备,核心设备再按照组播VLAN复制组播数据,从而降低带宽资源的损耗。

(3)Portal服务器单点故障的问题。在上网高峰期时,由于大量用户会同时发起认证请求,或者由于某些用户发起大量恶意的认证请求,严重的增大了Portal服务器的负荷。为了避免Portal服务器的单点故障,使用负载均衡算法,将用户的认证请求轮询发往不同的Portal Server,可以减少每台服务器的负荷,同时提升用户认证跳转的速度。

(4)无线网部署模式的局限。无线网的部署模式有两种,即集中转发和本地转发。由于扁平化的网络架构在接入交换机上做了vlan隔离,因此部署无线时只能选择集中转发模式,否则无法实现无线用户的快速漫游。如若对本地转发模式有特殊需求,则需要慎重考虑扁平化网络架构。

三、扁平化网络运维

1、核心设备的管理

BRAS是扁平化网络中的核心,主要完成数据交换、业务控制等功能,如若管理不当,将会导致整个校园网的瘫痪。我校在BRAS设备上主要作了以下防护措施以保证全网的稳定运行。

(1)RE保护策略

RE(Routing Engine)即路由引擎,它的主要功能是建立、维护路由表,管理路由协议,控制底层组件,以及提供系统管理和用户接入的接口等,因此十分重要,所以每台BRAS以双RE互备冗余。RE保护策略就是用来保护路由引擎的,由于逻辑接口lo0是通往RE的必经通道,因此RE保护策略作用于接口lo0上。

RE保护策略主要针对常用协议(icmp、radius、snmp、ftp、igmp、ntp等)作一些访问控制策略 ,如只允许特定用户通过ssh访问BRAS,且速率最高达1M,只允许radius服务器发送radius认证报文等,对于不满足条件的其他报文将全部丢弃。下图5为ftp、snmp协议的具体配置,其中Customer-internal为校园网内部网段,NM为服务器网段。

   

图5  ftp与snmp协议的配置

(2)DDOS  Protection策略

扁平化网络改造后,校园网就是一个庞大的二层网络,所有的流量(包含病毒攻击)都集中在BRAS上,对BRAS造成了极大的威胁。我校部署的BRAS设备支持DDOS Protection策略,该策略分别在芯片、板卡以及RE上逐级执行,对多种协议报文进行统计、跟踪、限速,如dhcp、icmp、igmp、arp等,通过抑制恶意用户的流量来保证正常用户的流量可以顺利通过。

BRAS设备默认开启DDOS Protection功能,但是由于默认参数值太大,并没有起到保护作用。只有合适的参数值才能在不影响正常流量的情况下抑制非法流量,进而达到满意效果。若参数值偏大,非法流量仍然会对BRAS造成攻击;若参数值偏小,则会丢弃正常用户的流量从而影响上网体验。

本文以DDOS Protection中的arp协议为例,介绍一种设置参数值的方法。设置的总体思路是对每个用户的arp流进行检测,而关闭逻辑接口、物理接口上的流检测功能,同时将聚合策略(aggregate policer)中的总带宽值稍微放大。这样设置的好处是从数据流的根源处进行控制,并且使得正常用户的arp流量不会因为总带宽值而丢弃,从而抑制了非法流量,保证了正常流量。

 

图6 DDOS Protection中arp协议的参数

图6为我校核心设备上有关DDOS Protection对arp协议设置的详细参数值。设置flow detection mode:on,即对每一个arp流进行检测时,首先查看的是subscriber:10pps,因为用户级别的detection mode为automatic,因此只有某个用户的arp报文流超过10pps时才认为该流是可疑流。

随后对其跟踪,若连续3秒(flow detect time)都超过10pps时,则认为它是一个违反流,由于该级别的control mode为police,则在300秒内(flow recover time)只允许该用户一直通过10pps的arp报文流,若control mode为drop,则该用户在300秒内禁止发送arp报文。

只有通过subscriber级检测的流量才会到达下一级进行检测,即logical interface,流检测方法与subscriber级一样。但此处对于逻辑接口和物理接口上的detection mode为off,即不进行检测。

最后,通过流检测的总arp流量看是否超出总带宽(5000pps),当流量大于5000pps,且也已经占满缓存空间brust:20000packets时,则丢弃该用户的arp流量,直到聚合策略中的recover time:300s结束。从实际数据来看,被丢弃的报文都是通过流检测而被抑制的,而非聚合策略或单个策略,符合设计的总体思路。按照统计数据来看,丢弃的arp报文约占72%,体现了DDOS Protection的重要性。

在使用arp协议的DDOS保护策略之前,要禁用BRAS默认的arp策略,即default_arp_policer,它优先执行于DDOS策略,只有先移除该默认策略,DDOS中的arp检测才能生效。图7为arp报文的策略执行过程。

 

图7 arp报文的策略执行过程

(3)Firewall Filter

BRAS为每个用户创建一个动态接口,Radius为每个接口下发策略,即动态防火墙,策略中主要包含限速、按服务计费和安全防护。

目前,我校的网络服务主要包含四大块,即校园网、教育网、中国联通和中国电信。在限速方面,对于用户实行校园网不限速,教育网、联通、电信上行4M,下行8M的策略;在按服务计费方面,实行校园网、教育网免费,联通、电信按流量收费;在安全防护方面,将一些常见的端口扫描、病毒报文进行过滤,在DHCP的过程中,用户只可以充当DHCP Client,如只能发送discover/request/renew等报文,而不能发送offer/ack报文。

(4)其他安全措施,如启用反向路径检查、MAC违法性检查、DHCP Relay Proxy模式等。反向路径检查是对源地址进行检查,可以防止伪造源地址的攻击;MAC违法性检查是对MAC地址严格校验,防止客户端手工配地址进行网络访问;DHCP Relay Proxy模式隐藏了DHCP Sever的IP地址,使得DHCP Server免受攻击。

2、用户的精细化管理

用户采用DHCP模式接入校园网,自动获取IPV4/IPV6双栈地址,然后通过Web Portal认证的方式访问校外网络。校园网采用有线、无线一体化认证。BRAS为每个用户创建一个虚拟接口用于认证计费及带宽限制,为实现基于用户的精细化管理提供了技术支持。

对用户的精细化管理主要体现在以下方面:

(1)支持基于用户的策略管理,包含用户的访问限制、速率、计费策略、终端数目以及上网区域等;

(2)支持基于VLAN的策略管理,包含计费策略、上网时间段等;

(3)支持多种认证方式,如家属区支持PPPOE和IPOE两种,办公区、学生区仅支持IPOE;

(4)支持灵活的计费策略,实行教学区免费上网、家属区包月计费、学生区按流量计费的方式。

用户通过实名认证接入网络,可以查询到用户的详细上网信息,如账号、MAC地址、IP地址、上网区域、上下线时间等,做到可跟踪、可定位,实现网络使用历史信息的有据可查,将技术手段和管理手段有效结合,实现了对校园网络的有序、可控管理。

四、实施效果

陕西师范大学是西北地区率先实现全网扁平化网络改造的高校。通过BRAS和Radius实现基于用户的行为控制,从而提供精细化、差异化的服务;通过QINQ技术和路由器的子接口实现用户之间、业务之间的有效隔离,合法用户的访问得以保障。

截至目前,我校扁平化网络已经投入使用约三年,运行稳定、管理便捷。全网有线信息点约29000个,无线AP数量约2300个,注册用户数77000余名。网络高峰期同时在线用户数可达40000,无线用户峰值可达8000。实践证明,扁平化的网络架构为我校的信息化建设提供了强有力的网络支撑。