大家好很高兴今天能与大家分享一些Neutron的知识。今天分享的思路是:网络基础、Neutron的软件实现、Nova外网访问虚拟机服务器启动时的网络处理以及OVS流表分析
下面对Openstack和Neutron的介绍,偠从几个关键词入手
/canxinghen/article/details/#comments),图中清晰地展示了Neutron对多种L2技术(VLAN、VxLAN、GRE)共同运行的支持图中的mellonax是intel等硬件厂商搞出的具备转发功能的网卡,能夠避免虚拟交换机带来的资源消耗并能够加快转发速率。一块这样的网卡能虚拟出63个VF每个VF就好像一个独立的物理网卡一样,通过将VF直接挂到外网访问虚拟机服务器上能够实现转发性能的大幅度提高。
以上介绍了OpenStack中网络组件的演进以及Neutron组网的基本原理。下面我们将对Neutron嘚软件实现进行简单的介绍
设备启动了,网络有了可是现在还没有外网访问虚拟机服务器。下面我们来看看nova外网访问虚拟机服务器启動时的网络处理过程
从头开始讲。外网访问虚拟机服务器的启动通常来自于控制节点命令行的nova boot该命令被组装成REST
当然,以上过程与网络並没有发生什么关系这里不做深入分析,大家要是有兴趣可参考
假定nova-compute已经通过rpc收到了开始干活的命令,我们就从这里开始漫长的代码汾析在此之前,先来看一看OpenStack组件层面的调用流程这里借用OpenStack大神SammyLiu的一张图吧,图中1-6步骤依次做了这么几件事:
最后一步就是传统的dhcp的交互过程这里就不讲了,下面来看1-5的实现时间有限,代码不再一步步回溯了详见SDNLAB“网络虚拟化”专题的后续文章,这里给出代码的主體思路
到这里,外网访问虚拟机服务器启动过程中的网络处理就都结束了外网访问虚拟机服务器间就可以开始通信了。下面开始介绍NeutronΦOVS的流表逻辑看看OVS是怎么支持外网访问虚拟机服务器间的通信的。
所有流经br-tun的数据包首先进入Table 0进行处理Table 0对数据包的来源进行判断,从與br-int相连的patch-int进入的数据包交给Table 1处理从GRE或者VxLAN端口(不同节点间的隧道有不同的Port_ID)进入的分别交给Table 2、Table 3处理。Table 1根据数据包目的MAC地址判断是否为单播是则送往Table
可见,上述过程就是标准MAC自学习在隧道中的扩展无非就是将(VLAN_ID,MAC)到PORT_ID的映射变为了(VLAN_IDMAC)到(PORT_ID,TUNNEL_ID)的映射这种自学习仍嘫要依赖于泛洪来完成,引入l2_population或者SDN控制器后可以避免掉泛洪
外网访问虚拟机服务器在通信前,会发送ARP请求去解析目的MAC与目的IP间的映射关系这一过程需要发送二层的广播包。由(一)中的介绍可知这会导致隧道上的泛洪,这显然是不能令人满意的
传统网络中ARP依赖于广播泛洪的原因在于没有一个集中式的控制平面,而Neutron中的数据库存有所有外网访问虚拟机服务器MAC地址与IP地址间的映射可以说是一个天然原苼的控制平面。因此有人提出了将该映射关系注入到OVS本地在本地处理ARP广播,以避免隧道上的泛洪这就是l2_population。
21继续泛洪上述过程如下图所示,之所以保留ARP Table到Table 21的跳转主要是为了防止l2_population出现问题。
L2_population的工作就是这么简单却可以大大减少不合意的隧道泛洪。其实dhcp也存在类似的问題如果只在网络节点上放置dhcp-server,那么所有的DHCP DISCOVER消息都要靠隧道泛洪发送到网络节点上当然,dhcp消息的数量和产生频率远远赶不上arp问题也不會那么明显。
解决dhcp存在的上述问题一种思路是在Table 21上专门写一条高优先级的dhcp流表项去匹配dhcp广播消息,并将所有的dhcp消息都封装送到网络节点嘚隧道另外,也可以采用类似于l2_population的思路从Table 1上专门写一条高优先级的dhcp流表项去匹配dhcp消息,这条流表项只需要将dhcp消息通过相应的端口转交給dhcp
namespace即可之所以用namespace实现,是因为Dhcp消息封装在应用层OpenFlow流表无法直接支持dhcp消息的封装,因此这个活得由分布在计算节点上的dhcp namespace来完成
第一种思路优点是实现简单,但是一旦网络节点发生单点故障外网访问虚拟机服务器便无法正常使用dhcp获取IP,不过kilo版本中已经有人在多个网络节點中实现了dhcp_loadbalance(https://blueprints.launchpad/neutron/+spec/dhcpservice-loadbalancing)第二种思路实现复杂一些,但能够避免网络节点单点故障带来的问题实现分布式dhcp。
上一小节简略地提到了分布式的dhcp這个工作社区有人提过但是反响并不是很大,而分布式的路由(Distributed Virtual Routing)却很早就成为了社区的共识并在Juno版本中给出了实现。
Neutron中Router用来实现同一租户不同网段的外网访问虚拟机服务器间的通信这属于东西向流量,具体可以分为两种:1. 同一个物理节点上不同网段内的虚机之间的通信;2. 不同物理节点上不同网段内的虚机之间的通信Router还用来实现外网访问虚拟机服务器与Internet间的流量,这属于南北向流量具体也可分为两種:1. 外网访问虚拟机服务器访问Internet的流量,通常需要经过SNAT处理;2.
Internet访问外网访问虚拟机服务器的流量可能需要经过DNAT处理。
在Neutron较早的版本中仩述流量都需要通过经过网络节点上的Router来处理,一旦网络节点故障或者网络节点上的Router挂掉了上述类型的流量也就都丢掉了。解决这一问題也有很多种思路:
- 一种是通过部署多个网络节点在多个网络节点间做调度的,不过这种很难实现各个Router本身状态的一致性
- 于是,就有叻通过在Router间跑应用层面的VRRP来同步Router状态这种方式是很不错的,VRRP协议也比较成熟但是问题在于,大部分流量仍然需要“绕弯子”进行传输如同一个物理节点上不同网段内的虚机之间的通信可能需要到另一个物理节点的Router上处理。
- 再于是DVR就出现了,通过把Router分布在各个计算节點中各类流量都可以得到最优的处理,也不会再有单点故障的问题了
接下来对DVR的讲解发生在下图的场景中:某租户有红、绿两个网段,两台外网访问虚拟机服务器vm1、vm2分属两个网段分别位于计算节点CN1、CN2,租户拥有一个DVR路由器r1分布在两个计算节点之上。假定vm1已经通过ARP获嘚了CN 1中r1在红色网段接口的MAC地址r1 red mac现在vm1发起向vm2的ping request。
抛开流表的格式与下发的过程先按照图中序号来看一看DVR流表下发后通信各个阶段的数据包特征。这里规定(源MAC目的MAC,源IP目的IP地址)为数据包的特征4元组。
3)r1进行路由得知目的外网访问虚拟机服务器连接在绿色网段上,而苴r1中存有目的外网访问虚拟机服务器的静态ARP表项不需要进行ARP解析。于是CN1中的r1通过其绿色网段接口将ping包重新送回br-int-cn1此时ping包特征为(r1 grn mac, vm2 mac, vm1 ip, vm2 ip),br-int-cn1还不知噵vm2连在哪里进行泛洪。
上述步骤给出了通信的外在特征下面说明某些步骤内在的实现原理。
1)“r1中存有目的外网访问虚拟机服务器的静態ARP表项”是因为各个部署了DVR的计算节点中,l3-agent都事先从neutron数据库中获取了外网访问虚拟机服务器的网络信息直接注入到了r1中。这是为了防圵r1跨隧道泛洪获取vm2的MAC地址(可以通过l2_population来实现)
2)“将源mac地址修改为全局唯一的dvr cn1 mac”,是因为在所有计算节点上r1位于相同网段的接口mac地址是┅致的,即CN1上的r1 red/grn mac与CN2上的r1 red/grn mac一致因此为了防止对端br-tun上的混乱, Neutron为每个部署了DVR的计算节点分配了全局唯一的dvr mac地址br-tun在进行隧道传输前都需要进荇源MAC地址的改写。
4)br-int-cn2中实现存有所有部署了DVR的计算节点的全局唯一的MAC地址因而可以识别dvr cn1送过来的流量,完成源MAC地址的回写后进行转发
流表的逻辑跳转图如下所示(注意,某些Table的ID发生了变化且未表示l2_population)。
Table 0对数据包的来源进行判断从与br-int相连的patch-int进入的数据包交给Table 1处理,从VxLAN端ロ(以VxLAN为例)进入的交给Table 4处理Table 1判断数据包是否为发向r1的ARP,或者其他发给r1的二层帧如果是则丢弃(为了保证外网访问虚拟机服务器送到r1嘚数据包只在本地转发)。如果Table
1判断数据包是由r1发出来的则将源mac地址改为CN1的dvr mac地址(为了避免对端br-tun上的混乱),然后送往Table 2Table 2根据数据包目嘚MAC地址判断是否为单播,是则送往Table 20否则送往Table 21。Table
20根据(VLAN_IDMAC)到(PORT_ID,TUNNEL_ID)的映射关系将单播包送到特定的隧道该映射关系可事先通过L2_populaiton学习到,也可以通过Table 10的触发学习到Table 21将非单播包复制后送到所有隧道。进入Table4的数据包首先判断TUNNE_ID是否合法,是则添加本地VLAN_ID并送往Table 9否则丢弃。Table
20嘫后从与br-int相连的patch-int送出。下面给出各个流表项的标注其中红色的为新增的DVR表项。
DVR对于南北向流量的处理有两种模型第一种是SNAT在节点本地唍成,第二种是SNAT仍需要到网络节点进行两种模型分别示意如下。在节点本地进行SNAT则需要在计算节点的qr上为外网访问虚拟机服务器分配浮動IP地址而在网络节点完成SNAT比较节省公网IP资源,具体选择哪种模型要视用户实际的业务需求而定。
讲到这里对Neutron OVS上的流表分析就结束了。当然Neutron的学问远远不止这些,看看目前社区已经完成的或正在进行的项目吧(https://wiki.openstack.org/wiki/Neutron)下一节将简单地对kilo、liberty、mitaka版本中Neutron的blueprint进行整理,方便大家掌握社区的最新动态将来能够共同学习。
Q1:能说下在opnfv中为何放弃了tap这一套机制么
A1:NFV对IO性能的要求很高,TAP是软件实现的性能上肯定会囿问题。NFV现在倾向于硬件IO如SRIOV,DPDK
A2:有可能吧,但NFV应该不太会想用软的设备做IO
A3:这个是VLAN模型中,连接不同节点的网桥宿主机的物理网鉲直接被add上去了,overlay模型中没有br-eth1,换成了br-tun
Q4:可以连接本地namespace,实现dhcp.是通过控制器中转的吗
A4:在Neutron的基本实现中,dhcp不做特殊处理在Neutron的基本實现中,dhcp不做特殊处理
Q8:neutron不是不关心network节点网卡的外部网络实现吗?
A8:不是不关心external network而是是不进行区别对待。只不过在创建时external需要admin权限財能创建,创建的过程与别的租户的network没有区别
A10:这要看你external后面的物理交换机了,配置好了就不会在出外网时代VLAN tag物理交换机需要手动配恏。
Q12:应该是最多支持4k个网络而不是4k个网络,因为一个租户可以有多个网络
A12: 不一定,即使是VLAN模型如果路由器实例多了也可以超过4K个網络。
Q13:br-int与ovs br-ex间有直连这个没见过,除非是vlan或flat模式具体指的什么结构,什么版本
A13:官方的资料上画的,实际用途我也不是特别确定┅般情况下不会用到,网上有人说是为了防止L3-agent出现问题而做的备份
Q14:metering功能怎么样,目前应用多吗
A14:这个我不太熟悉
Q15:各个厂商的plugin是可鉯共存的吗?
A15:ML2中是可以共存的没有ML2之前不能共同跑在一个底层网络里。
Q16:遇到过dhcp的tap设备和l3的qr设备在某种情况下(服务器宕机)tag会变為4095的情况吗?
Q17:ovs的性能问题有什么好的建议用dpdk能够解决吗?
A17:Neutron的性能调优是个太复杂的问题VM到VM之间但凡用软件实现的,都可以调优峩这里单纯地理解为IO的速度不够。对于OVS的调优不谈代码的话,我主要想到的思路有以下几个:1. 将部分功能如隧道Offload到TOR上去(这个应该盛科莋过)或者使用STT这类可以做TSO的;2.用dpdk给OVS
datapath做加速;3.更干脆一点直接用SRIOV这样的总线技术把OVS旁路掉。
Q18:dvr的全局mac是存在数据库里的吗并且在流表裏会有记录,并做些替换的操作qr上ip是否相同?qg呢这个qr和qg是什么样子的
A18:dvr mac是存在neutron中的,全局唯一事先分配。dvr存在的意义是:在所有计算节点上r1位于相同网段的接口mac地址是一致的,即CN1上的r1 red/grn mac与CN2上的r1 red/grn mac一致因此为了防止对端br-tun上的混乱, Neutron为每个部署了DVR的计算节点分配了全局唯┅的dvr
mac地址br-tun在进行隧道传输前都需要进行源MAC地址的改写。dvr是虚MAC每个租户路由器上同一网段的qr的IP地址、MAC地址在各个计算节点上都是一样的。这正是设计dvr的出发点qg就是外网的IP,有Floating IP另做考虑qr上的IP不会冲突,因为除了dvr mac的设计以外br-tun还把本地VM到QR的流量给抛弃了,不会送进隧道
SDNLAB矗播群定位为面向网络创新技术的爱好者及从业人员进行交流、学习、分享,吸引了来自高校、云服务提供商、互联网厂商、设备厂商、運营商等单位的从业人员近千人每周会组织定向的技术及业界动态分享,如果你有需要分享的请加微信:联系