📄 bridge_current.c
字号:
/* 解析:xie_minix *//* 概述: * 该代码在FB中提供桥接功能,不过他只是在以太网接口上工作,能提供多个逻辑桥 * ,我们称为组,组是由一组有相同组ID的接口组成,组ID的范围在1到2^16-1之间. * 打开桥的功能是通过sysctl net.link.ether.bridge=1来启动的. * 而sysctl net.link.ether.bridge_cfg是把以太网接口进行分组的命令,如: * sysctl net.link.ether.bridge_cfg="vr0:1,vr1:1,fxp0:2,fxp1:2" 该命令的结果 * 为网卡vr0和vr1可以进行相互通信,fxp0和fxp1之间可以互相转发,等于是分为俩组了. * 但目前的该项设置还不能进行多组成员和单向控制,即一块卡可以为多个组的成员和某卡 * 与另外卡的数据单向流动.在本文中,我将结合代码来讲解如何实现以上的功能. * 在本代码中,重要的数据结构是cluster_softc,他主要是记录一个组的接口所连接的机器 * 的硬件地址,该地址数组存储采用HASH算法,据我所知,4.4版和OpenBSD版的HASH函数算法根本不同, * 我们在下面的代码分析过程中将看到,我也将讲解两个版本的不同之处,说实话,该算法我根本看 * 不懂(OpenBSD),估计该算法应该有相关的论文描述. * 代码的学习顺序: * 由于在if_ethersubr.c中的ether_input函数接到一数据包后,先查看bridge功能是否打开, * 即判断全局变量do_bridge是否为1(该变量是由上面讲的sysctl来控制的),为真的话就调用 * 本文中的函数bridge_in(详细可看我写的"ethernet网络驱动代码详解"),所以在本文中的 * bridge_in函数是第一个被调用的.该函数的作用是在上面讲的哪个重要的数据结构中查找 * 目标地址要通过本机的哪块卡发送,当然其中还涉及到多播,广播和是否将网卡进行分组以 * 及是否发送方,目的方经过的本机网卡是否被分在同组中等,在完成后,如果成功找到了发送 * 到目的地机器和本机直接相连的网卡就返回该网卡的ifnet结构指针(该结构可连接所描述的卡 * 的所有信息,见我所写的"关于FreeBSD4.4网络源代码接口层数据结构ifnet分析说明"),然后 * if_ethersubr.c中的ether_input函数还要查看是否是发给本机的包,如果不是则调用本文的 * bridge_forward函数进行数据的转发,这就是本文的主要功能.和交换机的原理有点类似. * 性能分析: * 由于在进行桥转发的过程中,是一定要使网卡工作在混杂模式的,所以进行网桥工作的卡要选购 * 性能好的网卡,我个人觉得intel,3com等比较适合,其他的如rtl8139卡最好只用来做实验,不要 * 用于实际的工作中(如果要我说明原因,请看看他的驱动程序你就知道了,但单机上网没关系),另 * 外,PCI漕内不要其他的卡(如声卡等),我们知道,网卡驱动程序目前在BSD中工作于中断驱动模式, * 也就是说,进来一个包就能产生一个中断,而中断的系统开销有多达大家可以查看内核代码,总之 * 是非常大,如果你是四块卡,而且担任网桥及一些过滤功能的话,肯定数据包通过量会比较大,那么 * 中断产生的频率是平常一块卡的十几甚至是几十倍(平常的卡一个是数据量不大,另一个是不在混 * 杂模式下).要想桥工作的效率提高,建议去除本机处理针对本机的高层协议处理,如IP协议等,或改 * 写驱动程序为半轮询模式(使用timeout读卡的数据是否到达),OpenBSD中的bridge是真正的把bridge做 * 为一个设备来编写的,配备了标准的设备驱动程序,不过我还没有完全分析过,大概的看了看,觉得 * 比FreeBSD中的桥功能要强很多啊! * 如何驱动一个网桥: * 首先在内核配置文件中加入以下一行: * option BRIDGE * 注:我所使用的4.4版本是必须的,当前版本不需要这样,可以kld动态加载. * 重新编译核心后重启,使用 sysctl net.link.ether.bridge=1启动桥功能. * 如果想把网卡编组,使用 sysctl net.link.ether.bridge_cfg="设备:组号,设备:组号,..."即完成. *//* * 此处略去BSD版权申明 */#include <sys/param.h>#include <sys/mbuf.h>#include <sys/malloc.h>#include <sys/protosw.h>#include <sys/systm.h>#include <sys/socket.h>#include <sys/ctype.h> #include <sys/kernel.h>#include <sys/sysctl.h>#include <net/pfil.h> #include <net/if.h>#include <net/if_types.h>#include <net/if_var.h>#include <netinet/in.h> #include <netinet/in_systm.h>#include <netinet/in_var.h>#include <netinet/ip.h>#include <netinet/if_ether.h> #include <net/route.h>#include <netinet/ip_fw.h>#include <netinet/ip_dummynet.h>#include <net/bridge.h>/*--------------------*/#define HASH_SIZE 8192 /* HASH表的大小,必须是2的权数 *//*hash表,该表存放与本机各块卡相连机器的硬件地址*/typedef struct hash_table { struct ifnet * name; /*与某机器相连的本机网卡的ifnet结构指针*/ u_char etheraddr[6]; /*某台机器的硬件地址*/ u_int16_t used; /*这是一个是否在用(某机器是否活动)的标志*/} bdg_hash_table ;/* *哈稀函数,我不理解他的算法,难道这样就不会产生同义字了吗? */#define HASH_FN(addr) ( \ ntohs( ((u_int16_t *)addr)[1] ^ ((u_int16_t *)addr)[2] ) & (HASH_SIZE -1))/* * 下面的结构存储了本机的各卡的硬件地址. */struct bdg_addr { u_char etheraddr[6] ;/*本机卡的硬件地址*/ u_int16_t _padding ;/*这个成员还象没看到他用过*/};/* * 这就是我们上面说的组,每块卡都有一个cluster_softc结构 */struct cluster_softc { u_int16_t cluster_id; /*组的ID号*/ u_int16_t ports;/*顺序号*/ bdg_hash_table *ht;/*和该卡所连接的机器MAC地址哈稀表首指针*/ struct bdg_addr *my_macs; /* 本卡的硬件地址 */};extern struct protosw inetsw[]; /* 在netinet/ip_input.c中 */extern u_char ip_protox[]; /* 在netinet/ip_input.c中 */static int n_clusters; /* 组的数量*/static struct cluster_softc *clusters; /*定义一个组的全局初始指针*/#define BDG_MUTED(ifp) (ifp2sc[ifp->if_index].flags & IFF_MUTE) /*检查本机某卡是否桥启用*/#define BDG_MUTE(ifp) ifp2sc[ifp->if_index].flags |= IFF_MUTE /*禁止本机的该卡桥功能*/#define BDG_CLUSTER(ifp) (ifp2sc[ifp->if_index].cluster)/*根据卡在核心的唯一序号定位他的cluster_softc结构指针*/#define BDG_SAMECLUSTER(ifp,src) \ (src == NULL || BDG_CLUSTER(ifp) == BDG_CLUSTER(src) ) /*俩卡是否在同一组里?*//*src==NULL代表数据包来自ether_output函数.*/#ifdef __i386__/*比较两个地址是否相同,硬件地址是6个字节,所以他先比较后面的长字(4个字节),再比较前一个字(2个字节)*/#define BDG_MATCH(a,b) ( \ ((u_int16_t *)(a))[2] == ((u_int16_t *)(b))[2] && \ *((u_int32_t *)(a)) == *((u_int32_t *)(b)) )/*以下是比较广播地址*/#define IS_ETHER_BROADCAST(a) ( \ *((u_int32_t *)(a)) == 0xffffffff && \ ((u_int16_t *)(a))[2] == 0xffff )#else/* 非i386的机器不一定按长字或字对齐,所以按字节的方式比较. */#define BDG_MATCH(a,b) (!bcmp(a, b, ETHER_ADDR_LEN) )#define IS_ETHER_BROADCAST(a) (!bcmp(a, "\377\377\377\377\377\377", 6))#endif/* *以下两句是调试用的. */#define DDB(x) x#define DEB(x)static int bdginit(void);/*申明bridge初始化函数*/static void parse_bdg_cfg(void);/*申明sysctl的字符参数分解函数*/static int bdg_ipf; /* bridge中的IPFilter */static int bdg_ipfw;#if 0 /* 调试用的打印信息 */static char *bdg_dst_names[] = { "BDG_NULL ", "BDG_BCAST ", "BDG_MCAST ", "BDG_LOCAL ", "BDG_DROP ", "BDG_UNKNOWN ", "BDG_IN ", "BDG_OUT ", "BDG_FORWARD " };#endif/* * 以下系统初始化几个结构 */static struct bdg_stats bdg_stats ;/*该结构用于统计信息*/static struct callout_handle bdg_timeout_h ;/*用于保存timeout函数返回值*//* 把一网络接口加到组中,当然如果定义的组不存在的话,就建立一个该组. */static struct cluster_softc *add_cluster(u_int16_t cluster_id, struct arpcom *ac){ struct cluster_softc *c = NULL;/*这是准备用于返回的加入(没有该组就是建立的)组结构*/ int i; for (i = 0; i < n_clusters ; i++) /*遍历所有组,n_clusters在加入后或建立后会++*/ if (clusters[i].cluster_id == cluster_id)/*有该组号吗?*/ goto found;/*有,跳过建立一个新的,直接到加入该组,此时i+全局变量clusters的内容是发现该组的cluster_softc指针*/ /* 我们要在此建立一个新的组*/ c = malloc((1+n_clusters) * sizeof (*c), M_IFADDR, M_NOWAIT | M_ZERO);/*分配这么多干吗,错了吗?没有,看后面就知道了,他进行了举家搬迁,把前面的都搬过来了*/ if (c == NULL) {/* 分配失败 */ printf("-- bridge: cannot add new cluster\n");/*应该加上,no memory说明*/ return NULL; } /*分配一个HASH表给该卡,要用掉蛮多内存的,即12*8K*/ c[n_clusters].ht = (struct hash_table *)malloc(HASH_SIZE * sizeof(struct hash_table),M_IFADDR, M_WAITOK | M_ZERO); if (c[n_clusters].ht == NULL) {/*没内存了,很少出现此情况*/ printf("-- bridge: cannot allocate hash table for new cluster\n"); free(c, M_IFADDR);/*HASH表没分配到,当然前面分配到的cluster_softc结构要释放掉*/ return NULL; } /*分配一存放本机网卡硬件地址的表*/ c[n_clusters].my_macs=(struct bdg_addr *)malloc(BDG_MAX_PORTS * sizeof(struct bdg_addr),M_IFADDR, M_WAITOK | M_ZERO); if (c[n_clusters].my_macs == NULL) { /*内存分配不成功*/ printf("-- bridge: cannot allocate mac addr table for new cluster\n"); free(c[n_clusters].ht, M_IFADDR);/*上面跟这个结构有关的已分配结构都要释放*/ free(c, M_IFADDR); return NULL; } c[n_clusters].cluster_id = cluster_id;/*新组的ID号*/ c[n_clusters].ports = 0;/*在新组中加入的卡*/ /* * 在这个地方就开始了前面说是否错了的处理的地方,意思是把原来分配的组的指针数组拷贝到新的组中. */ if (n_clusters > 0) { for (i=0; i < n_clusters; i++)/*因为n_clusters在上面已经设置完了,不需要i=<*/ c[i] = clusters[i]; /*搬家了*/ /* * */ for (i = 0 ; i < if_index && i < BDG_MAX_PORTS; i++)/*if_index是系统内的所有网卡数*/ if (ifp2sc[i].cluster != NULL) ifp2sc[i].cluster = c + (ifp2sc[i].cluster - clusters); free(clusters, M_IFADDR);/*释放掉老的cluster_softc*/ } clusters = c;/*重新定位全局变量指针,新的cluster_softc指针数组的头指针为新分配的C*/ i = n_clusters; n_clusters++;found: c = clusters + i; /* 刚申请的组指针 */ bcopy(ac->ac_enaddr, &(c->my_macs[c->ports]), 6); /*把本网卡的硬件地址存入刚申请的组中*/ c->ports++;/*该组的网卡数加一块*/ return c;}/* * 关闭桥转发, 并在接口卡上去掉混杂模式,HASH表和网卡的分组也去除*/static voidbridge_off(void){ struct ifnet *ifp ; int i, s; DEB(printf("bridge_off: n_clusters %d\n", n_clusters);) IFNET_RLOCK();/*新加的,老版本中没有,其定义为mtx_lock(&ifnet_lock),好象是互斥锁,我没有研究过.关于ifnet_lock,是 定义在if.c中,mtx结构,应该是互斥体结构,之所以加上他,应该是和SMP有关系.*/ TAILQ_FOREACH(ifp, &ifnet, if_link) {/*if_link是ifnet链表中的下一个ifnet*/ struct bdg_softc *b; if (ifp->if_index >= BDG_MAX_PORTS)/*一般不会出现这种情况*/ continue; /* */ b = &(ifp2sc[ifp->if_index]); if ( b->flags & IFF_BDG_PROMISC ) {/*如果网卡在混杂模式就做下面的工作*/ s = splimp();/*关网络中断*/ ifpromisc(ifp, 0);/*去掉混杂模式,ifp是要去掉该模式的网卡的ifnet结构指针.*/ splx(s);/*开网络中断*/ b->flags &= ~(IFF_BDG_PROMISC|IFF_MUTE) ; DEB(printf(">> now %s%d promisc OFF if_flags 0x%x bdg_flags 0x%x\n", ifp->if_name, ifp->if_unit, ifp->if_flags, b->flags);) } b->flags &= ~(IFF_USED) ;/*去掉IFF_USED标志,既不再桥转发了.*/ b->cluster = NULL;/*该卡所在的组的指针也置空.*/ bdg_stats.s[ifp->if_index].name[0] = '\0';/*当然统计信息也要改了.*/ } IFNET_RUNLOCK();/*解互斥锁,看到这应该明白了,互斥锁是在修改ifnet结构和bdg_stats结构时进行保护的.*/ s = splimp(); for (i=0; i < n_clusters; i++) {/*所有组*/ free(clusters[i].ht, M_IFADDR);/*把HASH表释放掉*/ free(clusters[i].my_macs, M_IFADDR);/*把在组中记录本机网卡硬件地址的空间释放掉*/ } if (clusters != NULL) free(clusters, M_IFADDR);/*释放组占用的空间*/ clusters = NULL;/*置组的头的指针为空*/ n_clusters =0;/*卡分组的数量也重新置0*/ splx(s);}/* * 把所有卡都置为混杂模式. */static voidbridge_on(void){ struct ifnet *ifp ; int s ; IFNET_RLOCK();/*看前面bridge_off函数有说明*/ TAILQ_FOREACH(ifp, &ifnet, if_link) {/*遍历整个ifnet结构*/ struct bdg_softc *b = &ifp2sc[ifp->if_index]; if ( !(b->flags & IFF_USED) )/*如果没有在使用*/ continue ; if ( !( ifp->if_flags & IFF_UP) ) {/*如果接口关闭*/ s = splimp(); if_up(ifp);/*打开接口,在if.c中,调用if_route函数,比较复杂,到讲route.c和radix.c的时候再讲*/ splx(s); } if ( !(b->flags & IFF_BDG_PROMISC) ) {/*是否在混杂模式?*/ int ret ; s = splimp(); ret = ifpromisc(ifp, 1);/*设置混杂模式,1是加上混杂模式,0是取消混杂模式*/ splx(s); b->flags |= IFF_BDG_PROMISC ;/*在该卡的bdg_softc结构中也加上混杂模式*/ DEB(printf(">> now %s%d promisc ON if_flags 0x%x bdg_flags 0x%x\n", ifp->if_name, ifp->if_unit, ifp->if_flags, b->flags);) } if (b->flags & IFF_MUTE) {/*去掉阻塞*/ DEB(printf(">> unmuting %s%d\n", ifp->if_name, ifp->if_unit);) b->flags &= ~IFF_MUTE; } } IFNET_RUNLOCK();}/** *该函数在执行系统命令 sysctl net.link.ether.bridge 和sysctl net.link.ether.bdg_cfg后 */static voidreconfigure_bridge(void){ bridge_off();/*先关闭所有卡的桥转发,该函数在上面*/ if (do_bridge) {/*如果桥转发打开了,就执行分析bdg_cfg设置的字符串*/ if (if_index >= BDG_MAX_PORTS) { printf("-- sorry too many interfaces (%d, max is %d)," " disabling bridging\n", if_index, BDG_MAX_PORTS); do_bridge=0; return; } parse_bdg_cfg();/*分析字符串,该函数在下面*/ bridge_on();/*打开所有卡的桥转发,该函数的描述在上面*/ }}static char bridge_cfg[1024]; /* in BSS so initialized to all NULs *//* *分析字符串函数,如:...bdg_cfg=vr0:1,vr1:1,fxp0:2,fxp1:2 也就是说对卡进行分组时,要把卡的名称,设备号,及组号 *分解出来,该函数不和内核有太多牵连,纯粹是字符串分解函数,按照目前的这种分解情况,每块卡只能存在于一个组中, *如果我们希望他能在多个组中应该怎么办?而且一卡多组的情况是非常有用的,如: *..........................................| *..........................................| ...Internet 入口 *................................._____________________ *.................................|.......卡1 ........| *.................................|.卡2...........卡3.| 透明网桥A *.................................|___________________| *...................................|..............| *...................................|..............| *................................主机B...........主机C *说明:网桥A是一个有三块卡的FreeBSD主机,其中卡1通向Internet * 主机B是认证服务器,主机C是数据库服务器. * 要求从Internet进入的数据包只能到主机B进行认证,认证后该机IP地址存入主机A的缓冲,才能和C通讯 * 也就是说卡1和卡2是同组,卡1同卡3在认证后将是同组,关于A记录已认证IP地址的方法,我认为最好使用 * patricia树,但在树中只存储主机路由及认证信息. */static voidparse_bdg_cfg(){
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -