【RDMA】RDMA抓包|InfiniBand 连接和状态诊断工具|性能测试工具

目录

诊断工具–翻译中

RDMA抓包

ibdump

tcpdump (docker,Linux内核从4.9以上)

Offloaded Traffic Sniffer(tcpdump,ConnectX®-4以上的版本,libpcap库v1.9或更高版本)


 

诊断工具–翻译中

摘自《Mellanox_OFED_Linux_User_Manual_v4_1》

本章介绍的诊断工具提供了fabric中IB设备的连接和状态调试方法。

工具 描述
ibdump

测试流入和流出Mellanox Technologies ConnectX系列适配器InfiniBand端口的InfiniBand通信。

 

请注意以下几点:

  • 虚拟功能(SR-IOV)不支持ibdump。
  • 所有HCA均支持Infiniband流量嗅探。
  • 仅在Connect-X3和Connect-X3 Pro卡上支持以太网和RoCE嗅探。

dump出来的文件,可以通过Wireshark工具加载进行图形流量分析。

 

以下描述了本地HCA(适配器)嗅探的工作流程:

  • 1.运行ibdump 并给定运行选项
  • 2.运行进行IB通信的应用程序
  • 3.停止ibdump(CTRL-C)或等待数据缓冲区填充(在–mem-mode中)
  • 4.打开Wireshark并加载生成的文件。要下载适用于Linux或Windows环境的Wireshark,请访问www.wireshark.org。

注意:尽管ibdump是Linux应用程序,但是可以在任一操作系统上分析生成的.pcap文件。 [mlx4]为了使ibdump与RoCE一起使用,必须启用Flow Steering。

启用步骤:

1.将以下内容添加到/etc/modprobe.d/mlnx.conf文件:options mlx4_core log_num_mgm_entry_size = -1

2.重新启动驱动程序。

注意:如果将HCA的端口中有一个配置为InfiniBand,则ibdump要求IPoIB DMFS是使能的。有关更多信息,请参阅第3.1.12.1节,启用/禁用流向,第103页。有关更多信息,请参阅工具的手册页。

dump_fts

为子网的ibnetdiscover扫描中发现的每个交换机转储表。dump文件格式与使用-R file -U /path/to/dump-file语法加载到OpenSM兼容。

Dumps tables for every switch found in an ibnetdiscover scan of the subnet. The dump file format is compatible with loading into OpenSM using the -R file -U /path/to/dump-file syntax.
For further information, please refer to the tool’s man page.

ibaddr

默认情况下,可以用来显示指定端口或本地端口的LID和GID地址。这个实用程序可以用作简单的地址解析器。
要了解更多信息,请参考该工具的手册页。

Can be used to show the LID and GID addresses of the specified port or the local port by default. This utility can be used as simple address resolver.
For further information, please refer to the tool’s man page.

ib_send_bw

 

测试两台机器之间的SEND带宽

 

一个充当服务器,另一个充当客户端。服务器从客户端接收数据包,它们都计算操作的吞吐量。该测试支持双向功能(双向功能可同时发送和接收),mtu大小的更改,tx大小,迭代次数,消息大小等。使用“ -a”可提供所有消息大小的结果。
有关更多信息,请参阅该工具的手册页。

Calculates the BW of SEND between a pair of machines. One acts as a server and the other as a client. The server receive packets from the client and they both calculate the throughput of the operation. The test supports features such as Bidirectional, on which they both send and receive at the same time, change of mtu size, tx size, number of iteration, message size and more. Using the “-a” provides results for all message sizes.
For further information, please refer to the tool’s man page.

 

RDMA抓包

ibdump

嗅探RDMA流量(抓包RDMA)非常棘手,因为一旦两端完成了初始握手,数据便会不经过内核协议栈通过网卡(HCA)直接到达内存。除了在网络上放置专用硬件嗅探器来抓包,剩下的唯一方法就是在网卡内放置有网卡商的hook接口,然后网卡商提供使用这些接口的 软件工具。

例如:Mellanox HCA(网卡)的ibdump,This tool is also a part of Mellanox OFED package.

 

查看tcpdump和libpcap版本

[root@rdma63 dscp]# tcpdump –help
tcpdump version 4.9.2
libpcap version 1.5.3
 

ibdump github: https://github.com/Mellanox/ibdump

tcpdump (docker,Linux内核从4.9以上)

最新消息:Linux内核从4.9版开始就支持抓包RDMA(RoCE)流量。tcpdump发展到使用RDMA verbs接口直接 捕获流量。请确保使用最新的Linux内核service:https://hub.docker.com/r/mellanox/tcpdump-rdma

(查看内核版本命令:uname -r、uname -a、lsb_release -a)
但是,在某些系统上很难升级tcpdump应用程序和关联的库以利用最新功能(特别是RDMA嗅探器)。

使用该docker容器是用户能使用tcpdump捕获和分析RDMA数据包的简单,优雅且最快的方式。

使用方法:

1、拉取容器:
docker pull mellanox / tcpdump-rdma

2、启动容器
docker run -it -v /dev/infiniband:/dev/infiniband -v /tmp/traces:/tmp/traces –net=host –privileged

现在mellanox/tcpdump-rdma bash 开始使用RDMA设备mlx5_0捕获数据包。 (注意RDMA设备,而不是以太网设备)

3、保存捕获结果到文件

tcpdump -i mlx5_0 -s 0 -w /tmp/traces/capture1.pcap 

这会将数据包保存在容器内外/ tmp / traces目录中的capture1.pcap文件中。

Offloaded Traffic Sniffer(tcpdump,ConnectX®-4以上的版本,libpcap库v1.9或更高版本)

原文:https://docs.mellanox.com/display/MLNXOFEDv451010/Offloaded+Traffic+Sniffer

ConnectX®-4更高版本的网卡中受支持

Offloaded 流量嗅探器 使得bypass kernel的数据传输方式 (如 RoCE, VMA, and DPDK)的流量可以被tcpdump等现有的抓包分析工具捕获

使能Offloaded  Traffic Sniffer:

  1. Turn on the new ethtool private flags “sniffer” (off by default). 

    $ ethtool --set-priv-flags enp130s0f0 sniffer on

  2. 在要监听的以太网接口上设置sniffer 标志后,运行tcpdump捕获该接口上的bypass kernel 流量。

注意:使能Offloaded Traffic Sniffer会降低bypass kernel数据流的速度。

有关如何使用ConnectX-4网卡自带的tcpdump工具 dump RDMA流量的示例:

(示例英文原文:https://community.mellanox.com/s/article/how-to-dump-rdma-traffic-using-the-inbox-tcpdump-tool–connectx-4-x

一、前提条件

设置
注意:如果您使用的是MLNX_OFED v5.1或更高版本,请确保在您的设置中安装了libpcap库v1.9更高版本,以便能够激活该功能。要下载libpcap,请访问https://www.tcpdump.org/
在下面的示例中,使用了两个通过ConnectX-4适配器背对背连接的服务器。

查看tcpdump和libpcap版本

[root@rdma63 dscp]# tcpdump –help
tcpdump version 4.9.2
libpcap version 1.5.3

配置

  • 链路层:以太网
  • 流量:RoCE

 

二、执行过程

1.配置两个适配器端口的IP地址,并确保在服务器之间运行ping。

2.使用ethtool启用嗅探器。

在此示例中,网卡名称为ens785f0:
# ethtool –set-priv-flags ens785f0 sniffer on

注意:如果您使用的是MLNX_OFED v5.1或更高版本,则此步骤无关紧要。

3.运行tcpdump等待数据包

对于低于5.1的MLNX_OFED版本,请运行:
#tcpdump -i ens785f0 -s 65535 -w rdma_traffic.pcap

对于MLNX_OFED v5.1及更高版本,运行:
#tcpdump -i mlx5_1 -s 65535 -w rdma_traffic.pcap

 

测试完成后,在wireshark中打开文件。
请参阅tcpdump主页(https://linux.die.net/man/8/tcpdump)以查看更多示例。

 

4. 验证RDMA抓包效果(Run RDMA traffic):

在一个服务器上运行

# ib_send_bw

************************************

* Waiting for client to connect... *

************************************

在另外一个服务器上运行:

# ib_send_bw  192.168.5.232  –report_gbits -F

---------------------------------------------------------------------------------------

Send BW Test

Dual-port : OFF Device : mlx5_1

Number of qps : 1 Transport type : IB

Connection type : RC Using SRQ : OFF

TX depth : 128

CQ Moderation : 100

Mtu : 4096[B]

Link type : Ethernet

Gid index : 0

Max inline data : 0[B]

rdma_cm QPs : OFF

Data ex. method : Ethernet

---------------------------------------------------------------------------------------

local address: LID 0000 QPN 0x01ae PSN 0x31a206

GID: 00:00:00:00:00:00:00:00:00:00:255:255:12:12:12:06

remote address: LID 0000 QPN 0x020a PSN 0xa2824e

GID: 00:00:00:00:00:00:00:00:00:00:255:255:12:12:12:05

---------------------------------------------------------------------------------------

#bytes #iterations BW peak[Gb/sec] BW average[Gb/sec] MsgRate[Mpps]

65536 1000 95.16 95.16 0.181502

---------------------------------------------------------------------------------------

 

5.检查输出文件。
在此示例中,UDP端口4791用于RoCEv2通信。

# cat ~/rdma_traffic.txt

 

...

14:48:23.007280 IP (tos 0x0, ttl 64, id 5066, offset 0, flags [DF], proto UDP (17), length 308)

1.1.6.2.49153 > 1.1.5.2.4791: [no cksum] UDP, length 280

0x0000: 248a 0780 5401 e41d 2df2 a45c 8100 0006 $...T...-..\....

0x0010: 0800 4500 0134 13ca 4000 4011 18ea 0101 ..E..4..@.@.....

0x0020: 0602 0101 0502 c001 12b7 0120 0000 6440 ..............d@

0x0030: ffff 0000 0001 0000 002a 8001 0000 0000 .........*......

0x0040: 0001 0107 0203 0000 0000 0000 0011 7a2f ..............z/

0x0050: ac19 0010 0000 0000 0000 19ac 2f7a 0000 ............/z..

0x0060: 0000 0000 0000 0106 4853 e41d 2d03 00f2 ........HS..-...

0x0070: a45c 0000 0000 0000 0000 0001 a400 0000 .\..............

0x0080: 0000 0000 00b0 28a5 38b7 ffff 37f0 ffff ......(.8...7...

0x0090: ffff 0000 0000 0000 0000 0000 ffff 0101 ................

0x00a0: 0602 0000 0000 0000 0000 0000 ffff 0101 ................

0x00b0: 0502 0000 0007 0040 0098 0000 0000 0000 .......@........

0x00c0: 0000 0000 0000 0000 0000 0000 0000 0000 ................

0x00d0: 0000 0000 0000 0000 0000 0000 0000 0000 ................

0x00e0: 0000 0000 0000 0040 b1ee 0000 0000 0000 .......@........

0x00f0: 0000 0000 0000 0101 0602 0000 0000 0000 ................

0x0100: 0000 0000 0000 0101 0502 0000 0000 0000 ................

0x0110: 0000 0000 0000 0000 0000 0000 0000 0000 ................

0x0120: 0000 0000 0000 0000 0000 0000 0000 0000 ................

0x0130: 0000 0000 0000 0000 0000 0000 0000 0000 ................

0x0140: 0000 5870 f2dd ..Xp..

如果您将文件保存给Wireshark,则会收到以下消息:
“请确保您使用的是最新版本的wireshark,因为旧版本可能无法很好地解析InfiniBand。”

 

 

 

版权声明:本文为bandaoyu原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/bandaoyu/p/14672665.html