Miłosz 2311 Zgłoś post Napisano Luty 22, 2014 Rzućcie na to okiem.. Bo ja już nie wiem o co chodzi...Przeorałem router na czysto. Bond1 to bonding typu LACP z enp10s0f0 i enp10s0f1 do Dlinka DGS-3120. Na switchu założony LAG z dwóch portów z typem LACP. Sterownik tg3 w wersji 3.133d, karta BCM5719. Kernel 3.10.30.mode_bond1="802.3ad"miimon_bond1="100"lacp_rate_bond1="1"downdelay_bond1="200"updelay_bond1="200"dmesg: http://wklej.org/hash/4659df1f6ab/Dodam, że tylko na jednym vlanie pojawiają się straty w mtr. Np z vlanu 10 idzie ok, a na vlanie 14 jest 50% strat na bramce. Takie WTF troche.. Udostępnij ten post Link to postu Udostępnij na innych stronach
www.ionic.pl 535 Zgłoś post Napisano Luty 22, 2014 (edytowany) z jakim typem masz ten lag ? zwróć uwagę na warstwę ważne jest nie tyle samo włączone lacp ale również dst (istotne czy ma lecieć w mac czy w ip) Edytowano Luty 22, 2014 przez www.ionic.pl (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 22, 2014 (istotne czy ma lecieć w mac czy w ip)A jakby było lepiej? Na switchu jest ustawione IP Source o ile dobrze pamiętam. Udostępnij ten post Link to postu Udostępnij na innych stronach
www.ionic.pl 535 Zgłoś post Napisano Luty 22, 2014 to nie jest kwestia lepiej gorzej, ma być właściwie nie znam topologii Twojej sieci, ale warto byś zadał sobie pytanie co chcesz agregować i wtedy to skonfigurował Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 23, 2014 Ruch przechodzi tam głównie na natownice do lanu. Wykminiłem, że na dlinku ustawie algorytm IP Source Destination, a na linuxie xmit_hash_policy na layer3+4. Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 25, 2014 Dzisiaj będę zmieniał polityke hashowania. Sprawdziłem iptrafem i z/do lanów jest ok 22-25k pps. Zauważyłem, że straty pakietów przeniosły się na inny vlan. Tak jakby coś nie dawało rady.. Udostępnij ten post Link to postu Udostępnij na innych stronach
m0t 0 Zgłoś post Napisano Luty 26, 2014 nie wiem czy juz sobie poradziles, ale maly hint nigdy nie zaszkodzi util % na sw? , nie masz czasem jakichs flowow i innych wynalazkow ? generalnie basicy maja problem z wieloma rzeczami, czego pieknym przykladem sa procurvy (<5k).. jedyne co moge doradzic to szukanie w klasyku, od samej sieciowki (benche,smp,aff,phys..) po test z innym sw (lub chociaz jakies nowsze fw ?) Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 26, 2014 Przy normalnym ruchu %si na corach od 0.0 do 0.7, czasem jakiś wyskoczy na 1%. Dell dał upgrady do firmwarów sieciówek. Teraz jeszcze będę sprawdzał inny kernel. SMP aff rozłożone po corach. Na routerze nie ma żadnych wynalazków dodatkowo obciążających procka, pure-routing. Switch już zmieniłem na inny. Dzisiaj odpale z innym kernelem i zobaczymy. Udostępnij ten post Link to postu Udostępnij na innych stronach
m0t 0 Zgłoś post Napisano Luty 26, 2014 tzn bardziej mi chodzilo o util na przelaczniku, flowy, bajery itp Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 26, 2014 Na przełączniku też nie ma żadnych cudów Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 28, 2014 No nic.. Dalej to samo. Ubuntu Server 12.04.4 LTS, 3.5.0-46-generic, tg3 w wersji 3.133d [29339.275497] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x272/0x280() [29339.275499] Hardware name: PowerEdge R320 [29339.275501] NETDEV WATCHDOG: eth2 (tg3): transmit queue 0 timed out [29339.275503] Modules linked in: ip6table_filter ip6_tables ebtable_nat ebtables ipt_MASQUERADE iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_state ipt_REJECT xt_CHECKSUM iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables ip_vs nf_conntrack libcrc32c coretemp kvm_intel kvm ghash_clmulni_intel aesni_intel cryptd aes_x86_64 bridge shpchp bonding gpio_ich 8021q garp stp joydev llc sb_edac mei wmi lp dcdbas parport edac_core microcode mac_hid acpi_power_meter lpc_ich ses enclosure hid_generic usbhid hid ahci libahci tg3(O) e1000e megaraid_sas [29339.275545] Pid: 0, comm: swapper/0 Tainted: G W O 3.5.0-46-generic #70~precise1-Ubuntu [29339.275546] Call Trace: [29339.275548] <IRQ> [<ffffffff81052e9f>] warn_slowpath_common+0x7f/0xc0 [29339.275557] [<ffffffff81052f96>] warn_slowpath_fmt+0x46/0x50 [29339.275562] [<ffffffff815a0d02>] dev_watchdog+0x272/0x280 [29339.275565] [<ffffffff815a0a90>] ? pfifo_fast_dequeue+0xe0/0xe0 [29339.275568] [<ffffffff815a0a90>] ? pfifo_fast_dequeue+0xe0/0xe0 [29339.275573] [<ffffffff81062f4b>] call_timer_fn+0x3b/0x150 [29339.275576] [<ffffffff815a0a90>] ? pfifo_fast_dequeue+0xe0/0xe0 [29339.275580] [<ffffffff81064892>] run_timer_softirq+0x132/0x2a0 [29339.275585] [<ffffffff810a45a5>] ? ktime_get+0x65/0xe0 [29339.275589] [<ffffffff8105bcc8>] __do_softirq+0xa8/0x210 [29339.275593] [<ffffffff810ab7d4>] ? tick_program_event+0x24/0x30 [29339.275597] [<ffffffff816a981c>] call_softirq+0x1c/0x30 [29339.275603] [<ffffffff81016235>] do_softirq+0x65/0xa0 [29339.275606] [<ffffffff8105c0ae>] irq_exit+0x8e/0xb0 [29339.275610] [<ffffffff816aa17e>] smp_apic_timer_interrupt+0x6e/0x99 [29339.275615] [<ffffffff816a8eca>] apic_timer_interrupt+0x6a/0x70 [29339.275616] <EOI> [<ffffffff8103ff46>] ? native_safe_halt+0x6/0x10 [29339.275623] [<ffffffff8101c933>] default_idle+0x53/0x1f0 [29339.275626] [<ffffffff8101d849>] cpu_idle+0xd9/0x120 [29339.275631] [<ffffffff8166361e>] rest_init+0x72/0x74 [29339.275636] [<ffffffff81cf3c4d>] start_kernel+0x3cf/0x3dc [29339.275640] [<ffffffff81cf37ff>] ? pass_bootoption.constprop.3+0xd3/0xd3 [29339.275644] [<ffffffff81cf3397>] x86_64_start_reservations+0x131/0x135 [29339.275648] [<ffffffff81cf3120>] ? early_idt_handlers+0x120/0x120 [29339.275652] [<ffffffff81cf3468>] x86_64_start_kernel+0xcd/0xdc [29339.275654] ---[ end trace 6f8224a6f41a8039 ]--- [29340.573205] bonding: bond1: link status down for interface eth2, disabling it in 200 ms. [29340.664892] tg3 0000:0a:00.0: tg3_stop_block timed out, ofs=1400 enable_bit=2 [29340.765748] tg3 0000:0a:00.0: tg3_stop_block timed out, ofs=c00 enable_bit=2 [29340.772853] bonding: bond1: link status definitely down for interface eth2, disabling it [29340.833982] pcieport 0000:00:1c.0: eth2: Link is down [29345.451839] pcieport 0000:00:1c.0: eth2: Link is up at 1000 Mbps, full duplex [29345.451844] pcieport 0000:00:1c.0: eth2: Flow control is off for TX and off for RX [29345.451846] pcieport 0000:00:1c.0: eth2: EEE is disabled [29345.476567] bonding: bond1: link status up for interface eth2, enabling it in 200 ms. [29345.676235] bonding: bond1: link status definitely up for interface eth2, 1000 Mbps full duplex. Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011) Bonding Mode: IEEE 802.3ad Dynamic link aggregation Transmit Hash Policy: layer3+4 (1) MII Status: up MII Polling Interval (ms): 100 Up Delay (ms): 200 Down Delay (ms): 200 802.3ad info LACP rate: fast Min links: 0 Aggregator selection policy (ad_select): stable Active Aggregator Info: Aggregator ID: 1 Number of ports: 2 Actor Key: 17 Partner Key: 1 Partner Mac Address: d8:fe:e3:95:c5:c0 Slave Interface: eth3 MII Status: up Speed: 1000 Mbps Duplex: full Link Failure Count: 2 Permanent HW addr: 00:10:18:f4:c1:45 Aggregator ID: 1 Slave queue ID: 0 Slave Interface: eth2 MII Status: up Speed: 1000 Mbps Duplex: full Link Failure Count: 3 Permanent HW addr: 00:10:18:f4:c1:44 Aggregator ID: 1 Slave queue ID: 0 root@r01:~# Udostępnij ten post Link to postu Udostępnij na innych stronach
m0t 0 Zgłoś post Napisano Luty 28, 2014 a pokaz tablice irq jak mozesz Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 28, 2014 http://wklej.org/hash/84f589db148/ Chętnie wypożyczę na ok 2 tygodnie karty 4port w deseń Intela i340-T4 Udostępnij ten post Link to postu Udostępnij na innych stronach
m0t 0 Zgłoś post Napisano Luty 28, 2014 jak masz zdalny/lokalny dostep do biosu/maszyny , przeladuj tablice przerwan i wywal do testow msi z jajca, ewentualnie jak masz dostep fizyczny i nie jest to klasyczny czips1u z 1x extensionem, to przezuc karte w inny fizyczny najlepiej ten ktory nie shareduje z z jakimis internalami z mobo... troche to wyglada na bardzo "dziwny" konflikt przerwa ktory moze byc spowodowany bledna obsluga vectorow co w boradcomach nowoscia nie jest Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Luty 28, 2014 Narazie się zastanawiam nad rozwaleniem tego bondingu i puszczeniem tego na jednej sieciówce. No i tak to właśnie wygląda jakby broadcom nie ogarniał. Udostępnij ten post Link to postu Udostępnij na innych stronach
m0t 0 Zgłoś post Napisano Luty 28, 2014 (edytowany) w zasadzie z tego co widze to same edge, na sharedzie przy takiej ilosci kart + internal nie ciezko o missy przy ciaglej zmiani sygnalu w tranzycje h/l, stad pewnie ktoras predzej czy pozniej zdycha przy wiekszym obciazeniu, jedyna droga ratunku to albo inne sieciowy(ale jesli masz malo lini i dodatkowo bios "zle" (bo i tak inaczej nie umie, ulubiona przypadlosc budzetowek supermicro itp) sklada apica to i tak wuj z tego bedzie)... reset tablicy, msi wywalic(tylko do testow, wydajnosc moze byc oplakana), zobacz jak sie bedzie zachowywac... ale jesli nie masz jakiegos ilo/ipmi/ikvm to zdalnie lepiej nie grzeb co to w ogole za mobo ? Edytowano Luty 28, 2014 przez m0t (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Marzec 1, 2014 Dell R320. Nie przypominam sobie z nim takich problemów, przez prawie rok działał ok. W okolicach późnej jesieni się takie cuda zaczeły. Ale chyba ruch na lanach wzrósł prawie 2x od tamtego czasu. W szczycie ok 30-32k pps leci. Być może karta nie wyrabia, bo to jest karta 4port z jednym prockiem. Udostępnij ten post Link to postu Udostępnij na innych stronach
Dentarg 46 Zgłoś post Napisano Marzec 1, 2014 To może być jakiś problem z driverem (w tg3 już pare bugów widziałem) albo z kartą. Używam inteli (budżetowe 82574L) i zdarza się że oba porty pchają z max prędkością i nie ma problemów. Tyle, że nie mam vlanów i nie używam kernela 3.x. pzdr, Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Marzec 1, 2014 Ściągam już Intela I350-T4, zobaczymy jak bedzie działać. Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Marzec 3, 2014 Wyłączyłem TSO na portach i wygląda jakby się nieco poprawiło. Ale IMO to nie rozwiązanie Udostępnij ten post Link to postu Udostępnij na innych stronach