问题不是断网,而是抖动
有一次产线接入站级 SCADA 后,现场反馈“通信偶尔慢”。设备没有大面积掉线,PLC 也没有报网络故障,ping 大多正常。但 SCADA 画面偶尔刷新延迟,部分 Modbus TCP 设备会出现短暂超时,重试后又恢复。
这种问题如果只看“能不能通”,基本查不出结论。因为现场真正的问题是通信边界不清、访问源太多、刷新周期没有分级。
现场现象
当时看到的现象包括:
- 某些时段上位画面刷新明显变慢。
- 个别称重仪表偶发超时,但本地仪表显示正常。
- 调试电脑接入后,问题出现频率升高。
- 交换机端口灯没有明显异常,简单 ping 测试也不能复现。
这类问题很容易被误判成某台设备质量差,或者某个协议不稳定。但在动设备前,应该先看网络结构和访问关系。
排查顺序
第一步,画实际拓扑。不要只看设计图,要把现场交换机、PLC、HMI、网关、工控机、扫码器、仪表和临时调试电脑都画出来。
第二步,列访问方向。谁主动读谁、读什么协议、周期是多少、是否有多个主站同时访问同一从站,这些要写成表。
第三步,抓关键链路。先看出现超时的设备和上位系统之间是否有重复轮询,再看网关缓存和 SCADA 订阅周期。
第四步,再讨论是否需要 VLAN、独立交换或网关隔离。分段不是为了画图好看,而是为了减少无关流量和缩小故障范围。
判断依据
判断工业网络是否合理,不能只问“通不通”,至少要看:
- 控制层是否被上位采集反向影响;
- 第三方设备是否被多个系统重复读取;
- 关键数据和统计数据是否使用同一刷新周期;
- 临时调试入口是否有记录和边界;
- 故障时能否快速判断问题在哪一层。
如果所有设备都在一个大网段里,短期接线方便,后期排查会很困难。
常见错误做法
第一个错误是把 PLC、SCADA、视觉工控机、仪表、办公电脑都放在同一网段。设备少时问题不明显,后续一扩展,广播和扫描流量都会进控制网络。
第二个错误是多个系统轮询同一设备。例如 PLC 读仪表,SCADA 也读仪表,调试电脑还开着软件监控。设备性能不强时,响应抖动就很常见。
第三个错误是所有点位都高频采集。联锁参与量、画面显示量、历史记录量、管理统计量不应该使用同一周期。
最终处理方式
在这个项目里,先把临时调试电脑从正式采集链路中拿掉,再明确 SCADA 主要通过网关读取必要数据。部分第三方设备不再允许多个系统直接轮询,而是由网关统一整理后提供给上位。
数据刷新也做了区分:设备运行状态较快,报警和关键数值适中,统计类数据低频。对偶发超时的数据,不再简单置零,而是保留质量状态,方便判断是通信异常还是设备真实值。
最终建议
工业网络分段不一定一开始就做得很复杂,但至少要有边界意识。控制层、监控层、维护接入层的职责应该分清楚。
如果项目已经在运行,最小动作是补一张实际拓扑表、一张访问方向表、一张采集周期表。很多通信问题不是靠换交换机解决的,而是靠把“谁在访问谁”先说清楚。
能 ping 通只是起点。对工业现场来说,可诊断、可隔离、可维护,才是网络设计的交付标准。