科研院所
中国科学院,加速科研院所研究类文件大数据高速传输,赋能科研实验数据高效利用
一、介绍
中科院旗下某研究院发明的高你能同步辐射光源(HEPS)是中国“十三五”期间优先建设的、为国家的重大战略需求和前言基础科学研究提供技术支撑平台的国家重大科技基础设施,主要开展超高空间分辨率、时间分辨率、能量分辨率的高通量同步辐射实验。一起建设的十五条光束线实验站,预计平均每天产生200TB的原始实验数据,峰值可达每天500TB.这些实验数据需要得到存储、共享、传输,并能够进行准确实时的处理与分析。
二、现状和痛点
1、14个线站每天都会生成大量的数据(200T/站),数据增量日益变大;
2、当前的数据采集系统无法满足海量数据的高速传输需求,传输速度非常慢;
3、一旦数据传输中断,系统没有传输记忆功能,只能重新上传;
4、多个站点并行传输,导致采集系统资源紧张甚至崩溃,存储也跟不上;
5、采集后的数据与原始数据时常有内容上的差异,可能是数据丢包导致的不完整;
6、经过处理后的数据,用户方通过采集系统下载时,速度依旧缓慢;
7、用户方上传相关的回复材料,上传速度严重影响传输效率;
三、解决方案
1、在14个线站采用分布式部署架构,部署镭速客户端;
2、HEPS存储中心部署高可用镭速服务端,为传输提供更高算力;
3、采用Rayfile镭速传输命令,更安全更便捷的调用高速传输服务;
4、网络通讯采用https全程加密处理;
5、集成Mysql数据库、HEPS管理系统,通过数据标识、数据查询、数据定义、数据状态等方式,确定数据整体存储结构;
6、优化镭速后管并将相关数据统一纳入BIS系统;
四、项目收益
1、通过优化传输架构,各线站每天传输数据时间缩短2/3,大大提高传输效率;
2、自动化程度高,通过接口方面集成与调优,数据采集到整理一站式完成;
3、投入产出明显,后续无需投入更多的人力负责数据传输和规整,成本较之前节约一半以上;