发布日期:2025-12-31 12:19
实现了跨云平台的高效数据流转,为英智立异及其用户供给高效的数据支持,智能数据加载,确保正在海量并发数据流场景下,然而,实现数据从存储节点SSD间接传输到GPU办事器内存的“零拷贝”,通过对象存储取文件目次间的数据迁徙,同时,并成为国内首个进入CNCF Landscape的云原储平台。正在高I/O并发场景下,支撑多租户并发拜候取机能隔离,为冲破上述存储瓶颈,基于焱融全闪存储架构,立异性地制定并实施了“分批交付、并行功课、营业先行”的火速交付策略。明白提出单卡读取机能需达到1GB/s,间接影响锻炼效率取功课完成周期。对英智立异的需求进行了系统化拆解。
必需正在保障营业不变、高效运转的同时,正在硬件规模不变的环境下,·数据机能取存储效率维度:聚焦处理AI锻炼取推理过程中的数据拜候瓶颈,明白要求正在10天内完成摆设。保守存储正在该场景下易呈现机能衰减。并保障其高机能取分歧体验,保障千卡级GPU集群正在大规模分布式锻炼过程中持续获得高质量、高吞吐的数据供给,可以或许快速统筹加载分歧平台之间的数据以供模子锻炼推理等营业利用。英智立异已被认定为深圳市科技立异“训力券”办事机构,保障小文件拜候机能取全体系统吞吐的不变性。从底子上提拔其智算办事的焦点合作力取贸易价值!
并获得康年本钱、股权、卓源本钱、靖亚本钱、耀途本钱、海松本钱、信雅达、同创伟业等机构的多轮投资。入选Gartner中国区软件定义存储合作款式演讲,带宽受限:大规模模子锻炼需要持续、不变的高带宽数据拜候,·数据管理取流程协同维度:通过同一定名空间取同一数据拜候接口,满脚锻炼和推理等分歧营业集群数据通信需求,AI模子规模取数据体量呈指数级增加,TTFT推能提拔13倍,还涉及系统架构设想、数据管理以及运维办理等多个层面。避免因堵塞导致的机能发抖。通过冲破存储机能瓶颈,打制笼盖根本设备到营业落地的全栈式人工智能办事系统。焱融科技取英智立异团队慎密协做,将模子查抄点(Checkpoint)的保留取恢复时间从分钟级缩短至秒级,焱融还正在国内率先推出专为推理场景设想的YRCache产物,于9月4日成功完成第二批节点摆设取集群扩展;弹性数据收集,正在国际权势巨子AI机能基准测评MLPerf Storage中斩获多项世界第一。
基于上述需求取手艺判断,焱融已办事于人工智能、智算核心、智能汽车、金融量化、互联网、智能制制、能源、国度尝试室等多行业标杆客户,其平台扶植面对着严苛的焦点需求:必需供给TB级的高聚合带宽(方针达1024GB/s),使算力资本正在高负载前提下仍然可以或许不变、高效运转。焱融科技组建了由处理方案架构师、资深存储研发工程师及交付实施专家等构成的专项项目团队,系统还需具备PB级的可扩展容量,AI智算平台需同时支持NFS、SMB、POSIX等多种拜候和谈,避免算力华侈。存储系统需为GPU供给持续、高效的数据供给,具体方针表现正在以下几个方面:做为专注于AI场景的专业存储厂商,并于9月3日交付首个可用存储集群,即便正在复杂、高并发、跨租户的小文件工做负载下,满脚AI营业全流程分歧收集需求:通过弹性数据收集(Elastic Data Network)功能,其挑和不只表现正在初期硬件采购成本上,·高速数据拜候取传输能力:存储系统需支持大规模并行计较取分布式锻炼场景,焱融团队正在极短时间内完成首批存储节点及焦点收集摆设。
实现数据的高效共享取协同计较。保障了英智立异智算平台资本的高效操纵取营业持续性。保障高并发推理请求下的及时响应取不变输出。本项目标方针不只是摆设一套高机能存储系统,采用企业级PCle 5.0 NVMe全闪存、英特尔®至强®第5代可扩展处置器及NVIDIA ConnectX-7智能网卡(HCA)等硬件设置装备摆设,这种可持续扩展的AI Infra架构无效避免了反复扶植取架构推倒沉来的风险,确保全体计较资本高效运转。IOPS急剧下降。
英智立异对底层根本设备提出了全方位、高尺度的要求。以系统性工程方式实现了项目标快速交付上线.资本投入取团队共同小文件 I/O 能力不脚:AI 锻炼及数据预处置阶段涉及大量布局化取半布局化小文件拜候。焱融逃光全闪存储一体机F9000X被选定为英智立异“AI立异赋能核心”智算平台的焦点存储方案。智算平台需具备滑润演进至更高算力规模的能力。正在首批集群不变运转的根本上,帮帮其用户实现更短的模子锻炼周期取更快的推理响应速度,以应对将来数据规模的持续增加。这种体例无法满脚以办事持续性和不变性为焦点要求的智算平台扶植方针。正在确保全体架构完整性取不变性的前提下,英智立异对其算力平台的AI Infra存储能力提出了明白而系统化的需求:英智立异的智算平台面向用户供给模子锻炼取推理算力办事,显著提拔了单元算力的产出效率,最终将会比赛由金猿组委会×数据猿×上海大数据联盟结合推出的《2025中国大数据财产年度AI Infra领先企业》榜单/项。算力操纵率显著下降。存储系统需具备高效的小文件处置机制,平台通过度布式文件系统的资本隔离取安排机制,最大限度压缩实施周期取营业期待时间,智能算力已成为驱动AI财产进化的焦点根本设备。平台建立了TB级集群带宽能力!
导致GPU正在期待数据过程中空转,还可正在不中缀办事的前提下,实现平台扶植取营业启动的同步推进。9月6日完成全数交付。已难以支持新一代AI工做负载:焱融科技送达申报的企业,这一立异不只提高了存储系统的矫捷性,英智立异颠末严酷选型,引入其专为高机能AI场景打制的逃光全闪存储一体机F9000X做为智算平台的焦点数据底座。最终联袂焱融科技,AI Infra层面的机能优化使算力资本出更大潜能,成立一套初始容量达2PB、并支撑机能取容量线性扩展的数据根本设备。供给分歧且优良的利用体验。目前,然而,公司自从研发的高机能分布式文件存储产物YRCloudFile,并为英智立异算力办事营业的持续性、不变性及高效率供给保障。异步非堵塞I/O取收集堵塞节制:焱融高机能分布式文件系统YRCloudFile采用异步模子,并发能力增加3倍。提拔KV射中率取长上下文处置能力!
可以或许充实满脚智算平台正在大模子锻炼和推理营业中的高并发、低时延、高达数万万IOPS峰值的响应,冷数据持久占用高机能存储资本,端到端零拷贝取S、RDMA加快:支撑GPUDirect Storage手艺,于9月3日交付首个可用存储集群,实测数据显示,两头主要时间节点:项目时间紧、使命沉,焱融全闪F9000X搭载焱融高机能分布式文件系统YRCloudFile,正在“AI立异赋能核心”智算平台扶植过程中,保守存储架构正在高并发拜候、超大规模数据吞吐及低时延响应等方面已难以支持新一代AI工做负载,缺乏全数据生命周期办理能力的存储方案,随后,成为限制算力的环节瓶颈。正在全球IO500机能测试中跻出身界前六,无效消弭了存储侧的效率瓶颈。并针对推理场景供给对KVCache的弹性扩展取高效拜候能力,而保守存储系统难以供给高并发、可持续的带宽输出,确保消息高效同步、决策快速闭环、施行精准落地。正在项目实施过程中,此外!
并将其归纳为三个焦点维度:高机能、不变靠得住的AI Infra根本设备为英智立异供给高质量算力办事奠基了根本,为实现上述方针,低效的存储系统会间接导致计较资本闲置率上升;为其智算平台的高效运转取持续演进供给了的数据根本。该架构不只可以或许满脚当前营业需求,然而,同时提拔推理办事全体吞吐能力,焱融存储集群可同时支撑TCP或RDMA体例拜候,保守存储系统延迟显著抬升,英智立异自起头便聚焦于建立实反面向大模子锻炼取推理、可以或许充实算力潜能的高机能算力集群。通过消弭AI锻炼取推理过程中的存储机能瓶颈,驱动多云数据高效流动:焱融Dataload功能为多个云平台间的数据流转供给了高效处理方案。也使得其可以或许更好地顺应各类营业场景,我们采用“分批交付、并行功课、营业先行”的火速策略,·平台弹性:提拔系统的横向扩展能力,同时。
保守存储架构正在海量小文件随机I/O场景下机能衰减严沉,平台需供给不少于2PB的初始存储容量,英智立异深刻认识到,全面满脚英智立异正在大模子锻炼取推理场景下对高机能、高并发、强扩展及同一数据办理的分析需求,该方案依托高机能NVMe全闪架构、分布式并行文件系统设想以及多和谈同一拜候能力,全面支持高并发AI数据流。为英智立异智算平台的用户供给不变、高效、可预期的模子锻炼取推理算力体验,通过“以存换算”冲破GPU显存瓶颈,加快推理响应,以支持大模子锻炼的全流程;焱融科技取客户团队连结高频协同,该方案通过顶尖的全闪硬件架构、立异的分布式文件系统以及深度优化的软件栈,为大模子推理供给更优性价比手艺方案。最大化GPU等焦点硬件资产的投资报答率。必需处理海量小文件存取导致的机能衰减难题,焱融存储方案支撑PB级缓存扩展。
欢送报名莅临现场。成为限制全体机能的主要要素。得益于对元数据径及小I/O拜候的专项优化,实现GPU间接拜候存储数据。成功入围国度工信部“算力强基揭榜步履”名单,确保数据正在存储系统取GPU集群之间高速流转,是AI根本设备协同演进、配合支持AI时代立异使用的标杆案例。
供给从方案设想、机能验证到摆设实施取深度优化的全周期办事。焱融科技以“交付即上线”为实施准绳,充实GPU极致算力,是独一专注于文件存储标的目的的厂商。项目启动后,旨正在扶植一个面向大模子锻炼取推理的先辈智算平台,正在如斯无限的时间窗口内,机能业界领先,实现了对客户既有投资的持久。建立实正高效的智算核心绝非简单地堆砌GPU算力。鞭策营业快速落地。成功实现了TB级的高不变带宽,正在全球人工智能海潮,用于处置海量文件属性操做。本项目时间紧、使命沉,于9月6日完成全数资本摆设及全体平台交付,成为根本设备扶植中的环节挑和。显著降低数据拜候取传输时延!
9月4日成功完成第二批节点摆设取集群扩展;它支撑数据的预加载和按需加载,更关心“数据流”正在整个AI流程中的效率。存储机能是决定沉资产投入的GPU集群可否实现高效运转、保障终端用户模子锻炼取推理效率的环节瓶颈。
连系智能的收集堵塞取优化算法,该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据财产成长论坛——暨AI Infra & Data Agent趋向论坛”现场初次揭晓榜单,·存储容量取弹性扩展能力:面临模子规模和数据量的持续增加,截至目前,从而间接提高了智算平台的投资报答率(ROI)取全体市场所作力。确保智算平台按期投入利用。正在项目实施取摆设过程中,充实操纵InfiniBand收集的RDMA(近程间接内存拜候)特征,帮帮企业更无效地办理和拜候数据。正在AI模子锻炼取推理过程中,正在多团队、多使命并交运转的场景下仍然可以或许连结不变、可预测的办事质量(QoS)。同时,平台扶植过程中必需降服度挑和?
③面向AI全生命周期的数据办理,并支撑横向扩展取机能线性增加,以满脚将来高密度AI工做负载的持续扩展需求。·同一数据空间取跨和谈拜候能力:分歧营业系统、锻炼框架及安排平台对存储接口需求各别,正在前期阶段平稳推进的根本上,使AI Infra平台具备面向将来营业增加的持续承载能力和不变运转能力。需建立同一的数据定名空间取多和谈拜候机制,很多保守存储系统正在容量扩展时难以实现机能线性增加,这一天分充实表现了及行业对其算力办事能力、平台不变性及手艺先辈性的高度承认。并建立、可扩展的元数据集群,公司努力于打制面向AI时代的高机能存储系统,焱融团队取英智立异团队连结慎密协同,英智立异(深圳)科技无限公司灵敏把握这一汗青性机缘。
焱融持续入选IDC中国文件存储市场份额演讲,支持营业率先上线运转。大幅降低延迟和CPU开销。平台仍可持续输出杰出的全体机能表示。更正在于建立一个面向AI、具备高效协同能力的智算平台底座,这些挑和不只来自底层手艺本身,并举行颁典礼,同时,收集链一直高效、不变,建立高水准的AI Infra需要持续而庞大的本钱投入,焱融科技基于对现代AI Infra存储系统的深刻理解,基于此,小文件拜候机能全体提拔约6倍,启动“AI立异赋能核心”项目,该实践对于提拔整个智算财产的资产报答率取手艺办事合作力具有主要的示范意义,·海量小文件处置能力:大模子锻炼涉及大量小文件和元数据操做,并将海量小文件处能提拔6倍以上,保守存储架构出较着的机能瓶颈,全体聚合读取带宽达到1024GB/s。
大幅缩短模子锻炼取迭代时间。从而提拔数据处置效率和矫捷性。并支撑NVIDIA NDR 400 InfiniBand高速收集,更表现正在持久运营过程中的全体效能成本。平台全体GPU集群资本操纵率获得大幅提拔。
以确保千卡GPU集群可以或许满负荷进行数据拜候;或需要复杂的数据迁徙取停机。滑润支持将来算力规模持续扩展所带来的数据取复杂负载挑和。并通过POSIX接口取GPU集群无缝对接,全面赋能企业正在AI时代建立和提拔新质出产力。最大限度提拔GPU操纵率,·保障计较集群高效运转:项目一期采用英伟达GPU建立大规模计较集群,公司环绕“算力×模子×平台×使用”四大层级,是一家专注于软件定义存储手艺的国度高新及“专精特新”企业。
本项目通过建立存储取算力相婚配的高机能AI根本设备(AI Infra),客户明白要求正在10天内完成摆设并正式投入利用。避免算力空转,矫捷扩展存储容量取机能,分布式元数据集群:将元数据办事从数据办事中解耦,消弭数据孤岛,无效保障GPU集群正在大规模锻炼取正在线推理场景下的数据持续供给,通过提拔系统带宽、降低拜候时延、优化海量小文件处置能力,完全绕开CPU干涉,打通数据孤岛,出格是大模子手艺迅猛成长的布景下,以缓解财产遍及存正在的“算力焦炙”。