文丨李安琪
编辑丨李勤
36氪获悉,AI数据公司「整数智能」于近期完成了数千万Pre A轮融资,本轮由翊宙资本、藕舫天使、安益盛银、图灵启真投资,翊尚资本为独家融资顾问。
据悉,本轮融资主要用于智能数据工程平台(ABAVA Platform)的迭代升级,全新的ABAVA平台将集成AI大模型+小模型,实现高效自动化数据标注。此外,整数智能还将集成RLHF(人类反馈强化学习)数据服务能力,为大语言模型(LLM)的研发与迭代提供方案。
整数智能发展于浙江大学计算机创新技术研究院,致力于为人工智能企业及科研院所提供一站式数据管理服务。其提供的智能数据工程平台(ABAVA Platform)与数据集构建服务(ACE Service),能够满足自动驾驶、AIGC、智慧医疗等数十个应用场景的数据需求。
目前,公司已合作国内外顶级科技公司与科研机构数百家,拥有知识产权数十项,多次参与人工智能领域的标准与白皮书撰写。
整数智能创始人林群书为浙江大学计算机博士生,联合创始人赵子健为浙江大学法学硕士生,目前均处于休学创业中。
林群书认为,正如人工智能公司OpenAI的联合创始人Ilya Sutskever所说,“Training data is technology”,OpenAI训练的GPT-3大模型,有1750亿参数。作为AI领域的基础设施,数据工程是人工智能时代绝对值得All in的机会。
他告诉36氪,当下数据标注正在从人力密集型向自动化标注过渡。以Tesla为例,在2018年,一段clip数据需要花费500小时的人工标注。随着Tesla通过对数据引擎及自动化标注能力的重点建设,到2021年,一段clip数据的标注只需要花费0.5小时的算力标注+0.1小时的人工标注即可。
针对人工智能行业发展的大趋势,整数智能推出了智能数据工程平台(ABAVA Platfom),对人工智能所需的数据标注工具套件进行了全域覆盖,包含图像、点云、文本、音频等多模态标注工具。
林群书表示,行业当前的自动化标注,更多依赖算法工程师打磨特定场景的自动化标注算法,通用性有限。跨行业或跨场景时,如果算法自动化标注的精度下降,会需要工程师花费额外的时间精力,对自动化标注算法进行手动升级。
而ABAVA平台,其内置的AI Power系统通过结合AI大模型与小模型各自的优点,能够快速在新行业或新场景进行自动化标注,并且不断提升自动化标注的精度,使得获取高质量数据的时间成本与人力成本不断降低。
简单来说就是,能够跨越不同行业、不同场景实现自动化标注;同时还能利用标注好的数据来迭代算法模型。“使用时间越长,沉淀数据越多,自动化标注水平也就越高。”林群书说道。
4D标注工作界面 图源整数智能
此外,整数智能针对自动驾驶场景,推出了4D标注工具,即在三维空间数据的基础上叠加时间维度的序列信息进行场景重建,目前已能支持视觉重建与点云重建。据林群书介绍,其4D标注工具可以把原本需要数十帧的标注工作,极限压缩到一帧来进行,将数据标注的效率提升数十倍。
4D标注工具的研发难点在于,其一需要使用算法融合多帧数据进行场景重建,重建的质量尤为重要,直接影响后续的投影精度;其二在于重建后的点云密度非常高,给Web端点云工具的性能优化带来巨大挑战;其三在于完成标注后的结果如何精确的投影回2D空间,需要做大量的算法优化。
总的来看,林群书告诉36氪,人工智能时代获取「数据能源」将经历人工标注、自动标注、合成数据三个发展阶段。目前整数智能能够通过自动标注大幅降低获取数据的成本。
随着AI大模型时代到来,整数智能也在探索合成数据的模式。比如通过AI合成数据,可以解决自动驾驶缺乏Corner case场景数据的问题。
整数智能认为,AI大模型时代,数据消耗的速度将远远大于数据自然产生的速度,通过合成数据的技术路径,可以带来「数据能源」获取方式的一次革命。“AIGC(即AI生成内容,如AI生成图片)的技术爆炸,技术效果和效率会远远超过自动化标注。”
暂无评论内容