海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变
专题:2025 INCLUSION·外滩大会:重塑创新增长
炒股就看金麒麟分析师研报,海天权威,瑞声专业,科数及时,据产集型全面,业正助您挖掘潜力主题机会!从劳
新浪科技讯 9月13日下午消息,动密在2025 Inclusion·外滩大会“Data meets AI:智能时代的向技型转双引擎”见解论坛上,产学界的术和多位权威专家给出了新解法:数据驱动了AI发展,AI也让数据迎来了新一轮的知识进化,双引擎融合驱动才是密集演进方向。
复旦大学教授肖仰华指出,海天当前大模型发展正面临严峻的瑞声“数据墙”困境,无标签语料对模型性能提升的科数贡献日益减弱,更大规模数据带来的据产集型性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。
肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从100亿个token的财经语料中仅筛选20%的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升1.7%。
上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。
海天瑞声CEO李科从产业实践角度分享了全球AI数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。
上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。(罗宁)

责任编辑:常福强
(责任编辑:热点)
- ·DC store owners demand action after youth crime wave amid Trump crackdown
- ·樱井政博纪念工作室成立20周年 近期会公布卡比新作消息
- ·上市公司的合规基因 网易红彩筑起监管防火墙
- ·莲境仙缘,金丝为冕!《魔域》“倾世莲华”花魁赛华丽启幕!
- ·中国女排世锦赛名单:李盈莹伤愈归来 龚翔宇担任队长
- ·《影之刃零》超大规模展台亮相2025科隆游戏展
- ·Controversial Daily Beast report on DeSantis death row executions sparks fury
- ·合肥:“爱心冰柜”城市温度的“青春聚变”
- ·电影《浪浪人生》发布“这个家燃起来了”版预告 一家五口“疯”力全开无惧生活花式发难
- ·Harris taps party base to promote '107 Days' memoir ahead of 2028
- ·杭州亚运会、亚残运会竞赛场馆全部竣工并完成赛事功能验收
- ·汉高上半年销售额加速增长,利润率和盈利水平显著提升
- ·尤文官方:青年队20岁中卫费利佩十字韧带受伤
- ·假院士阮少平骗局为何能得逞?受骗企业讲述中招细节
- ·鲁大师软件全面解析:电脑维护与性能升级的好帮手
- ·[新浪彩票]足彩第25109期大势:谢菲联防平
- ·最新2024年度射手榜:C罗42球并列第四,武磊第五
- ·21岁广东姑娘卢卓灵,摘得成都世运会中国代表团首金!
- ·如何培养复合型人才?两部门明确三种试点模式
- ·中国马术协会骑手分级考核(福建站)在漳州举行
- ·湖北马术主力队员于程昊:马术让我坚韧善良 未来选择回馈母校武汉商学院
- ·小学写作指导:写作角度尽量多样化
- ·日常主食的科学搭配
- ·英雄联盟格斗游戏《2XKO》或加入约德尔人角色
- ·蓝湾青少年公开赛收官 孟紫嫣等三人获LPGA外卡
- ·Civil rights activist Robert Woodson slams bias in racial violence coverage
- ·粤港澳大湾区生成式人工智能安全发展联合实验室成立
- ·AP faces social media backlash for Hezbollah pager attack survivor story