海天瑞声获17家机构调研:在业务上公司为清华大学、中科大、中科院等为代表的全国顶尖高校以及知名科研院提供语音、视觉、文本等领域的训练数据集服务其前沿人工智能技术研发和实验(附调研问答)
日期:2024-08-11 19:42 | 人气:
杏宇平台招商海天瑞声12月25日发布投资者关系活动记录表,公司于2023年12月21日接受17家机构调研,机构类型为QFII、保险公司、其他、基金公司、证券公司、阳光私募机构。 投资者关系活动主要内容介绍:
答:《生成式人工智能服务管理暂行办法》(以下简称“办法”)更加强调数据来源和数据处理过程的安全合规性,对训练数据处理活动提出明确的合规目标和要求。例如涉及个人信息的,需要确保取得个人同意,不得侵害他人依法享有的知识产权等等;同时,增强训练数据的真实性、准确性、客观性、多样性;此外,要求提供者制定清晰、具体、可操作的标注规则,并监督指导标注人员规范开展标注工作等等,上述规定要求大模型厂商具有更为完备的数据安全保障体系,不仅要确保数据来源合法合规,同时在数据处理过程中还要具备相应的数据处理经验和技术(例如,如何通过清洗和预处理技术排除训练数据中噪声和偏差,使得用于训练的数据不带有民族、国别、地域等歧视内容),进一步增加了数据处理的难度和门槛。预期上述合规要求的落地实施将进一步提升数据服务行业门槛以及大模型厂商对专业第三方数据服务公司的依赖程度。 同时,《办法》重点体现了发展与安全并重、以及包容审慎等原则,显示了国家大力发展生成式人工智能的决心。数据作为人工智能发展的三大要素之一也备受重视,《办法》提到“要扩展高质量训练数据资源”“采取有效措施提高训练数据质量”等,在数据规模、丰富度以及数据质量等维度提出了更高的要求和预期,也将进一步带动市场对于对高质量、大规模、多品类的数据需求。
答:2023年前三季度,海外业务受宏观经济波动、以及数据相关法律法规实施等多重不利因素影响,收入下滑。公司认为收入的下降主要受短期因素影响。未来,随着宏观经济逐步复苏以及数据出境安全评估影响的趋缓,负面影响因素将逐步消除。同时,从需求端来看,AI成为海外大厂投资的确定性方向,科技巨头纷纷加大AI领域投入,服务于其以多模态为核心的能力拓展,因此以多语种语音为代表的多模态数据采购需求已呈现快速增长趋势。目前来看,2023年下半年以来,相关数据的需求量已有明显回暖趋势,截至目前,公司已收到来自多家国际知名客户关于智能语音数据集数千万元级别的询盘采购需求,预期以上因素将综合带动海外业务的回暖。
答:有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等,但受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。相较于客户自建团队,海天瑞声历来都是对接众多大型科技公司、头部人工智能企业、科研院所等,获得的信息是广泛的,项目经验丰富,同时积累了大量的know-how,对数据的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能有效降低成本,为客户提供更高性价比的训练数据产品/服务。
答:公司和高校、科研院所,在业务、核心技术研发等方面均有深度合作。在业务上,公司为清华大学、中科大、中科院等为代表的全国顶尖高校以及知名科研院提供语音、视觉、文本等领域的训练数据集,服务其前沿人工智能技术研发和实验。同时,公司与北京语言大学合作建立了联合实验室,依托其在语言学前沿研究以及人才储备等方面的优势,持续扩展公司语音领域核心技术能力。此外,公司已连续多年与清华大学联合举办人工智能相关比赛,以2023年为例,公司与清华大学、北京邮电大学、语音之家联合举办中文连续视觉语音识别挑战赛,作为技术方向探索,本次赛事以CN-CVS中文视觉语音识别数据库为基础数据,评估在录音室朗读(Reading)和网络演讲(Speech)两类场景下的LVCVSR系统的性能。其中CNVSRC-Multi中的工程化数据由海天瑞声提供,以促进国家科研事业发展。
答:(1)AI大模型训练数据集建设项目截至目前,公司已启动研发建设用于大模型训练的部分数据集,例如,用于提升大模型口语能力的中文千万轮次对话数据集、多语种语音大模型数据集,截至目前已行成阶段性成果并已收获部分客户询盘需求。 (2)数据生产垂直大模型研发项目截至目前,公司已针对大模型预训练数据集设计与处理技术进行了初步研究和规划,并基于研究成果开展了CommonCrawl、中文书籍等适用于预训练阶段的数据的获取与清洗工作,形成了各项技术的框架方向;同时,开展大模型评测技术调研,完成基础框架设计,形成可行性结论。 此外,公司在预训练数据集设计与处理、指令数据集设计与处理、任务对齐与泛化技术等大模型基础研究方面持续投入,提升基础算法能力。同时,使用专门针对大模型业务场景建设的数据,成功完成了多次模型微调和优化升级,提升了模型在对话自然度方面的表现,并使大模型初步获得指令方案设计、指令数据验证以及标注成果生成等初阶能力。此外,一体化数据处理技术支撑平台中与指令数据集、大模型评测数据集相关的工具也已处于调研和启动开发阶段。
答:2023年,公司进一步升级了智能驾驶的数据服务能力,通过持续跟踪前沿技术发展动态,前瞻性布局、迭代智能驾驶数据处理能力,并于5月正式发布全新升级的智能驾驶数据处理平台DOTS-AD,旨在进一步巩固加深行业护城河。该平台在实现智能驾驶应用场景以及各类传感器全覆盖的基础上,持续拓展前沿数据处理能力。截至目前,公司已具备3D点云语义分割、BEV(鸟瞰图)、千万级大点云以及4D标注等各类行业前沿数据标注能力。此外,公司不断优化算法中台中枢能力,持续整合前沿计算机视觉算法架构,新增交通目标物检测等多种智能驾驶相关模型、并持续优化迭代3D点云检测能力,不断提升算法在2D、3D和4D数据生产环节的强大赋能作用。随着大模型技术的突破性发展,公司也成功引入最新SAM开源模型,并基于数据预标注实际需求,对模型进行了优化升级,有效提升了2D语义分割项目中的降本增效能力。 公司凭借行业领先的技术平台以及优质的服务能力,不断获得客户认可,截至2023年6月30日,智能驾驶领域客户数量增长至70家,公司智能驾驶业务收入同比增长178.96%;
投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划
不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237