海天瑞声贺琳:
做人工智能产业的“基石”
| ||
数据已经成为一种生产要素,前提是要把人类世界的信息转化为计算机可以识别的方式。”贺琳介绍说,人工智能行业发展涵盖了三大核心要素——算法、算力及数据。如果把发展成熟的人工智能行业比作菜肴,那么数据就是食料,算法是煎、炒、烹、炸、炖等各种烹饪方法,算力则是燃气灶、菜刀、锅、勺等烹饪工具。要想做出一道色香味俱全的菜肴,三者缺一不可。
“帮助客户不在数据准备阶段走弯路,助推其加速模型训练、产品落地和迭代更新是海天瑞声坚守的初衷。”
◎记者 张雪 ○编辑 全泽源
当不方便听语音时,点下“转文字”便能直接获得语音信息的文字翻译;当开车时,对着手机直接说出目的地便能直接获取导航路线;当进入写字楼时,对着智能安检摄像头刷脸即可通过……
随着技术的不断迭代,人类已悄然迈入智能时代,机器能够像人一样,会听、会看、会说、会动、会思考及会学习,更让人类生活变得丰富多彩起来。智能时代,人们通过智能语音系统、计算机视觉系统、自然语言处理系统发送简讯、操纵汽车、遥控设备,这一切主要归功于智能语音、计算机视觉、自然语言等相关人工智能领域的应用发展。
“而我们所做的事情,则是作为人工智能产业的‘基石’,为产业链的技术层和应用层源源不断地提供对其至关重要的AI训练数据,用户看不到我们,却在时时刻刻体验着我们的基石作用。”海天瑞声董事长贺琳说。据悉,该公司产品和服务已获得腾讯、阿里、百度、字节跳动、微软、三星、亚马逊、科大讯飞、商汤科技、海康威视等国内外优质客户的认可。
8月13日,海天瑞声登陆科创板,公司将借助资本的力量强化双翼,飞向更广阔的智能天地。
训练数据“大王”
海天瑞声成立于2005年,是一家专注于为AI算法模型训练提供数据产品及解决方案的服务商。16年来,公司持续投入重金做研发,目前主营业务包括训练数据定制服务、训练数据产品及训练数据相关的应用服务三大板块,业务领域涵盖了智能语音、计算机视觉、自然语音等AI核心领域,构筑起坚实的技术壁垒,持续为客户提供高质量的训练数据产品及服务,始终努力推动着AI技术在全球各行业落地的进程。
随着智能客服、智能家居、智能手机助手等应用产品的广泛普及,琳琅满目的人工智能应用热潮背后,是迅猛发展的人工智能技术。而在技术背后,扮演至关重要角色的则是大规模的专业训练数据集。数据资源的规模和质量,在很大程度上决定了各种人工智能技术及应用的广度和深度,从而影响着AI应用/产品的落地及用户的体验。
“数据已经成为一种生产要素,前提是要把人类世界的信息转化为计算机可以识别的方式。”贺琳介绍说,人工智能行业发展涵盖了三大核心要素——算法、算力及数据。如果把发展成熟的人工智能行业比作菜肴,那么数据就是食料,算法是煎、炒、烹、炸、炖等各种烹饪方法,算力则是燃气灶、菜刀、锅、勺等烹饪工具。要想做出一道色香味俱全的菜肴,三者缺一不可。
贺琳所带领的海天瑞声正是我国领先的人工智能训练数据专业提供商。公司自成立以来,始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。
根据招股书显示,目前海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。
智能语音称雄天下
据介绍,海天瑞声在智能语音方面可谓独步天下。公司建立了成熟的发音词典构建流程、积累了深厚的语音语言学基础研究成果。截至目前,公司的产品/服务已覆盖全球160余个语种/方言,并已积累下超过100个语种/方言的发音词典,累计词条数超过1000万条,可构建高质量的智能语音训练数据集群。
“我们的许多客户都是全球性的大型科技公司和头部人工智能企业,他们的产品需要推广到世界各个角落,所以产品中的语种/语言功能也需要能够匹配其所布局的地方区域。”贺琳介绍说,每一种语言的研究、开发都需要花费大量的时间及成本,不同语言涉及的音素集、发音规则等设定,都需要专业的语言学家联合AI工程师一起来共同研究完成。
除了丰富的语言能力,公司依托自主开发的一体化数据处理平台,高质、高效地采集与处理大规模训练数据。一体化数据处理平台需要解决三方面的问题:一是如何构建底层算法结构,使人机结合处理数据的能力发挥到最优,最大程度提高数据处理效率;二是如何通过对平台和工具的反复打磨,使数据生产流转效率最大化,令训练数据的开发可以真正达到规模化;三是如何最大程度保障数据安全。海天瑞声通过多年的深耕和持续的研发投入,拥有了功能强大的一体化处理平台,实现了训练数据安全、合规生产的规模化。
上述罗列的“特技”,正是海天瑞声区别于业内其他数据服务商的本质特征,也是在经年累月的努力下为自己打造的深厚壁垒。公司也成为目前国内极少数有能力提供包括希伯来语、乌尔都语、缅甸语等语种数据服务的供应商,也是全球拥有自主知识产权训练数据集最多的企业之一。
据贺琳介绍,公司目前在以每年大概十余种语言/方言的速度不断扩充着公司的专业数据库,同时不断迭代一体化数据处理平台,加入各类新的处理功能。多年积累的核心技术和专业服务能力,使得公司能够更大规模、更有效率、更加精准地生产训练数据,在提升自身产出效率的同时也有效提高了训练数据对于客户算法模型的改善、优化效果。
数据是算法发展和演进的“燃料”
贺琳早年在中科院声学研究所工作,彼时,她与身边众多研究人工智能的好友们都遭遇一个烦恼:基础训练数据的缺乏。没有训练数据作为支撑,AI技术及其应用的研发工作就很难开展。当时的他们会时常聚在一起来讨论这个问题该怎么去解决。随着算力的突破,数据的紧缺问题更加迫在眉睫。
“当时我认为这是未来的一个方向,因为大家在工作中都会遇到这样的瓶颈。一些企业的研究员更想专注于做算法,但又缺乏数据。”贺琳表示,所以海天瑞声应运而生。
贺琳告诉记者:“数据是算法发展和演进的‘燃料’,算法、算力、数据这三个要素一定要互相作用,才能使AI行业得以发展。近年来,国家从顶层设计层面也非常重视数据的发展,并制定了很多相关的政策,特别是今年,建设人工智能行业训练数据集、发展全数据产业链已被正式纳入国家重点规划,可以说数据资源的基础性和战略性的地位已经凸显。”
事实上,除了提供训练数据产品外,一个专业高效的数据合作伙伴最重要的能力之一是帮助应用商们较为准确地预估投入产出比,找到与整体业务目标契合的整体服务解决方案。经过多年的业务实践与发展,海天瑞声目前与产业链上的各类机构都建立了长期的战略合作关系,产品和服务已获得阿里巴巴、腾讯、百度、字节跳动、微软、三星、亚马逊、科大讯飞、商汤科技、云知声、海康威视等国内外优质客户的认可,建立了广泛的行业知名度与影响力。
未来,市场对训练数据的拓展性需求和前瞻性需求均将快速增长。随着行业内对训练数据需求类型的增加以及对服务标准要求的提高,这就要求包括海天瑞声在内的数据服务商能够保持对行业发展趋势的洞察能力,深刻理解客户的应用领域及业务场景,在设计方案过程中考虑到算法对样本多样性的需求,保证数据方案能满足机器学习的需求且避免出现与模型的过拟合、欠拟合等诸多问题。
“帮助客户不在数据准备阶段走弯路,助推其加速模型训练、产品落地和迭代更新是海天瑞声坚守的初衷。”贺琳说,随着人工智能在全球的快速发展,对数据资源需求将持续增长。与此同时,不同类型、处于不同发展阶段的企业及组织对数据的需求也逐步展现出差异化、多元化趋势,因此对人工智能训练数据服务商的资质、研发、产能、质控、安全合规等方面都提出了更高的要求。
用户驱动、需求驱动、实战驱动是推动海天瑞声持续稳步前进的动能。行业的高速增长,政策的不断加持,为海天瑞声增添了更多的成长空间。而登陆科创板,则会获得更充足的资本力量,助推公司海阔天空任飞翔。