读取中,请稍候

00-00 00:00:00
--.--
0.00 (0.000%)
昨收盘:0.000今开盘:0.000最高价:0.000最低价:0.000
成交额:0成交量:0买入价:0.000卖出价:0.000
市盈率:0.000收益率:0.00052周最高:0.00052周最低:0.000
8-1发行人及保荐机构关于发行注册环节反馈意见落实函的回复(二) 下载公告
公告日期:2021-07-12

8-1-1

关于北京海天瑞声科技股份有限公司

首次公开发行股票并在科创板上市的

发行注册环节反馈意见落实函的回复

保荐机构(主承销商)

(深圳市前海深港合作区南山街道桂湾五路128号前海深港基金小镇B7栋401)

8-1-2

中国证券监督委员会、上海证券交易所:

贵所于2021年3月22日转发的《发行注册环节补充反馈意见落实函》(以下简称“落实函”)已收悉,华泰联合证券有限责任公司(以下简称“华泰联合”或“保荐机构”)作为北京海天瑞声科技股份有限公司(以下简称“海天瑞声”、“发行人”或“公司”)首次公开发行股票并在科创板上市的保荐机构(主承销商),会同发行人等相关各方,本着勤勉尽责、诚实守信的原则,就落实函所提问题逐项进行认真讨论、核查与落实,并逐项进行了回复说明。具体回复内容附后。

说明:

1、如无特别说明,本回复中使用的简称或名词释义与《北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市招股说明书(注册稿)》(以下简称“招股说明书”)一致。涉及招股说明书补充披露或修改的内容已在招股说明书中以楷体加粗方式列示。

2、本回复中若出现总计数尾与所列值和不符的情况,均为四舍五入所致。

3、本回复中涉及的我国、我国经济以及行业的事实、预测和统计,包括本公司的市场份额等信息,来源于一般认为可靠的各种公开信息渠道。本公司从上述来源转载或摘录信息时,已保持了合理的谨慎,但是由于编制方法可能存在潜在偏差,或市场管理存在差异,或基于其它原因,此等信息可能与国内或国外所编制的其他资料不一致。

8-1-3

目 录

问题1 ...... 4

8-1-4

问题1

1、根据发行人提供的经会计师审阅的2020年财务数据,发行人2020年度营业收入为23,337.40万元。请发行人补充论证说明,其是否符合《科创属性评价指引(试行)》的相关要求,是否具备科创属性、符合科创板行业定位。请保荐机构核查并发表明确意见。

答复:

发行人说明事项

发行人符合《科创属性评价指引(试行)》的相关要求,具备科创属性、符合科创板行业定位。具体说明如下:

一、发行人2020年度受新冠疫情影响,营业收入略有下降,但并未对公司整体行业定位、产品结构及竞争力、科技创新能力、技术及研发实力等方面造成不利影响。发行人仍持续具备科创属性,科创属性未发生变化,符合科创板行业定位

(一)公司主营业务、核心技术、形成主营业务收入的核心产品均未发生变化,行业领域属于《指引》和《暂行规定》所列符合科创板定位的行业领域

根据《关于在上海证券交易所设立科创板并试点注册制的实施意见》《科创板首次公开发行股票注册管理办法(试行)》《科创属性评价指引(试行)》(以下简称《指引》)和《上海证券交易所科创板企业发行上市申报及推荐暂行规定》(以下简称《暂行规定》)要求,申报科创板发行上市的发行人应属于新一代信息技术、高端装备、新材料、新能源、节能环保、生物医药或其他符合科创板定位的行业领域。

发行人主要从事训练数据的研发设计、生产及销售业务,生产过程中需要设计训练数据集结构、采集原料数据、对原料数据进行加工处理和质检,最终形成可供AI算法模型训练使用的训练数据集,与数据加工处理息息相关。结合国家统计局《战略性新兴产业分类(2018)》,发行人所从事的训练数据生产业务属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”行业。

本落实函回复中,涉及2020年度财务数据的均采用经会计师审阅的2020年财务数据计算。

8-1-5

因此,发行人属于新一代信息技术行业领域,符合科创板行业定位。

(二)2020年度,公司持续推进产品研发和技术创新,研发投入金额及发明专利数量持续增长,持续符合《指引》和《暂行规定》关于研发投入金额占比及发明专利数量的指标规定2020年以来,发行人继续保持了较高的研发投入力度,不断增强技术创新能力,2020年度研发投入金额为4,164.04万元,2018-2020年累计研发投入占累计营业收入比例为16.68%。2020年申报科创板IPO至今,发行人新增主营业务相关的发明专利10项,截至目前已拥有形成主营业务收入的发明专利22项。发行人研发投入金额及发明专利数量持续符合《指引》《暂行规定》关于研发投入金额占比及发明专利数量的指标规定。

(三)2020年度新冠肺炎疫情对公司营业收入的负面影响为短期性、暂时性情形,不会对公司未来长期经营能力及成长性造成重大不利影响,公司具有持续成长性,符合科创板定位要求

2020年,发行人实现营业收入23,337.40万元,同比下降1.76%,主要原因是2020年全球新冠疫情持续爆发,新冠疫情防控期间原料数据现场采集、标注工作受到限制导致项目实施、产品开发、交付验收的进度均受到影响;同时由于客户停工,延迟了客户新增采购需求,导致新增合同订单增速、项目沟通及验收效率均有所降低所致。随着我国疫情得到有效控制和全球疫苗接种的逐步普及,新冠疫情对发行人业务的影响逐渐减退。发行人预计2021年第一季度实现营业收入约4,400万元至4,500万元,同比增长约

40.75%至43.95%,继续表现出较强的成长性。因疫情影响造成的公司营业收入增速下降为短期性、暂时性情形,不会对公司未来长期经营能力及成长性造成重大不利影响,公司具有持续成长性,符合科创板定位要求。

综上,2020 年度,公司营业收入增幅略有下降的情形并未对公司整体行业定位、产品结构及竞争力、科技创新能力、技术及研发实力、公司持续成长性等方面造成不利影响,发行人仍持续具备科创属性,科创属性未发生变化,符合科创板行业定位。

二、公司符合科创属性评价标准具体要求

发行人符合《指引》《暂行规定》的科创属性评价标准要求:

8-1-6

(1)发行人已在招股说明书、发行保荐书等发行申请文件中对发行人符合科创属性评价标准一相关要求的情况进行了充分论证,具体如下:

科创属性评价标准一是否符合指标情况
最近三年累计研发投入占最近三年累计营业收入比例≥5%,或最近三年累计研发投入金额≥6000万元√是 □否2017-2019年累计研发投入占累计营业收入比例:17.17%
形成主营业务收入的发明专利(含国防专利)≥5项√是 □否形成主营业务收入的发明专利:22项
最近三年营业收入复合增长率≥20%,或最近一年营业收入金额≥3亿√是 □否2017-2019年营业收入复合增长率:41.25%

现对发行人符合科创属性评价标准二相关要求的情况补充论证如下:

发行人符合科创属性评价标准二的相关要求:

科创属性评价标准二是否符合主要依据
拥有的核心技术经国家主管部门认定具有国际领先、引领作用或者对于国家战略具有重大意义。□是 √否
□是 √否
独立或者牵头承担与主营业务和核心技术相关的“国家重大科技专项”项目。□是 √否
依靠核心技术形成的主要产品(服务),属于国家鼓励、支持和推动的关键设备、关键产品、关键零部件、关键材料等,并实现了进口替代。√是 □否参见下文论述。
形成核心技术和主营业务收入相关的发明专利(含国防专利)合计50项以上。□是 √否

因此,除科创属性评价标准一外,发行人也符合“科创属性评价标准二”第四条“依靠核心技术形成的主要产品(服务),属于国家鼓励、支持和推动的关键设备、关键产品、关键零部件、关键材料等,并实现了进口替代”的相关要求。对发行人符合科创属性评价标准二(四)相关要求的情况具体说明如下:

8-1-7

(一)发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键设备、关键产品、关键零部件、关键材料等

1、根据国家战略、产业政策,发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键产品

发行人依靠核心技术形成的主要产品/服务为训练数据产品/服务,服务于人工智能技术的训练、测试等环节,是当前阶段人工智能技术和行业发展的关键产品。具体依据说明如下:

序号实施时间颁布主体国家战略/产业政策相关内容发行人产品/服务匹配情况说明
12015年7月国务院《国务院关于积极推进“互联网+”行动的指导意见》“培育发展人工智能新兴产业。建设支撑超大规模深度学习的新型计算集群,构建包括语音、图像、视频、地图等数据的海量训练资源库,加强人工智能基础资源和公共服务等创新平台建设。进一步推进计算机视觉、智能语音处理、生物特征识别、自然语言理解、智能决策控制以及新型人机交互等关键技术的研发和产业化,推动人工智能在智能产品、工业制造等领域规模商用,为产业智能化升级夯实基础。”发行人提供的训练数据产品/服务,充分服务于该指导意见所指的人工智能关键技术的研发和优化环节,是人工智能算法模型实现大规模商用、产业化智能升级的关键基础。
22016年5月国家发展改革委、科技部、工业和信息化部、中央网信办《“互联网+”人工智能三年行动实施方案》“总体思路。??着力突破若干人工智能关键核心技术,增强智能硬件供给能力。” “实施目标。到2018年,打造人工智能基础资源与创新平台,人工智能产业体系、创新服务体系、标准化体系基本建立,基础核心技术有所突破,总体技术和产业发展与国际同步,应用及系统级技术局部领先。在重点领域培育若干全球领先的骨干企业,初步建成基础坚实、创新活跃、开放协作、绿色安全的产业生态,形成千亿级的市场应用规模” “主要任务:加快建设文献、语音、图像、视频、地图等多种类数据的海量训练资源库和基础资源服务公共平台,建设支撑超大规模深度学习的新型计算集群,建立完善产业公共服务平台。”发行人提供的训练数据产品/服务,从属于“突破人工智能关键技术”的总体思路,是该方案提出的、实现关键技术突破的主要任务(加快建设海量训练资源库)的构成部分。

8-1-8

序号实施时间颁布主体国家战略/产业政策相关内容发行人产品/服务匹配情况说明
32017年7月国务院《新一代人工智能发展规划》“加速积累的技术能力与海量的数据资源、巨大的应用需求、开放的市场环境有机结合,形成了我国人工智能发展的独特优势。” 一、战略态势/(三)战略目标:“??到2030年:“人工智能产业竞争力达到国际领先水平。人工智能在生产生活、社会治理、国防建设各方面应用的广度深度极大拓展,形成涵盖核心技术、关键系统、支撑平台和智能应用的完备产业链和高端产业群,人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。” 三、重点任务/(一)构建开放协同的人工智能科技创新体系/统筹布局人工智能创新平台/专栏3 基础支撑平台:“人工智能基础数据与安全检测平台。建设面向人工智能的公共数据资源库、标准测试数据集、云服务平台,建立人工智能算法与平台安全性测试模型及评估模型,研发人工智能算法与平台安全性测评工具集。”发行人提供的训练数据产品/服务,是人工智能产业链的重要构成部分,从原料角度为人工智能关键技术发展提供了支撑,是人工智能关键技术发展的关键产品。 建设面向人工智能的训练数据资源是《新一代人工智能发展规划》重点任务之一。
42017年12月工业和信息化部《促进新一代人工智能产业发展三年行动计划(2018-2020年)》“以信息技术与制造技术深度融合为主线,推动新一代人工智能技术的产业化与集成应用,发展高端智能产品,夯实核心基础,提升智能制造水平,完善公共支撑体系,促进新一代人工智能产业发展,推动制造强国和网络强国建设,助力实体经济转型升级。” “一、总体要求/(三)行动目标:??“人工智能产业支撑体系基本建立,具备一定规模的高质量标注数据资源库、标准测试数据集建成并开放” “五、构建支撑体系:面向重点产品研发和行业应用需求,支持建设并开放多种类型的人工智能海量训练资源库、标准测试数据集和云服务平台??,着重在以下领域率先取得突破: (一)行业训练资源库。面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域,支持建设高质量人工智能训练资源库、标准测试数据集并推动共享,鼓励建设提供知识图谱、算法训练、产品优化等共性服务的开放性云平台。到2020年,基础语音、视频图像、文本对话等公共训练数据量大幅提升,在工业、医疗、金融、交通等领域汇集一定规模的行业应用数据,用于支持创业创新。”发行人提供的训练数据产品/服务,是人工智能产业链的重要构成部分,为人工智能关键技术发展提供了支撑,是人工智能关键技术发展的关键产品。

8-1-9

序号实施时间颁布主体国家战略/产业政策相关内容发行人产品/服务匹配情况说明
52017年12月工业和信息化部《促进新一代人工智能产业发展三年行动计划(2018-2020年)》解读“《行动计划》按照“系统布局、重点突破、协同创新、开放有序”的原则,在深入调研基础上研究提出四方面重点任务,共17个产品或领域: ?? 四是构建行业训练资源库、标准测试及知识产权服务平台、智能化网络基础设施、网络安全保障等产业公共支撑体系,完善人工智能发展环境。 目前,我国人工智能发展的痛点问题之一就是缺少有效的行业资源训练库等公共服务支撑体系,业界普遍反映已经影响了人工智能技术发展及在行业中的应用。《行动计划》注意到了这一关键问题,加大对产业公共服务平台的支持,将形成有效引导,不断完善产业发展环境。”发行人提供的训练数据产品/服务从属于《促进新一代人工智能产业发展三年行动计划(2018-2020年)》发展的“重点任务”,是我国人工智能发展的痛点问题。训练数据产品/服务从原料角度为人工智能关键技术发展提供了支撑,是人工智能关键技术发展的关键产品。
62017年12月中共中央政治局中共中央政治局第二次集体学习习近平2017年12月8日主持十九届中共中央政治局第二次集体学习时提出:“要构建以数据为关键要素的数字经济。建设现代化经济体系离不开大数据发展和应用。我们要坚持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合,??,发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。”发行人提供的训练数据产品/服务是数字经济的关键要素,是推动人工智能技术发展、推动人工智能同实体经济深度融合的关键要素。
72018年10月中共中央政治局人工智能发展现状和趋势第九次集体学习“支持科学家勇闯人工智能科技前沿的‘无人区’,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破,确保我国在人工智能这个重要领域的理论研究走在前面、关键核心技术占领制高点。要主攻关键核心技术,以问题为导向,全面增强人工智能科技创新能力,加快建立新一代人工智能关键共性技术体系,在短板上抓紧布局,确保人工智能关键核心技术牢牢掌握在自己手里。要强化科技应用开发,紧紧围绕经济社会发展需求,充分发挥我国海量数据和巨大市场应用规模优势,坚持需求导向、市场倒逼的科技发展路径,积极培育人工智能创新产品和服务,推进人工智能技术产业化,形成科技创新和产业应用互相促进的良好发展局面。” “要培育具有重大引领带动作用的人工智能企业和产业,构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。”发行人提供的训练数据产品/服务助力于“发挥我国海量数据和巨大市场应用规模优势”,服务于我国主攻“人工智能关键核心技术”的重要进程。

8-1-10

序号实施时间颁布主体国家战略/产业政策相关内容发行人产品/服务匹配情况说明
82018年11月工业和信息化部《新一代人工智能产业创新重点任务揭榜工作方案》、解读为贯彻落实党的十九大精神,加快我国新一代人工智能产业创新发展,基于《促进新一代人工智能产业发展三年行动计划(2018-2020年)》中部署的重点任务和目标,人工智能揭榜工作将在17个方向及细分领域,征集并遴选一批掌握关键核心技术、具备较强创新能力的创新主体,在人工智能主要细分领域,选拔领头羊、先锋队,以突破产业发展的短板和瓶颈,加快我国人工智能产业与实体经济深度融合。 “重点突破一批技术先进、性能优秀、应用效果好的人工智能标志性产品、平台和服务,为产业界创新发展树立标杆和方向,培育我国人工智能产业创新发展的主力军。” “选择高质量的行业训练资源库??等作为揭榜攻关任务。这些资源体系是影响人工智能健康发展的重要要素,需要加快完善基础环境、保障平台,加快形成我国人工智能产业创新发展的支撑能力。”发行人于2019年入选工业和信息化部前述“新一代人工智能产业创新重点任务入围揭榜单位”并于2021年4月揭榜优胜,主导参与该创新重点任务“(四)支撑体系-行业训练资源库”的相关建设工作,是受到工信部认可的掌握关键核心技术、具备较强创新能力以突破产业发展的短板和瓶颈的创新主体。发行人产出的大规模、高质量训练数据库产品属于工信部认可的技术先进、性能优秀、应用效果好的标志性产品,是影响我国人工智能健康发展的重要要素。
92020年3月国务院《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》“六、加快培育数据要素市场:培育数字经济新产业、新业态和新模式,??,提升社会数据资源价值。培育数字经济新产业、新业态和新模式,支持构建农业、工业、交通、教育、安防、城市管理、公共资源交易等领域规范化数据开发利用的场景。发挥行业协会商会作用,推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化。”发行人提供的训练数据产品/服务符合我国加快培育数据要素市场的战略规划和要求。
102020年7月工业和信息化部《关于开展第二批专精特新“小巨人”企业培育工作的通知》“专精特新‘小巨人’企业主导产品应符合《工业“四基”发展目录》所列重点领域,从事细分产品市场属于制造业核心基础零部件、先进基础工艺和关键基础材料;或符合制造强国战略明确的十大重点产业领域,属于重点领域技术路线图中有关产品;或属于产业链供应链关键环节及关键领域‘补短板’产品;或属于国家和各省(区、市)重点鼓励发展的支柱和优势特色产业等领域。”发行人入选工业和信息化部第二批专精特新“小巨人”企业名单,表明发行人主导产品符合该通知所述核心基础零部件、先进基础工艺、关键基础材料;或“重点领域”相关产品、产业链供应链关键环节及关键领域‘补短板’产品或国家/省重点鼓励发展的支柱优势特色产业领域。

8-1-11

序号实施时间颁布主体国家战略/产业政策相关内容发行人产品/服务匹配情况说明
112021年3月十三届全国人大四次会议《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》第五篇 加快数字化发展 建设数字中国: “迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。” “第十五章 打造数字经济新优势 充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,壮大经济发展新引擎。 第一节 加强关键数字技术创新应用:聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域” “专栏8 数字经济重点产业-06人工智能:建设重点行业人工智能数据集,发展算法推理训练场景”人工智能是数字经济的关键领域,训练数据是拓展人工智能算法推理场景的关键产品。

(1)人工智能是国家战略、产业政策大力支持的关键技术领域,多个国家部门在该领域频频出台政策,推进人工智能关键技术发展和人工智能训练数据资源建设人工智能发展至今已成为引领新一轮科技革命和产业变革的重要驱动力,对经济发展、社会治理和民生福祉产生极其深刻的影响。于经济发展而言,人工智能是引领未来的战略性技术,全球主要国家及地区都把发展人工智能作为提升国家竞争力、推动国家经济增长的重大战略。

近年来,国务院、工信部、发改委等多个部门陆续出台多项国家战略/产业政策,大力推进人工智能关键技术发展,如《国务院关于积极推进“互联网+”行动的指导意见》《“互联网+”人工智能三年行动实施方案》《新一代人工智能发展规划》《促进新一代人工智能产业发展三年行动计划(2018-2020年)》等提出“着力突破若干人工智能关键技术”、“确保我国在人工智能这个重要领域的理论研究走在前面、关键核心技术占领制高点”。

同时,与发展人工智能这一关键技术的目标相配套,前述文件政策也大力推进人工智能训练数据资源发展,将训练数据的发展作为突破人工智能关键技术的主要任务之一,提出“构建包括语音、图像、视频、地图等数据的海量训练资源库”、“加快建设文献、语音、图像、视频、地图等多种类数据的海量训练资源库”、“建设面向人工智能的公共数据资源库、标准测试数据集”。

此外,国务院《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》、十三届全国人大四次会议《中华人民共和国国民经济和社会发展第十四个五年规

8-1-12

划和2035年远景目标纲要》也持续强调数据作为数字经济关键要素的重要性,提出“加强关键数字技术创新应用:聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域”、“建设重点行业人工智能数据集,发展算法推理训练场景”。

(2)发行人提供的训练数据服务于人工智能关键技术的训练测试及领域拓展进程,是人工智能技术发展的关键产品

工业和信息化部在关于《促进新一代人工智能产业发展三年行动计划(2018-2020年)》(以下简称“行动计划”)的解读中指出:目前我国人工智能发展的痛点问题之一就是缺少有效的行业资源训练库等公共服务支撑体系,业界普遍反映已经影响了人工智能技术发展及在行业中的应用;《行动计划》注意到了这一关键问题,加大对产业公共服务平台的支持,将形成有效引导,不断完善产业发展环境。国务院《关于积极推进“互联网+”行动的指导意见》提出建设海量训练数据资源库,进而推进各项人工智能关键技术的研发和产业化。国家发展改革委、科技部、工业和信息化部、中央网信办出台的《“互联网+”人工智能三年行动实施方案》(以下简称“实施方案”)则将加快建设海量训练数据资源库认定为“互联网+”人工智能三年行动实施方案的主要任务之一,整体服务于“突破人工智能关键技术”的总体思路。

结合上述产业政策,发行人提供的训练产品/服务从属于产业政策拟大力发展的人工智能训练数据资源库范畴,是建设海量训练数据资源库、突破人工智能关键技术这一产业任务的主要构成部分。发行人的训练数据产品响应于国家发展人工智能关键技术的战略意图,是国家鼓励、支持和推动的关键产品。

依据上述政策,发行人于2019年入选工业和信息化部 “新一代人工智能产业创新重点任务入围揭榜单位”名单并于2021年4月揭榜优胜,根据工业和信息化部《新一代人工智能产业创新重点任务揭榜工作方案》,揭榜优胜单位应是掌握关键核心技术、具备较强创新能力以突破产业发展的短板和瓶颈的创新主体。同时,公司于2020年入选工业和信息化部第二批专精特新“小巨人”企业名单,根据工业和信息化部《关于开展第二批专精特新“小巨人”企业培育工作的通知》,专精特新“小巨人”企业主导产品应符合该《工业“四基”发展目录》所述核心基础零部件、先进基础工艺、关键基础材料;或“重点领域”相关产品、产业链供应链关键环节及关键领域‘补短板’产品或国家/省重点鼓励发展的支柱优势特色产业领域。以上由国家部委授予的荣誉、认证均

8-1-13

验证了发行人掌握关键核心技术,具备较强的科创能力,发行人提供的产品/服务是突破产业发展、国家战略鼓励的关键产品。

2、根据国家主管部门证明及行业专家评定,发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键产品为贯彻落实党的十九大精神,加快我国人工智能产业创新发展,按照国务院《新一代人工智能发展规划》(国发〔2017〕35号)和《促进新一代人工智能产业发展三年行动计划(2018-2020)》(工信部科〔2017〕315号)部署,工信部于2018年底启动了新一代人工智能产业创新重点任务揭榜工作,旨在选拔一批在我国人工智能主要细分领域掌握关键核心技术,聚焦并能突破人工智能产业发展短板瓶颈,具有国际竞争力、领先性的标杆企业。

根据工信部科技司出具的《关于对北京海天瑞声科技股份有限公司相关情况说明的复函》工科函〔2021〕277号认定:“为加快推动我国新一代人工智能产业创新发展,我部于2018年底印发《新一代人工智能产业创新重点任务揭榜工作方案》(工信厅科函〔2018〕80号),聚焦人工智能产业发展重点领域,遴选培育掌握关键核心技术、具备较强创新能力的企事业单位,壮大发展产业力量。北京海天瑞声科技股份有限公司揭榜承担了“行业训练资源库”方向任务,经专家评议和专业机构测评,成果达到预期指标,完成了揭榜任务,被我部确认为新一代人工智能产业创新重点任务揭榜优胜单位。”

此外,经中国信息通信研究院组织,共计5名中国工程院院士、中国科学院等科研机构正高研究员及教授、行业资深人士等行业专家对发行人产品/服务情况及技术水平进行了评定。经前述行业专家确认:“发行人所提供的训练数据已经成为国家鼓励、支持和推动的人工智能产业发展所必需的关键产品,是形成我国人工智能产业创新发展的关键性基础能力,是攻克我国人工智能产业基础发展瓶颈的关键一环。”

综上主管部门说明及行业专家评定,发行人在训练数据领域掌握了关键核心技术,具备较强的创新能力,突破了人工智能产业发展短板瓶颈,是具有国际竞争力、领先性的标杆企业,所提供的训练数据产品或服务是国家鼓励、支持和推动的人工智能产业发展所必需的关键产品。

8-1-14

(二)发行人主要产品/服务的进口替代依据和技术先进性情况说明

1、实现进口替代的发行人产品/服务主要为智能语音类训练数据产品/服务发行人实现进口替代的主要产品/服务为智能语音类训练数据。在该产品/服务领域,发行人在国内企业中起步较早,并持续陪伴我国人工智能产业发展,为下游人工智能行业实现了智能语音训练数据的国产、独立、自主供应,避免海外进口冲击、达到了进口替代的作用。

智能语音类训练数据产品/服务是发行人报告期内的主要收入来源,且均为发行人依靠其核心技术开展经营所产生的收入,占发行人营收比例较高,2017年、2018年、2019年及2020年1-9月分别达到82.43%、82.57%、80.49%及78.94%。2017-2019年,发行人智能语音领域训练数据产品/服务实现了高速增长,三年复合增长率达到39.58%。

2、发行人通过核心技术优势和经营成果,实现了基础数据服务行业的国产优势,有效地降低进口依赖和发展产业的独立自主,实现了进口替代的目的

进口替代的最终目的是通过国内市场主要由本国生产者供应,减少或者完全消除该种产品的进口,实现经济上的独立自主。发行人基于自身拥有的和积累的核心技术优势和经营成果,实现了基础数据服务行业的国产优势,从而有效地降低进口依赖并发展产业的独立自主,实现了进口替代的目的。

(1)中国人工智能产业蓬勃发展,Appen作为从事训练数据服务的主要国外厂商,其竞争实力较强,拓展中国市场的战略方向明确

近年来,我国人工智能产业从基础支撑、核心技术到行业应用的产业链条基本形成,一批创新活跃、特色鲜明的创新企业加速成长,新模式、新业态不断涌现,整体呈现蓬勃发展态势。根据国际数据公司(IDC)的数据,中国人工智能产业规模预计将在2023年将达174.68亿美元,年复合增长率达到40.52%。截至2019年年末,中国(不含港澳台)活跃AI企业达到1,189家,占全球总数的22.08%,位居全球第二。与此同时,随着我国人工智能产业高速发展,数据作为核心发展要素之一,其重要性和市场规模也不断提升。根据艾瑞咨询《2020年中国AI基础数据服务行业研究报告》,2019年中国基础数据服务行业的市场规模达到30.9亿元,预计2025年将突破100亿元,复合年增长率达到21.8%。

8-1-15

因此,我国基础数据服务行业日益增长的行业需求使得国内市场成为了包括国外厂商在内的训练数据服务厂商的必争之地。从事训练数据服务的主要国外厂商包括Appen、Definedcrowd、Zen3Tech等公司。其中Appen为上市公司,通过其信息披露可以获知,其整体竞争实力较强,且中国市场是其重点业务方向。

Appen成立于1996年,是美国与澳大利亚的合资公司,并于2015年在澳大利亚上市,是全球较早从事数据资源开发的数据资源产品服务提供商,经营历史较长,实力较强。Appen拥有人工智能辅助数据注释平台,训练数据涵盖科技、汽车、金融服务、零售、医疗健康和政府等各个领域,2020年营业收入59,938万澳元,净利润5,051万澳元,目前员工数量1100余人,覆盖235个语种/方言,具备较大的体量规模和广泛的语种资源能力。

同时,根据Appen年报等信息披露文件显示,Appen成功上市后,成为澳大利亚资本市场表现优异的科技龙头股之一,通过资本运作,启动全球布局,继续加强拓展中国市场已成为Appen战略重心之一。Appen已建立专门的运营和产品团队服务中国市场,中国市场对于Appen业绩的持续增长变得日趋重要。Appen负责中国市场的大中国区总经理已出任全球高级副总裁,截至目前Appen已在中国设立3家全资子公司,中国现已成为Appen除美国外设立子公司数量最多的国家,人员和机构设置均体现了Appen对中国市场的高度重视。

(2)海天瑞声是国内最早从事人工智能基础数据服务的公司,并实现了基础数据服务的国产优势,达到了进口替代的目的

发行人是我国领先的训练数据专业提供商,自2005年成立以来始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。发行人的进口替代体现在两个方面:

第一,发行人成功替代Appen等公司成为全球科技巨头在中国设立的分支研究机构的供应商。

1995年至1998年,IBM、微软、Intel等相继在中国设立分支研究机构,分别为IBM中国研究院、微软亚洲研究院、英特尔中国研究中心。各分支研究机构成立后,主要从Appen购买基础数据用于模型训练。

8-1-16

2005年发行人成立后至2012年期间,上述分支研究机构陆续与发行人开展合作,其主要基础数据服务供应商由Appen等国外厂商变更为发行人,验证了发行人在基础数据服务领域的技术先进性和产品服务优势,实现了对国外厂商的进口替代。

发行人与上述分支研究机构开展合作的具体情况如下:

北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复

8-1-17

序号客户开始合作时间销售内容典型应用场景典型应用效果报告期内销售金额(万元)
1微软亚洲研究院2005年语音识别、语音合成相关产品及服务人机交互、机器人、智慧医疗、公共安全通过中英日韩德法意西等语音数据,完善了语音语义、机器翻译等多项技术,搭建了人工智能云平台,在公共安全、智能机器人、智慧医疗等领域做出了卓越的贡献。2,821.11
2IBM中国研究院2007年语音识别、语音合成相关产品及服务智慧教育、智慧医疗通过使用德语、西班牙、法语等识别语音数据库,完善了语音识别,语义分析模型,在人工智能医疗和智慧教育领域取得了进一步发展。181.36
3英特尔中国研究中心2012年语音识别相关产品及服务芯片深度学习功能通过使用日、英以及印地语和一些美洲语言的识别数据,完善了其人工智能芯片的功能,在深度学习领域又迈进了一步。340.82

8-1-18

第二,发行人的成立和发展与我国AI产业发展和对训练数据的需求是同步的,始终保持了该领域的国产优势,实现了训练数据供应的独立、自主。

发行人自2005年成立至今,一直致力于训练数据的研发和生产,成立早期主要与全球科技巨头在中国设立的分支研究机构合作,掌握了最前沿的训练数据需求,积累下技术储备和管理经验;而后在国内AI产业起步过程中,利用自身已有的积累,为国内客户提供训练数据方面的整体解决方案,充分满足了国内客户的训练数据需求,对我国AI产业的发展起到了显著的推动作用。

如今,发行人经过长期经营积累了12项核心技术,并拥有对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力,以及AI辅助标注及精细标注能力,所提供的训练数据全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景,同时其本地化优势使得发行人能够为国内客户提供更高效更及时的持续服务。

其中,智能语音为发行人的优势领域,产品线已包含150余个主要语种及方言,发行人提供的多语种智能语音训练数据帮助众多国内客户实现了多功能、多地域等国际业务扩张,提高国内厂商在国际上的综合竞争力。尤其近年来持续响应国家“一带一路”整体规划,语言研究能力已覆盖规划内的54个国家的42个语种及方言,累计词条数近350万条。截至目前,发行人智能语音训练数据相关的产品和服务获得了阿里巴巴、腾讯、百度、科大讯飞、中国科学院、清华大学等国内大型科技公司、人工智能企业和科研机构的广泛认可,累计覆盖国内客户273家。

发行人与各类主要国内客户开展合作的具体情况如下:

北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复

8-1-19

序号客户开始合作时间销售内容典型应用场景典型应用效果报告期内销售金额(万元)
1科大讯飞2008年语音识别、语音合成相关产品及服务语音输入、智能家居、语音翻译通过使用中文、方言、英语、东南亚语种类等数据,拓展了国内及东南亚的语音技术产品的市场,巩固了语音交互产品的业务,产品市场占有率提高。370.39
2清华大学2008年语音识别、语音合成相关产品及服务智能问答通过使用西班牙语、土耳其语、朝鲜语、缅甸语、哈萨克斯坦语等语种的语音识别数据,加深一带一路人工智能学术带应用,深化产学研用,孵化包括智能问答在内的人工智能新兴产业。63.46
3阿里巴巴2010年语音识别、语音合成相关产品及服务智能客服通过使用多语种的语音识别和语音合成数据,完善了国际电商平台的产品相关功能和体验,取得了较好的产品体验。7,955.24
4百度2011年语音识别、语音合成相关产品及服务语音输入、智能家居、机器人、语音导航、智能播报、语音翻译通过使用中文、方言数据,完善了语音识别、语音合成模型,用于资讯信息、地图、搜索、音箱、手表等产品,取得了较好的产品体验。1,805.75
5腾讯2012年语音识别、语音合成相关产品及服务语音输入、机器人、语音翻译通过使用中文、方言类等数据,拓展了国内微信等APP语音交互产品的市场,巩固了社交、云服务等业务,完善了语音交互、语音合成等产品,取得了较好的产品体验。5,341.63
6中国某大型科技公司2012年语音识别、语音合成相关产品及服务个人助手、语音输入、语音翻译通过使用多语种数据,拓展了海外手机市场,巩固了手机业务,完善了手机的语音交互、云产品等服务,取得了较好的产品体验。921.60
7联想2013年语音识别相关产品及服务个人助手、语音输入通过使用英语语音识别数据,主要用于扩展东南亚、非洲市场,完善了语音助手在英语识别的功能,拓展了智能手机等周边产品的业务。431.47
8小米2016年语音识别、语音合成相关产品及服务语音输入、智能家居、机器人通过使用印度英语识别数据,拓展了印度市场,主要用于音箱、智能家居等产品。1,013.22
9字节跳动2017年语音识别、语音合成相关产品及服务语音输入、语音翻译通过使用方言、英语、巴葡、日语等数据,拓展了短视频的智能语音应用,以及社交产品的语音交互功能,取得了较好的产品体验。1,009.90

北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复

8-1-20

10VIPKID2018年语音识别相关产品及服务语音输入、语音翻译通过使用英语语音识别数据,完善了课堂语音自动转写业务,实现了对课堂教学质量的有效监督和质检。285.68

8-1-21

发行人除向上述国内的商业客户提供智能语音训练数据产品及服务外,也为中央网信办下属单位国家计算机网络与信息安全管理中心等政府客户提供其产品及服务。随着人工智能技术在我国社会安全、互联网安全等方面的介入和应用,国家有关部门对训练数据的需求也越来越高,由于该类训练数据涉及的领域比较特殊,涉及国家公共安全特征,因此对国产化要求高。发行人所拥有的核心技术能力和丰富语种资源,能够充分满足现有国产化要求,使建设国家公共安全的训练数据研发与生产的核心技术掌握在中国人手中,对我国公共安全信息化建设具有重要支撑作用。根据国家计算机网络与信息安全管理中心出具的说明函:“海天瑞声在为中心提供训练数据产品、服务的过程中,符合国内企业身份,在企业实力、关键技术、产品/服务能力、质量控制、管理能力等条件上具备明显优势,有效地满足了中心的相关训练数据采购需求,协助中心实现了同类训练数据国产化采购的要求。”

3、发行人通过自主研发,构建了人工智能算法技术和大数据处理技术结合的驱动机制,动态提升数据处理自动化程度,解决了智能语音训练数据规模化、场景化生产的技术难题,并保证数据质量、提高生产效率、降低数据成本。发行人基于核心技术所生产的智能语音训练数据在核心指标上与主要国外竞争对手相比具有一定的领先优势,具备技术先进性,能够有效地实现进口替代

(1)发行人通过持续的研发,积累了核心技术并充分运用于智能语音训练数据的生产工作中,实现降本增效,可高质高量地生产体量规模更大、场景覆盖更加全面、成本更为优化的智能语音训练数据,奠定了行业内的竞争地位

①随着人工智能行业技术水平的提升和下游客户研发周期更迭速度的加快,对大规模训练数据集、训练数据总量的需求持续增加。这直接导致在训练数据生产过程中,采集和加工的数据量持续扩大,对采集、加工、质检等环节的要求持续提升,具体包括:

如何实现数据的高效流转、如何提升数据加工效率、如何缩短数据加工周期、如何保障数据安全等。仅仅靠拓展资源网络、堆集劳动力,已无法满足大规模训练数据高效生产的要求。大规模、高质量的训练数据成为人工智能产业发展的瓶颈之一。

发行人充分运用自身积累的人工智能算法、大数据处理技术,结合多年生产经验积累的技术诀窍(know-how),以算法技术作为数据处理平台和工具集的底层基础,形成高效、实用的算法平台和工具;并通过算法平台和工具对数据处理过程中的数据分布

8-1-22

规律和行为数据模型进行分析,不断动态调整人机协作的边界、拓展自动化数据处理的最大可能,提升训练数据生产效率,降低人工工作量、提高数据处理能力。在训练数据生产完毕后,发行人也用算法技术对训练数据执行大规模批量质检,降低人工检查的工作量,同时检验训练数据的训练效果、反哺指导训练数据的设计与生产。

截至目前,发行人已积累了25个运用于训练数据生产过程的算法平台和工具,并利用上述技术提升了数据加工过程的效率及准确率。以词性预测算法工具为例,发行人针对不同语种/方言反复调整参数和算法,不断提升预测的准确率,提升数据加工效率、降低人力需求,目前词性预测算法的准确率由86%提升至96%

,基本实现了纯人力标注的替代。

通过算法、大数据技术并用和驱动,发行人数据处理能力和效率大幅提升,可以充分满足下游市场对规模化智能语音训练数据的需求。报告期内发行人智能语音数据处理能力、效率量化指标如下:

应用领域分类数据处理能力/数据处理效率定量描述情况
语音识别报告期内平均每月采集近4,000人语音数据 每月最高可处理2万小时语音数据
语音合成报告期内平均每月采集近150万字/词语音数据 每月最高可处理15万句语音数据

通过上述数据处理能力和效率的积累,发行人在自有知识产权智能语音训练数据产品数量、典型语种数据库数量、总时长、总人数等规模指标上,较国际主要竞争对手具备优势(详见后述“(2)发行人在智能语音训练数据各项指标上具备技术先进性,能够有效地实现进口替代”)。

②人工智能技术落地化应用于多种细分领域和具体行业之中,要使得算法技术实现更好的应用效果,就需要引入更贴近实际场景特征的训练数据对算法模型进行训练和优化。例如,对于拟应用于保险客服领域的语音识别算法模型,需要用具备保险客服领域特征和特有内容的专有数据集进行训练;拟应用于行车场景的语音识别算法模型,则需要用车载噪声环境特征的专有数据集加以训练,才能获得特定领域/环境的高识别率效果。对于智能语音训练数据的生产来说,这就要求在设计上覆盖更全面的因素、更细化的维度,以贴合场景化算法技术的训练需要;同时,在数据处理上需要有更多针对性强、

上述数据来自发行人实验室模拟运算分析。

8-1-23

定制化程度高的平台和工具,才能保证对场景化特征较强数据的自动化处理的效果和效率。一方面,发行人通过深入掌握、理解算法技术和数据处理技术,兼顾下游模型训练需求和数据处理的可实现性,能够实现智能语音训练数据集设计的全面性和专业性,具体而言,主要体现在广泛的数据集内容设计能力、广泛的语种/方言、场景、领域等的覆盖能力。在智能语音训练数据领域,对比国际主要竞争对手,发行人在覆盖的文本类型、普通噪声环境类型、车载噪声环境类型、典型语种数据库采样率丰富度及等级、典型语音产品母语覆盖、年龄跨度、性别平衡的设计与实现及标注类型的丰富度和准确率等主要技术指标方面,均具备优势(详见后述“(2)发行人在智能语音训练数据各项指标上具备技术先进性,能够有效地实现进口替代”)。

另一方面,发行人在已有的算法平台和工具中,运用自身掌握的丰富的场景化数据,对底层的语音识别算法、语音合成算法进行训练,促使数据处理平台和工具进行定制化升级,加强其处理场景化数据的能力和效率,降低数据处理成本。目前,发行人可以覆盖个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译等多种应用场景,在诸多场景中持续保证训练数据生产效果和效率,并与国际主要竞争对手相比具备价格优势,例如在运营商智能客服场景中,发行人的市场价格较Appen低约50%-80%。

(2)发行人在智能语音训练数据各项指标上具备技术先进性,能够有效地实现进口替代

发行人与Appen在智能语音训练数据相关的产品和服务涉及的技术指标可以分为三个层面进行对比,分别为公司整体层面对比、典型产品类型层面对比和典型细分产品对比。

公司整体层面的能力储备和技术指标对比如下:

项目海天瑞声Appen
1、整体性指标
智能语音训练数据相关专利储备(已取得专利授权)18项(17项发明专利、1项实用新型专利)0项

8-1-24

智能语音训练数据产品储备3534个119个
语种/方言覆盖能力150余个235个
2、采集方案复杂度
采集设备种类82
采集通道覆盖数65
3、文本、环境覆盖范围
通用型单一训练数据产品覆盖的文本类型数量1-18类不等1~10类不等
文本类型示范拼读词、命令词、数字串、自然数、时间、日期、人名、地名、歌曲名、机构名、长句等数字串、自然数、字符串、命令词、申请词、长句等
车载型训练数据产品覆盖的文本类型数量55类8类
文本类型示范数字串、街道名称、控制词、地名、命令词、英语、数字串、时间、日期、度量衡、长句、自然口语等数字、自然数、街道名称、字母串、地点等
通用型单一训练数据产品覆盖的噪声环境类别数量1-61-6
噪声环境类型车内、办公室、家庭、医院、地铁、游戏场、餐厅/咖啡厅、商场、街道办公室、家庭、街边、车内、公共场所、录音棚
车载型各训练数据产品覆盖的噪声环境类别数量72
覆盖车载噪声环境具体类别怠速、低速、低速噪音、高速、高速噪音、城市道路、城市道路噪音怠速、高速

典型产品类型层面,语音识别12大语种数据库的技术指标对比如下:

对比分类现有库数量(个)总时长(小时)总人数(人)采样率
海天瑞声Appen海天瑞声Appen海天瑞声Appen海天瑞声Appen
中文1351267,9821,06073,1633,6968KHz/16KHz/22.05KHz/44.1KHz/48KHz8KHz/16KHz
英语1141335,0342,06735,77411,6988KHz/16KHz/44.1KHz/48KHz8KHz/16KHz/48KHz

海天瑞声数据:截至2020年9月30日;Appen数据:截至2020年12月公司官网及公开披露信息

8-1-25

法语17103,5267043,4549,8508KHz/16KHz/44.1KHz/48KHz8KHz/16KHz
西班牙语3158,9236646,1771,3318KHz/16KHz/44.1KHz/48KHz8KHz/16KHz/22KHz
葡萄牙语1032,192951,9245028KHz/16KHz/44.1KHz/48KHz8KHz/16KHz
阿拉伯语391,0421,0835823,27116KHz/44.1KHz8KHz/16KHz
印地语624,2542563,5972,9168KHz/16KHz/44.1KHz8KHz
俄语1042,2872942,0883,4158KHz/16KHz/44.1KHz8KHz/16KHz
德语1172,2934572,0926,5928KHz/16KHz/44.1KHz/48KHz8KHz/16KHz
日语2325,852907,8127448KHz/16KHz/44.1KHz/48KHz16KHz
韩语1913,814206,2641008KHz/16KHz/44.1KHz/48KHz16KHz
意大利语871,9605091,8635,2608KHz/16KHz/44.1KHz/48KHz8KHz/22KHz/48KHz

注:采样率指单位时间内对信号的采样频率。通常情况下对于声音信号来讲,采样率越高,其还原度越高。

典型产品类型层面,语音合成5类语言数据库的技术指标对比如下:

对比分类现有库数量(个)总时长(小时)采样率
海天瑞声Appen海天瑞声Appen海天瑞声Appen
英国英语3234.8218.0044.1KHz96KHz
美国英语6089.45-44.1KHz /48KHz-
西班牙西班牙语1110.441.0048KHz22KHz
墨西哥西班牙语1039.97-44.1KHz-
意大利语2119.603.0044.1KHz22KHz

8-1-26

在典型细分产品层面,选取了发行人与Appen均具有代表性的语音识别数据、语音合成数据库进行技术指标对比,具体情况如下:

1,000小时男女混美语语音识别数据库:

技术指标海天瑞声Appen
采样率16KHz16KHz
母语发音人比例100%97%
年龄覆盖系数3.283.06
性别平衡度1.171.27
文本标注正确率98%98%
发音标注正确率98%96%
时标正确率99%80%

注:采样率指单位时间内对信号的采样频率,通常情况下对于声音信号来讲,采样率越高,其还原度越高;年龄覆盖系数是指数据库设计的最高年龄与最低年龄的比,覆盖系数越高,其能够体现的年龄覆盖范围越广;性别平衡度是指数据库设计的男女发音比例,平衡度越趋近于1,数据库性别平衡越好;文本标注、发音标注、时标等正确率均体现数据加工的准确性,比例越高,数据质量越高。

10小时英国英语语音合成数据库:

技术指标海天瑞声Appen
采样率44.1KHz96KHz
文本标注等级音素级句子级
标注类型韵律、词性、音素边界词性、音素边界
韵律标注准确率95%
词性标准准确率98%80%-90%
音素边界标注准确率99%70%-80%

注:文本标注等级分为音素级、字词级、句子级,越接近音素级,标注难度越高,数据质量越高;标注类型及各项标注类型的准确率均体现数据加工的全面性和准确性,类型越多、比例越高,数据质量越高

由以上对比可以看出,发行人在智能语音训练数据研发核心技术发明专利数量、拥有自主知识产权的智能语音训练数据产品数量和规模、智能语音产品服务内容的全面性和专业性、智能语音主流语种成品训练数据集的核心指标、智能语音产品详细参数指标等方面普遍领先于Appen,其智能语音训练数据产品及服务具备技术先进性,能够有效地实现进口替代。

8-1-27

4、发行人已经在业务实践中受到行业高度认可

发行人作为我国最早进入基础数据服务行业的企业之一,多年的业务实践中提供的智能语音训练数据产品及服务已覆盖多个语种/方言和多项应用场景,赢得了阿里巴巴、腾讯、百度、微软、三星、亚马逊、科大讯飞、字节跳动、中国科学院、清华大学等众多大型优质客户的认可。同时,公司先后获得国家重点软件企业、国家高新技术企业等资质,成为中国人工智能产业发展联盟理事单位、中国语音产业联盟理事会员单位、中关村高新技术企业协会理事单位,并荣膺多项国内外人工智能领域奖项和荣誉称号。同时,根据由中国信息通信研究院组织、共计5名中国工程院院士、中国科学院等科研机构正高研究员及教授、行业资深人士等行业专家出具的专家意见:

“与国际主要竞争对手相比,海天瑞声在主营业务覆盖广度、核心技术发明专利数量、拥有自主知识产权的训练数据产品数量和规模、主流语种语音类成品训练数据集的核心指标对比、语音类产品服务内容的全面性和专业性等方面已经具备领先优势。同时,海天瑞声在整体技术实力、应用领域覆盖能力等方面已与国际主要竞争对手保持同步领先水平。

在国际产业竞争日趋激烈的大环境下,海天瑞声依托其100%自主研发的国产化技术体系、生产体系,实现了同类产品服务的进口替代,其产出的大规模、高质量的训练数据资源集群对带动我国人工智能训练数据建设与发展起到了引领作用,对加快构建我国人工智能产业发展体系、完成人工智能在国家战略层面的系统布局起到了积极的推动作用,具备广阔的市场应用前景。”

(三)发行人主要产品/服务的进口替代效果及前景

1、人工智能基础数据服务保持了较高国产化率,发行人市场份额排名领先

以海天瑞声为代表的国内人工智能基础数据服务厂商在国内人工智能产业发展过程中通过经营积累和本地化服务,成功替代国外厂商成为全球科技巨头在中国的分支研究机构的基础数据服务供应商,同时形成并保持了国产优势,持续服务国内客户,使得该行业始终具有较高的国产化率,具体情况请参见前述“(二)发行人主要产品/服务的进口替代依据和技术先进性情况/2、发行人通过核心技术优势和经营成果,实现了基

8-1-28

础数据服务行业的国产优势,有效的降低进口依赖和发展产业的独立自主,实现了进口替代的目的”的相关回复内容。发行人是中国基础数据服务行业的头部企业。根据艾瑞咨询发布的《2020年中国AI基础数据服务行业研究报告》,2019年发行人在我国基础数据服务行业的市场份额为8%,位居行业第二,在我国语音类基础数据服务行业的市场份额位居行业第一。因此,发行人在基础数据服务行业已经实现了较为明显的进口替代效果。同时,发行人在基础数据服务领域所具备的技术水平已经具备了与国外厂商进行直接竞争的实力。从可提供的训练数据类型上看,发行人可提供包含智能语音、计算机视觉、自然语言在内的三个主流人工智能领域的综合解决方案;从客户覆盖程度上看,全球领先的大型科技公司、人工智能企业等多为发行人的客户;从已实现的市场布局看,报告期内,发行人在境外市场实现的主营业务收入占比为38.77%,实现了基础数据服务的出口输出。综上所述,发行人凭借自身实力,在持续实现国产化和进口替代的同时,兼具境外市场的开拓,有助于进一步增强品牌声誉、迭代技术能力、扩大经营规模,提高国产训练数据的全球竞争力。

2、人工智能基础数据服务在未来仍具备广阔的应用前景,发行人具有持续增长的能力,并将持续满足进口替代需求未来,成熟算法模型的拓展性需求和新生算法模型的前瞻性需求将是人工智能基础数据服务的主要需求方向。在成熟的拓展性需求方面,深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求。为充分发挥技术潜能,深度学习模型需要海量且涵盖语音在内等多种类型的训练数据进行模型训练。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,算法模型所使用的训练数据亦需要定期更新。具体而言,约1/3的算法模型每月至少更新一次,约1/4的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。而在新生的前瞻性需求方面,随着人工智能商业化进程的演进,新兴应用场景如智联网AIoT、AI PaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进AI技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。

8-1-29

同时,随着人工智能的广泛应用,训练数据的数量多寡和质量高低将会直接影响到人工智能产业链内企业的研发周期、产品性能和可扩展性。因此,数据成本将成为人工智能产业发展、数字化经济时代最重要的成本。从事训练数据开发的企业需要通过各方面的技术研发,实现效率质量的提升和成本的降低,从而促进训练数据的规模化应用,进而支持人工智能产业发展。而国产化和进口替代则有利于国内人工智能产业降低其数据成本。

发行人作为中国语音类基础数据服务领域的头部企业,凭借丰富的技术积累和行业经验,构建了高质量的智能语音训练数据,并赢得了阿里巴巴、腾讯、百度、字节跳动、科大讯飞、中国科学院、清华大学等众多国内大型优质客户的广泛认可,同时发行人持续培养研发团队并进行研发投入,2020年研发和技术人员占比约69%,2020年研发投入占比达18%,2020年人均营业收入和人均净利润分别达到了160万元和56万元,具备显著的技术规模效应,在未来的市场竞争中具备了明显的竞争优势,能够持续满足基础数据服务行业的进口替代需求。同时,随着人工智能行业的进一步发展、训练数据需求的丰富、以及新冠疫情影响的逐渐消退,发行人2021年一季度的营业收入预计超过4,400万元,同比增长超过40%,预计实现扣除非经常性损益后的归属于母公司股东的净利润1,370万元至1,450万元,预计增长20.62%至27.66%,体现了持续增长和持续盈利的能力。

三、结论

综上所述,发行人属于新一代信息技术行业领域,符合科创板行业定位要求;发行人2017-2019年累计研发投入占比及营业收入复合增长率和形成主营业务收入的发明专利数量,符合科创属性评价标准一;发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键产品,发行人通过核心技术优势和经营成果,实现了基础数据服务行业的国产优势,有效的降低进口依赖和发展产业的独立自主,实现了进口替代的目的,符合科创属性评价标准二(四)的要求;因此,发行人具备科创属性。中介机构核查意见

一、核查程序

保荐机构执行了下述核查程序:

8-1-30

1、查阅国家统计局《战略性新兴产业分类(2018)》,结合发行人主营业务情况,核对其所处行业、细分领域,核查其与《科创属性评价指引(试行)》《科创板企业发行上市申报及推荐暂行规定》中行业领域的匹配情况。

2、访谈了发行人主要管理人员,了解核心技术的形成、储备和使用情况;通过公开渠道查询了同行业可比公司的核心技术储备及应用情况、产品服务情况;

3、取得国家机关、主管部门出具的产业政策、认定文件,公开查询行业报告,对发行人所在的行业专家、主要客户进行访谈,了解发行人实现进口替代的产品/服务情况、替代效果、市场空间、发行人的核心技术优势、核心竞争力情况。

二、核查结论

经核查,保荐机构认为:发行人符合科创板行业定位要求、符合科创属性评价标准一及二(四)的要求,发行人具备科创属性。

8-1-31

(本页无正文,为《关于北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市的发行注册环节反馈意见落实函的回复》之签章页)

发行人董事长(签名):

贺 琳

北京海天瑞声科技股份有限公司年 月 日

8-1-32

发行人董事长声明

本人已认真阅读北京海天瑞声科技股份有限公司本次发行注册环节反馈意见落实函回复的全部内容,确认发行注册环节反馈意见落实函回复中不存在虚假记载、误导性陈述或重大遗漏,并对其真实性、准确性、完整性、及时性承担相应法律责任。

发行人董事长(签名):

贺 琳

北京海天瑞声科技股份有限公司年 月 日

8-1-33

(本页无正文,为《关于北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市的发行注册环节反馈意见落实函的回复》之签章页)

保荐代表人:

张 鹏 葛 青

华泰联合证券有限责任公司年 月 日

8-1-34

保荐机构总经理声明

本人已认真阅读北京海天瑞声科技股份有限公司本次发行注册环节反馈意见落实函回复的全部内容,了解发行注册环节反馈意见落实函回复涉及问题的核查过程、本公司的内核和风险控制流程,确认本公司按照勤勉尽责原则履行核查程序,本回复中不存在虚假记载、误导性陈述或重大遗漏,并对其真实性、准确性、完整性、及时性承担相应法律责任。

保荐机构总经理(签名):

马 骁

华泰联合证券有限责任公司

年 月 日


  附件:公告原文
返回页顶