?
????????、???????
俆?????????、??к??
???????侸????????
??????????
???????????????????128?????????B7?401?
??????、??????? ??к????????????
8-1-1
?
??????????к???????
???2021?2?25????????????侸????????л??????ā???????????????????л???????ā??????ā?????????、?????????л???????ā?????ā????ā?俆?????????、??к????????????????????????????????????л???????ā????????傜???????????????????л????傜????ā?????????????????????????????仈?亩?????????о?????亩????????????????????1??????????????????????о???????、???????俆?????????、??к?????????は????л????????ā?а????????????????????????????
????
?????
2????????????о????н??????????????
3??????????????????ъ????亴??????????????仍???????а???????????????????к??????????????????????????????????▌????????????????????????????о?????????????на??
??????、??????? ?????????侸????????
8-1-2
?
??
?仈1 ...... 3
?仈2 ...... 17
8-1-3
问题1
1、申请材料显示,新收入准则实施以前,发行人训练数据定制服务业务根据合同类型分为一次性确认收入及完工百分比确认收入两种方式。新收入准则实施后,发行人将每单元定制化训练数据识别为单项履约义务,按照时点确认收入。请发行人:(1)补充披露发行人交付产品至客户验收的平均时长,客户验收的主要内容,是否存在通过验收时点调节收入确认时点的情形;(2)补充披露发行人如何确定与客户签订的合同类型;(3)补充披露实施新收入准则后,上述三种类型合同的收入确认时点及方式是否存在差异;(4)举例说明发行人提供的定制服务的主要内容,结合服务内容补充披露发行人将可以将服务内容划分为单元定制化训练数据的可行性,以及识别为单项履约义务的依据;(5)补充披露发行人关于确定合同类型、识别单项履约义务等收入确认相关内控措施是否健全并有效执行;(6)补充披露核心技术产品收入占营业收入比例。请保荐机构和会计师核查并发表明确意见,说明对报告期主要股东现金分红款用途的核查情况。答复:
(1)补充披露发行人交付产品至客户验收的平均时长,客户验收的主要内容,是否存在通过验收时点调节收入确认时点的情形
一、发行人交付产品至客户验收的平均时长
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/九、经营成果分析/(一)营业收入分析/8、验收周期分析”中进行了补充披露:
报告期内,发行人交付训练数据定制服务和训练数据产品至客户验收的平均时长(以下简称“验收周期”)情况如下:
单位:天
项目 | 2020年1-9月 | 2019年度 | 2018年度 | 2017年度 |
验收周期 | 45 | 45 | 49 | 32 |
报告期内,发行人验收周期分别为32天、49天、45天和45天。其中,2018年验收周期较长,一方面是由于个别重要客户验收方式变更,由客户项目组直接验收,改为客户项目组验收后提交客户内部平台,由其采购部门评价后,再由其财务部门审核,完成验收。该变更造成该个别重要客户验收周期加长,同时该客户在2018年的
8-1-4
项目数量和收入金额均较大,拉长了发行人2018年总体的验收周期;另一方面是由于部分客户同期项目较多或项目规模较大,导致验收周期较长。扣除2018年特殊原因的影响后,报告期内发行人验收周期呈现逐年增长趋势,体现了发行人客户更高的数据质量要求及数据定制化程度对验收周期的影响,具备合理性。
二、客户验收的主要内容
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/4、各类业务的具体交付物及交付方式,各类型收入确认取得的具体验收确认凭据”中进行了补充披露:
项目完成或阶段性工作完成后,发行人项目负责人将服务或产品交付客户,并向客户项目负责人邮件发送验收申请,验收申请附有项目验收报告,列明项目/产品名称及编号、服务/产品内容、本次验收的数据量等具体待验收信息。客户会按照合同约定的技术要求和验收标准对交付的数据进行验收,完成验收后,正式邮件回复确认服务或产品已交付,验收内容无误。
三、是否存在通过验收时点调节收入确认时点的情形
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/九、经营成果分析/(一)营业收入分析/8、验收周期分析”中进行了补充披露:
报告期内,发行人验收周期较为稳定。同时,各年第四季度发行人验收周期情况如下:
单位:天
验收周期 | 2019年度 | 2018年度 | 2017年度 |
第四季度 | 44 | 51 | 37 |
全年 | 45 | 49 | 32 |
由上表可以看出,各年第四季度验收周期与全年水平基本一致,各年末不存在验收周期异常的情形。
由于发行人交付的训练数据定制服务或训练数据产品具有一定程度的差异化,因此会存在部分项目的验收周期偏短或偏长的情形,属于正常情况。
对于在各年第四季度客户验收完成,且验收周期短于10天的项目,其收入情况及原因如下:
8-1-5
单位:万元
项目 | 2019年度 | 2018年度 | 2017年度 |
营业收入金额 | 1,317.48 | 1,111.04 | 747.73 |
营业收入占比 | 5.55% | 5.77% | 6.28% |
验收周期偏短的原因 | 1、项目数据量较小;2、项目执行过程中与客户持续保持需求沟通,使得客户提前熟悉数据情况。 |
对于交付和客户验收处于不同年度,且验收周期长于90天的项目,其收入情况及原因如下:
单位:万元
项目 | 2020年1-9月 | 2019年度 | 2018年度 | 2017年度 |
营业收入金额 | 238.83 | 736.55 | 711.10 | 49.01 |
营业收入占比 | 1.67% | 3.10% | 3.69% | 0.41% |
验收周期偏长的原因 | 1、项目数据量较大或难度较高;2、客户内部验收流程较慢。 |
上述项目验收周期偏短或偏长是由于项目或客户的特性所致,原因具备合理性,且营业收入占比较低,并非普遍存在的情形。
综上所述,发行人不存在通过验收时点调节收入确认时点的情形。
(2)补充披露发行人如何确定与客户签订的合同类型
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/3、不同交付和验收方式下训练数据定制服务取得的验收确认凭据和收入确认时点,完工进度和收入金额的确定方法以及对应定制服务成本的结转方法”中进行了补充披露:
发行人根据主要合同条款约定来确定与客户签订的合同类型。
对于中小型的或交付难度较低的合同或订单,客户通常会在合同或订单中与发行人约定一次性交付定制化训练数据,并一次性进行验收。合同或订单条款通常表述为“发行人应在合同签订之日起特定时间内向客户一次性交付全部数据,客户自交付之日起在特定时间内进行验收”。因此在这种情况下,发行人与客户签订的合同类型即为“一次交付,一次验收”。
对于交付数据量较大的或交付难度较高的合同或订单,客户通常会在合同或订单中与发行人约定分批次提交定制化数据,并约定在收到分批次提交的定制化数据后分批进行验收。合同或订单条款通常表述为“发行人应在约定的多个日期向客户分别交
8-1-6
付各阶段或一定比例的数据,客户在发行人每次交付数据之日起在特定时间内进行验收”。因此在这种情况下,发行人与客户签订的合同类型即为“多次交付,多次验收”。
对于交付数据量较大的或交付难度较高的合同或订单,部分大型客户会考虑到数据体量较大,质检验收耗费时间较长,虽然也会要求发行人分批提交定制化数据,但会在合同或订单中明确约定在收到全部数据后进行一次性验收。合同或订单条款通常表述为“发行人应在约定的多个日期向客户分别交付各阶段或一定比例的数据,客户自发行人交付全部数据之日起在特定时间内进行验收”。因此在这种情况下,发行人与客户签订的合同类型即为“多次交付,一次验收”。
(3)补充披露实施新收入准则后,上述三种类型合同的收入确认时点及方式是否存在差异
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/3、不同交付和验收方式下训练数据定制服务取得的验收确认凭据和收入确认时点,完工进度和收入金额的确定方法以及对应定制服务成本的结转方法”中进行了补充披露:
发行人实施新收入准则后,对于训练数据定制服务,发行人将每单元定制化训练数据识别为某一时点履行的单项履约义务,并评估认为在将定制化训练数据向客户交付并经客户验收确认的时点,客户已取得相关商品的控制权,并满足收入确认的条件。根据上述新收入准则下的收入确认会计政策,发行人对于上述三种类型合同的收入确认时点及方式具体分析如下:
对于“一次交付,一次验收”和“多次交付,一次验收”的合同,不论发行人是一次交付还是多次交付训练数据,客户均是在发行人交付完成全部合同约定的定制化训练数据后,对训练数据进行一次性验收。根据发行人新收入准则下的收入确认会计政策,发行人只有在将数据向客户交付并经客户验收确认后,才满足收入确认的条件。因此虽然合同中的每单元定制化训练数据均为单项履约义务,但是在各单元训练数据已交付未验收的情况下,仍是不满足收入确认的条件的。因此对于该两类合同,收入确认的具体时点为合同约定的定制化训练数据全部交付且客户全部验收确认的时点,收入确认金额为合同约定的总交易金额。
8-1-7
对于“多次交付,多次验收”的合同,发行人分次交付训练数据后,客户会进行分次验收。且交付和验收的每批数据均由多个单元定制化训练数据构成,可以识别为多个单项履约义务。根据发行人新收入准则下的收入确认会计政策,在每一次的发行人分次交付数据且经客户验收确认后,该批数据包含的多个单项履约义务即满足了收入确认的条件。因此对于该类合同,收入确认的具体时点为发行人分次提交数据且经客户验收确认的时点,收入确认金额为分摊至该次交付和验收数据的合同金额。综上所述,发行人在实施新收入准则后,三种类型合同均将每个单元定制化训练数据的提供作为单项履约义务,并属于某一时点履行的履约义务,按照时点法进行收入确认,在单项履约义务层面,三种合同的收入确认时点和方式并无差异;而在合同层面,对于“一次交付,一次验收”和“多次交付,一次验收”的合同,这两类合同的收入确认时点及方式相同,均在将合同约定的定制化数据全部交付客户且经客户验收确认的时点确认收入,且收入确认金额均为合同约定的总交易金额。对于“多次交付,多次验收”的合同,在将分次提交的数据交付客户并经客户验收确认的时点确认收入,且收入确认金额为分摊至该次交付和验收数据的合同金额,因此收入确认时点及方式与上述两类合同存在差异。
(4)举例说明发行人提供的定制服务的主要内容,结合服务内容补充披露发行人将可以将服务内容划分为单元定制化训练数据的可行性,以及识别为单项履约义务的依据
一、举例说明发行人提供的定制服务的主要内容
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/2、新收入准则/(2)收入确认的具体方法/
①训练数据定制服务收入”中进行了补充披露:
发行人提供训练数据定制服务包括三种业务类型,即智能语音、计算机视觉和自然语言。三种业务类型下训练数据定制服务均以软件化的训练数据集为交付物,训练数据集主要由数据文档、说明文档、技术文档三部分构成。不同业务类型下的具体交付物分别为:(1)智能语音业务的交付物一般包括音频文件、标注文本文件和说明及技术文档;(2)计算机视觉业务的交付物一般包括图像和视频等数据文件、标注文件和说明及技术文档;(3)自然语言业务的交付物一般包括对话文本等数据文件、
8-1-8
标注文本文件和说明及技术文档。
上述三种业务类型下的交付物内容一般都包含了数据文档(包含音频文件、图像和视频文件、自然语言对话文本文件等数据文件及标注文件)、说明文档及技术文档。数据文档是核心交付物,也是客户用来进行人工智能模型训练的文件。说明及技术文档一般作为附加文件同时提供给客户,作为数据文档相关标准、规范、使用的说明,不直接应用于客户的人工智能模型训练,客户不能单独受益。例如,对于发行人向客户提供的10小时中文方言语音识别采集的数据定制服务项目,发行人需要向客户交付的训练数据集包括10小时中文方言音频和其对应的标注文本。
二、结合服务内容补充披露发行人可以将服务内容划分为单元定制化训练数据的可行性
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/2、新收入准则/(2)收入确认的具体方法/
①训练数据定制服务收入”中进行了补充披露:
发行人提供训练数据定制服务的内容是向客户提供训练数据集,而训练数据集则由多个单元定制化训练数据组成。单元训练数据是指按不同数据形态呈现的每计量单位的训练数据,如1小时语音、1张图片等。以上述举例说明的10小时中文方言语音识别采集的数据定制服务项目来进行说明,发行人需要向客户交付的训练数据集包括10小时中文方言音频和其对应的标注文本,其中,每1小时的中文方言音频及其标注文本构成一个单元定制化训练数据。
发行人与客户签订的合同或订单中对于训练数据的数量、单位均会明确进行单独约定,使得单元定制化训练数据可以被清晰划分。发行人在实际执行训练数据的定制化服务的过程中,也是以单元定制化训练数据作为交付和验收的最小单位。发行人每次交付和验收的数据文档内包含多个单元训练数据,由于每个单元定制化训练数据相对独立,它们之间也不会产生相互影响和重大整合的关系,例如每1小时的中文方言音频或每1张图片之间均为独立的数据文件。因此客户也不会对分次交付和验收的训练数据进行指定,发行人可以以单元定制化训练数据为基础对定制服务进行分次交付、分次验收,客户也可以将其分别用于人工智能训练。
8-1-9
综上所述,发行人将定制化服务内容划分为单元定制化训练数据是具有可行性的。
三、识别为单项履约义务的依据
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/2、新收入准则/(2)收入确认的具体方法/
①训练数据定制服务收入”中进行了补充披露:
根据新收入准则的相关规定:履约义务,是指合同中企业向客户转让可明确区分商品的承诺。企业向客户承诺的商品同时满足下列条件的,应当作为可明确区分商品:
(一)客户能够从该商品本身或从该商品与其他易于获得资源一起使用中受益。(二)企业向客户转让该商品的承诺与合同中其他承诺可单独区分。下列情形通常表明企业向客户转让该商品的承诺与合同中其他承诺不可单独区分:1、企业需提供重大的服务以将该商品与合同中承诺的其他商品整合成合同约定的组合产出转让给客户。2、该商品将对合同中承诺的其他商品予以重大修改或定制。3、该商品与合同中承诺的其他商品具有高度关联性。
根据前述对训练数据定制服务内容的阐释,并结合上述新收入准则的规定,发行人将每单元定制化训练数据识别为单项履约义务的具体依据如下:
1、交付和验收的单元定制化训练数据包含了核心的交付文件,即数据文档,因此客户可以将交付和验收后的每一单元定制化训练数据用于训练人工智能模型,并能够从该单元训练数据的使用中受益;
2、发行人转让每一单元定制化训练数据的承诺在合同中可以明确区分,主要是因为(1)在转让每一单元定制化训练数据之前,发行人无须提供重大服务以对单元定制化训练数据之间进行整合。以智能语音业务为例,在语料文本的设计阶段之后,采集、加工和质检的环节均可以以单元定制化训练数据为基础进行,并以单元定制化训练数据为基础进行数据交付,不论是对于同一发音人采集的不同文本的数据,还是对于不同发音人采集的同一文本的数据,发行人无须再提供重大服务,对生产后的不同数据之间进行重大整合;(2)发行人转让的每一单元定制化训练数据不会影响其他单元定制化训练数据或对其他单元定制化训练数据做出重大修改。例如发行人在录制其他文本/发音人的内容时,不会对已录制完成的内容进行重大修改;(3)不同的单元定制化训练数据之间不存在高度关联性,发行人可以对不同的单元定制化训练数
8-1-10
据分批提交,客户可以分批验收,而且分批提交已验收完成的数据可以用于客户的模型训练。
综合上述分析,发行人向客户提交的训练数据集包含多个独立的、可明确区分的单元定制化训练数据,即按不同数据形态(音频、视频、图片、文本等)呈现的每计量单位(小时及句或字词、图片张数等)的训练数据(包括数据文件及标注文件),发行人根据新收入准则的规定将每单元定制化训练数据识别为单项履约义务的依据充分。
(5)补充披露发行人关于确定合同类型、识别单项履约义务等收入确认相关内控措施是否健全并有效执行
以下内容已在招股说明书“第八节 财务会计信息与管理层分析/四、报告期内主要采用的会计政策和会计估计/(十七)收入/5、发行人关于确定合同类型、识别单项履约义务等收入确认相关的内部控制措施情况”中进行了补充披露:
发行人关于确定合同类型、识别单项履约义务等收入确认相关的内控措施具体如下:
1、合同签订环节
发行人的客户会根据自身训练数据服务需求向发行人发起服务采购邀请,经双方商务谈判协商一致后,签订销售合同或订单。销售合同或订单中会详细列示要求发行人提供的定制化训练数据内容、数据量和价格,并对定制化训练数据交付和验收的方式、验收的标准和要求做出明确的规定。合同或订单条款中的交付和验收的方式中会对一次交付或者分次交付,以及一次验收或者分次验收进行具体规定。
发行人的销售合同需要经销售分管负责人、业务部门负责人、财务部、法务人员、总经理逐级审批。重要合同须经总经理办公会审议。
2、项目立项环节
在合同或订单签订后,发行人对训练数据定制服务采用项目制管理,并在业务管理平台上对训练数据定制服务进行项目进度跟踪管理,记录各项目的交付和验收的进展情况,实现对项目的有效监控。
在项目立项阶段,由执行项目的项目负责人在业务管理平台中填写项目信息,除
8-1-11
项目组成员、工作内容、实施方案、项目预算等项目计划内容外,还主要包括用于确定合同类型、识别单项履约义务相关的关键信息,如项目合同编号、项目交付物、合同或订单约定的单元定制化训练数据单位及数据量、项目金额、项目周期要求等,并由部门经理、业务总监、财务审核岗依次审核后,项目立项成功。立项过程中,项目负责人会在业务管理平台上传签订的合同或订单作为支持性依据。
3、服务交付环节
在项目执行过程中,项目负责人按照与客户的约定,将定制化训练数据进行分次交付或者全部一次交付,交付方式主要为以FTP传输方式交付。项目负责人会在每次交付数据后,同时以邮件的形式通知客户具体交付情况,并会在业务管理平台中登记本次交付时间,并上传交付通知邮件作为交付依据。
4、服务验收环节
对于发行人已经交付的定制化训练数据,项目负责人根据与客户约定的一次验收或者多次验收的时点,向客户发送验收申请的邮件。验收申请附有项目验收报告,列明项目/产品名称及编号、服务/产品内容、本次验收的数据量等具体待验收信息,其中验收数据量是按照单元定制化训练数据为单位进行计算。客户完成验收后,正式邮件回复确认服务已交付,验收内容无误。在客户对产品及服务进行验收确认后,项目负责人在业务管理平台中填写项目验收具体信息,包括验收数据量、验收时间和验收金额等,其中验收数据量是按照单元定制化训练数据为单位进行计算,并需与合同或订单要求的单位一致。同时项目负责人也会将客户的验收确认邮件作为验收依据上传至业务管理平台。
业务部门负责人、财务部相关人员审核业务管理平台记载的验收信息的准确性和完整性,并检查验收信息与上传的验收依据是否一致。
5、财务审核
财务人员每季度末从业务管理平台导出训练数据定制服务项目的明细,对于系统中状态为执行中的项目,财务人员与业务人员逐一确认项目进度,并与业务管理平台中留存的合同与订单、交付依据、验收依据等支持性依据进行核对,检查是否存在交付与验收进度与支持性依据不符的情形。
8-1-12
综上所述,发行人关于确定合同类型、识别单项履约义务等收入确认相关的内控措施建立健全并有效执行。
(6)补充披露核心技术产品收入占营业收入比例
以下内容已在招股说明书“第六节 业务与技术/六、发行人的研发和技术/(二)报告期内主要依靠核心技术开展生产经营的情况”中进行了补充披露:
发行人的核心技术广泛应用于产品/服务的各开发环节中,报告期实现的营业收入基本均为发行人依靠其核心技术开展经营所产生的收入。报告期内,发行人核心技术产品收入占营业收入的比例如下:
单位:万元
项目 | 2020年1-9月 | 2019年度 | 2018年度 | 2017年度 |
核心技术产品收入 | 11,907.09 | 19,246.54 | 23,733.16 | 14,268.42 |
营业收入 | 11,907.09 | 19,265.77 | 23,755.81 | 14,277.35 |
核心技术产品收入占营业收入的比例 | 100.00% | 99.90% | 99.90% | 99.94% |
中介机构核查事项
保荐机构、申报会计师执行的主要程序如下:
1、获取发行人计算交付产品至客户验收的平均时长的过程明细,选取项目检查上述明细所采用的产品交付时点与发行人交付产品记录是否一致,选取项目检查上述明细所采用的客户验收时点与验收报告是否一致;对于报告期内交付产品和客户验收的平均时长进行分析,对于异常项目了解差异原因,分析其合理性;
2、询问相关人员了解发行人的不同类型收入下客户验收的主要内容,选取样本检查其客户的验收内容;
3、询问相关人员了解发行人不同类型收入确认的具体验收确认凭据。并针对不同的收入确认类型,选取样本检查其验收确认凭据,以评价相关收入是否按照发行人的收入确认政策予以确认,核查是否存在通过验收时点调节收入确认时点的情形;
4、访谈公司相关业务人员,并抽取检查数据定制服务合同,了解发行人与客户签订的不同合同类型及其商业合理性,分析是否存在异常;
5、抽取检查三种类型的训练数据定制服务合同,通过查看合同条款规定,并与业
8-1-13
务人员进行访谈,分析发行人评估确认的新收入准则下的收入确认时点及方式是否符合企业会计准则的规定;
6、通过访谈公司相关业务人员了解数据定制服务的主要内容,并结合服务内容和企业会计准则的规定,确认发行人披露的可以将服务内容划分为单元定制化训练数据的可行性,以及识别为单项履约义务的依据是否充分合理。
7、了解并评价与确定合同类型、识别单项履约义务等收入确认相关内部控制的设计和运行有效性;
8、了解发行人统计核心技术产品收入的方法,并评价其合理性,同时检查发行人披露的核心技术产品收入占营业收入比例是否计算正确。
经核查,保荐机构、申报会计师认为:
1、发行人披露的交付产品至客户验收的平均时长符合发行人的实际情况,客户验收的主要内容与实际经营情况相符,发行人不存在通过验收时点调节收入确认时点的情形;
2、发行人确定与客户签订的合同类型的方式与实际情况相符;
3、发行人在实施新收入准则后,在单项履约义务层面,三种类型合同的收入确认时点和方式并无差异,而在合同层面,“一次交付,一次验收”和“多次交付,一次验收”的合同收入确认时点及方式一致,“多次交付,多次验收”的合同收入确认时点与其他两种类型的合同存在差异,但差异原因合理,符合企业会计准则的相关规定;
4、发行人将服务内容划分为单元定制化训练数据具有可行性,且将单元定制化训练数据识别为单项履约义务的原因合理,依据充分,符合企业会计准则的相关规定;
5、发行人关于确定合同类型、识别单项履约义务等收入确认相关内控措施健全并有效执行;
6、发行人报告期实现的营业收入主要为发行人依靠其核心技术开展经营所产生的收入,核心技术产品收入占营业收入比例计算合理。
中介机构说明事项
8-1-14
请保荐机构和会计师核查并发表明确意见,说明对报告期主要股东现金分红款用途的核查情况
经核查,发行人报告期内进行了2次现金分红,具体情况如下:
一、2017年定向分红1,500万元情况及对应现金分红款项用途
2017年7月13日,海天瑞声有限召开2017年第3次临时股东会决议,公司全体10名股东参会并一致通过决议:对公司截至2017年6月30日的可供分配利润中的人民币1,500万元按照该公司2015年11月30日的股东出资比例进行分配,其中向贺琳分配人民币1,200万元,向唐涤飞分配人民币300万元。
经核查,上述分红主要系为冲抵由于账务调整原因导致贺琳、唐涤飞对公司的欠款,具体背景为:2015年11月30日,海天瑞声有限股东会作出决议,以截至2015年12月31日可供分配的利润分别向贺琳、唐涤飞分红800万元、200万元。由于海天瑞声有限后来考虑到股份支付事项对财务报表的影响重新调整账务,调整后海天瑞声有限截至2015年12月31日无可供分配利润,上述已经向股东分配的利润(贺琳800万元、唐涤飞200万元)按股东借款处理,并按照同期银行贷款利率计提相应利息。
经核查,2017年度定向分红情况及现金分红款用途情况如下:
股东姓名 | 现金分红金额 (万元) | 冲抵股东借款本金金额 (万元) | 就超出2015年分红部分金额缴纳的个人所得税金额 (万元) | 实际获得现金分红金额 (万元) | 实际获得分红款项的主要用途 |
贺琳 | 1,200 | 800 | 80 | 320 | 向发行人支付股东借款利息、对外借款 |
唐涤飞 | 300 | 200 | 20 | 80 | 购买理财产品 |
二、2019年半年度分红2,200万元情况及对应分红款项用途
(一)2019年半年度分红2,200万元情况
2019年11月5日,发行人召开2019年第五次临时股东大会,全体股东一致同意审议通过《关于利润分配方案的议案》,同意基于2019年6月30日累计未分配利润进行分红,分配总额为2,200万元,各股东按持股比例进行分配。发行人主要股东中贺琳获得分红款635.78万元,唐涤飞获得262.39万元,员工持股平台中瑞安获得分红款363.30万元,员工持股平台中瑞立获得分红款137.25万元。发行人本次现金分红的情况如下:
序号 | 股东姓名或名称 | 股权比例(%) | 分红金额(万元) |
8-1-15
1 | 贺琳 | 28.90 | 635.78 |
2 | 中瑞安 | 16.51 | 363.30 |
3 | 清德投资 | 12.67 | 278.73 |
4 | 唐涤飞 | 11.93 | 262.39 |
5 | 上海丰琬 | 9.36 | 205.90 |
6 | 上海兴富 | 6.59 | 144.88 |
7 | 中瑞立 | 6.24 | 137.25 |
8 | 天津金星 | 3.12 | 68.62 |
9 | 杭州银杏数 | 2.65 | 58.30 |
10 | 杭州士兰 | 2.04 | 44.84 |
合计 | 100 | 2,200.00 |
中瑞安、中瑞立取得上述分红后向合伙人进行分配,具体情况如下:
合伙人姓名或名称 | 出资比例(%) | 分红金额 (万元) | 对应 股东姓名 | 出资比例 | 分红金额 (万元) | |
中瑞安分红情况 | 创世联合 | 36.67 | 133.21 | 贺琳 | 100.00% | 100.10 |
李科 | 30.56 | 111.01 | - | |||
郝玉峰 | 19.44 | 70.64 | ||||
吕思遥 | 8.33 | 30.28 | ||||
张蕊 | 5.00 | 18.17 | ||||
合计 | 100.00% | 363.30 | ||||
中瑞立分红情况 | 创慧科瑞 | 29.41 | 40.37 | 唐涤飞 | 50.00% | - |
志鹏 | 50.00% | - | ||||
黄大伟 | 16.18 | 22.20 | - | |||
宋琼 | 13.24 | 18.17 | ||||
廖晓玲 | 13.24 | 18.17 | ||||
陈琪 | 13.24 | 18.17 | ||||
贺琳 | 5.88 | 8.07 | ||||
辛晓峰 | 4.41 | 6.06 | ||||
葛星彤 | 4.41 | 6.06 | ||||
合计 | 100.00 | 137.25 |
其中,中瑞安普通合伙人创世联合扣除其应相应缴纳的企业所得税后,于2020年1月17日向其唯一股东贺琳进行现金分红100.10万元。中瑞立普通合伙人创慧科瑞未就其收到的分红款向其股东分红。
(二)除外部机构投资者外,主要股东贺琳、唐涤飞及员工持股平台中瑞安、中
8-1-16
瑞立最终持有人获得现金分红款的用途情况
关于2019年半年度分红,经核查,除中瑞立普通合伙人创慧科瑞未就其收到的分红款向其股东分红外,主要股东贺琳、唐涤飞及中瑞安、中瑞立最终持有人获得现金分红款的用途如下:
身份 | 股东 姓名 | 分红金额 (万元) | 缴纳个人所得税 (万元) | 实际获得分红金额 (万元) | 实际获得分红款的主要用途 |
发行人股东 | 贺琳 | 743.95 | 148.79 | 595.16 | 对外借款、家庭内部往来及生活消费 |
中瑞立合伙人 | |||||
创世联合股东 | |||||
发行人股东 | 唐涤飞 | 262.39 | 52.48 | 209.91 | 对外借款、家庭内部往来 |
中瑞安合伙人 | 李科 | 111.01 | 22.20 | 88.81 | 购买理财产品 |
郝玉峰 | 70.64 | 14.13 | 56.51 | 偿还房屋贷款 | |
吕思遥 | 30.28 | 6.06 | 24.22 | 偿还房屋贷款 | |
张蕊 | 18.17 | 3.63 | 14.53 | 购买理财产品 | |
中瑞立合伙人 | 黄大伟 | 22.20 | 4.44 | 17.76 | 偿还借款 |
宋琼 | 18.17 | 3.63 | 14.53 | 偿还借款 | |
廖晓玲 | 18.17 | 3.63 | 14.53 | 购买理财产品 | |
陈琪 | 18.17 | 3.63 | 14.53 | 购买理财产品 | |
辛晓峰 | 6.06 | 1.21 | 4.84 | 购买理财产品 | |
葛星彤 | 6.06 | 1.21 | 4.84 | 购买房产 |
注:上表中贺琳、唐涤飞对外借款对手方为北京瑞意投资有限公司。经相关方确认,借款主要用于北京瑞意投资有限公司日常经营,且北京瑞意投资有限公司已还清上述款项。
经核查,报告期主要股东从发行人取得的分红资金,主要资金流向或用途不存在重大异常。
三、核查程序
保荐机构、发行人会计师执行了下述核查程序:
1、查阅发行人报告期内分红的股东会决议、股东大会决议及相关会议文件、分红款支付凭证、代扣代缴个人所得税凭证;
2、查阅中瑞安、中瑞立的合伙人会议决议、分红款支付凭证、代扣代缴个人所得税凭证;
3、查阅创世联合股东会决议、分红款支付凭证、代扣代缴个人所得税凭证、缴纳
8-1-17
企业所得税凭证;
4、查阅创慧科瑞财务报表及关于分红款使用情况的确认;
5、向报告期取得现金分红款的主要股东(贺琳、唐涤飞及报告期取得现金分红款的中瑞安、中瑞立最终持有人)了解分红款的用途,取得相关人员出具的确认资料;
6、查阅收到上述报告期取得现金分红款的自然人及其相关方的银行流水,通过核查交易对手方、资金用途、摘要等信息对收取分红款后的资金支出情况进行核查;
7、查阅分红款用途的相关证明文件:分红款用途为借款的,取得并查阅了签署的《借款协议》,了解借款背景,核查借款方的背景信息,并通过银行流水核查借还款及利息收取情况;分红款用途为偿还贷款的,取得并查阅了贷款协议或还款凭证;分红款用途为购买房产的,取得并查阅了《房屋买卖合同》、房款支付凭证以及不动产权证等资料;分红款用途为理财的,取得对应购买理财产品的验证资料等。
四、核查结论
经核查,报告期主要股东从发行人取得的分红资金,主要资金流向或用途不存在重大异常。
问题2
2、申请材料显示,发行人主要从事训练数据的研发设计、生产及销售业务,核心技术先进性主要体现在算法与数据并用、工具和平台共建、在语言语音学基础研究方面有深厚积累。发行人所在细分领域为人工智能基础数据服务领域,基础数据服务行业的业务环节分为为训练数据设计、采集、加工和质检。
请发行人用通俗易懂的语言具体说明自身核心技术在主要业务环节的应用情况、方式和效果;结合主营业务及同行业可比公司说明训练数据加工及处理、提供具体服务内容及方式等方面是否存在技术优势与核心竞争力;说明发行人在人工智能细分领域提供基础数据服务所产生的增值服务内容;结合上述分析说明发行人所处行业及细分领域是否符合科创板定位,科创属性行业分类是否准确。请保荐机构和律师核查并发表明确意见。
答复:
8-1-18
发行人说明事项
一、请发行人用通俗易懂的语言具体说明自身核心技术在主要业务环节的应用情况、方式和效果
发行人在基础研究、平台工具及训练数据生产3个层次共积累下12项核心技术,并将前述技术运用在训练数据生产环节之中。各项核心技术在发行人主要业务环节中的应用情况汇总如下:
3个核心技术层次 | 12项核心技术 | 核心技术项下的细分技术示例 | 核心技术在训练数据 生产中的应用环节 | |||
设计 | 采集 | 加工 | 质检 | |||
基础研究 | 语音识别算法 | 语音数据库质量预估技术 | √ | √ | √ | √ |
语音合成算法 | 语音合成数据库评估技术、说话人自适应语音合成技术、语音合成系统评测技术 | √ | ||||
计算机视觉算法 | 人脸检测和识别技术、物体识别技术、光学字符识别技术、场景分割技术、行人检测技术、运动轨迹跟踪技术 | √ | √ | |||
★语音语言学基础研究 | 基于词典与模型的发音预测技术 | √ | ||||
训练数据集设计技术 | N元语言模型训练与优化技术、文本正则化技术、基于语言模型的文本易读性评测技术 | √ | ||||
平台工具 | 一体化数据处理平台 | 基于C/S架构的大规模语音处理平台,基于C/S架构的音素标注技术,多语言分布式文本处理技术,基于C/S架构的文本词性标注、文本属性标注技术,基于C/S架构和B/S架构的图像标注技术,大规模数据采集及标注平台 | √ | √ | √ | √ |
训练数据生产 | ★多语种多模态训练数据设计技术 | 多语种语料清洗技术、多语种语音库设计技术、多语种音素均衡语料设计技术、混合语言语料设计技术、AudioBook自动切分与文本对齐技术 | √ | |||
多模态多通道数据采集技术 | 多通道录音技术、移动设备上的语音采集技术、分布式图片内容分析技术、移动设备上的图片采集技术、多语言手写体数据采集技术、多模态数据采集技术 | √ | ||||
★数据同步技术 | 音频对齐技术 | √ | ||||
实时采集质控技术 | 语音信号质量检测技术 | √ | √ | |||
★大数据驱动的高效数据处理技术 | 多语种拼写检查技术、视频流中特定帧定位技术、音素边界自动预测技术、基于语音特征的韵律预测技术、基于CRF的韵律预测技术、基于HMM/CRF的词性预测技术、基于SVM的文本分类技术、基于CRF的命名实体识别技术、基于前后向最大匹配的中文分词技术 | √ | ||||
★分布式高性能自动校验技术 | 音素标注正确率校验技术、相似说话人自动筛查技术、音字一致校对技术 | √ |
注:上述12项核心技术中,5项核心技术具备较高技术壁垒,在上表中以★表示。
12项核心技术在发行人主要业务环节中的具体应用情况、方式、效果具体如下:
8-1-19
核心技术1:语音识别算法语音识别(Automatic Speech Recognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。在语音识别算法领域,发行人拥有基于多种语音识别模型的多语言语音识别技术及相关深度学习技术,已掌握语音数据库质量预估技术等细分技术,取得了3项发明专利授权并正在申请1项发明专利。语音识别算法运用于设计、采集、加工、质检4个主要业务环节,主要应用在提升训练数据的生产效率和保障训练数据的质量上,应用情况、方式、效果具体如下:
(1)应用情况、方式
①设计环节应用——运用语音识别算法反向检验语音识别训练数据的训练效果、为训练数据设计生产提供指导:发行人用其生产完成的训练数据集,对自有的语音识别算法模型进行训练,测试检验训练数据集的最终训练效果。
②采集、加工及质检环节应用——执行自动化、程序化的数据加工、质检工作,可进行程序化操作,并与人工检查配合:发行人将运用语音识别算法集成在自主开发的数据采集、加工工具之中,一方面可在采集过程中及时校验采集数据情况,向被采集对象提供实时反馈,提高采集的效率和准确率;另一方面运用在语音数据加工环节中,如运用语音识别算法对智能语音数据进行预标注,与人工检查环节结合,提升单位时间加工语音数据的能力,提高生产效率和质量;也可通过语音识别算法对智能语音训练数据执行程序化质检,反向检验人工数据加工结果。
③其他应用——应用在语音识别训练数据训练效果的展示之中:发行人可将语音识别算法模型运用在训练数据的模拟训练和测试之中,如使用特定训练数据集中的部分数据对发行人的语音识别算法进行训练,后续将所需转换的语音输入到算法模型中,为客户直观展示该算法模型经训练后将语音转换为文字的能力、准确度情况,直观反映训练数据的模型训练、测试效果。例如,发行人运用不同语种的训练数据产品对同一语音识别算法模型进行了训练,通过算法模型训练直观展示发行人的训练数据产品具备较优的测试效果,各语种训练数据训练后的语音算法模型的字符错误率/词错误率
数据来源:发行人测试结果。字符错误率、词错误率为语音识别算法模型识别正确率的反向衡量指标,错误率越高则模型识别准确率越低、识别效果越差。
8-1-20
均低于5%。此外,发行人还运用语音识别算法技术为客户提供部分算法模型拓展服务,协助客户完成模型的拓展和优化。
(2)应用效果
①使得发行人可结合反向检验测试结果,分析不同结构的训练数据集的训练效果差异,进而在前端训练数据的结构开发、内容设计等环节中应用前述测试反馈和经验,调整训练数据集结构设计,从而生产出具备更佳训练效果的训练数据。
②实现自动化、程序化的数据加工、质检,提升单位时间加工、质检数据的能力、提高了生产效率和质量;并可在采集过程中及时校验采集数据情况,向被采集对象提供实时反馈,提高采集的效率和准确率。
③实现语音识别训练数据训练效果的直观展示,方便客户衡量训练数据质量水平,从而选购与其预期训练效果更为匹配的语音识别训练数据。
④协助下游客户完成算法模型的语言拓展、特定算法模块拓展、垂直领域应用拓展等,为客户定制针对特定行业和口音的专属算法模型。
核心技术2:语音合成算法
语音合成(Text to Speech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。在语音合成算法方面,发行人拥有参数合成技术、基于神经网络的端到端语音合成技术等细分技术,并运用语音合成技术,基于其生产的语音合成训练数据做了大量的算法模型训练、语音合成效果验证和测试,并通过持续的算法迭代和优化逐步提升语音合成算法技术的研究水平。发行人现已拥有语音合成的AI算法模型,在语音合成技术领域具备一定的技术积累,已取得2项发明专利授权,正在申请1项发明专利。
发行人将语音合成算法技术运用在质检环节,提升了生产效率,具体应用情况、方式、效果如下:
(1)应用情况、方式
①质检环节应用——检验语音合成训练数据的训练效果:发行人主要将算法模型用于检验语音合成训练数据的合成效果。具体而言,在其语音合成训练数据集生产完成中,发行人将使用该训练数据集对自己储备的语音合成算法模型进行训练,检验该
8-1-21
算法经训练后将文字转换为语音的合成效果。
②其他应用——直观展示训练数据的合成效果:发行人使用上述语音合成算法模型,基于不同的训练数据集进行了语音合成效果测试,为客户直观展示训练数据的合成样音,帮助客户选择合意的训练数据。
(2)应用效果
①检验训练数据质量、反哺指导训练数据生产:通过运用语音合成算法技术,发行人充分检验了语音识别训练数据的训练效果,并结合前述训练、测试结果和经验,反向调整训练数据的结构设计,完善采集、加工和质检环节设置,有针对性地提升训练数据质量。
②使得客户可以在实际开展算法模型训练和测试工作之前初步了解特定训练数据集的语音合成效果,从而选择风格、音色等更符合需求的训练数据,最终取得理想的语音合成效果。
核心技术3:计算机视觉算法
计算机视觉(Computer Vision,CV)是使机器具备“看”的功能的技术,它使得智能家居、手机、安防设备等机器、程序能够代替人眼对目标进行识别、跟踪和测量等。发行人积极在该领域积累算法技术能力,以更好地理解下游客户需求,相应生产、提供高质量的训练数据集,同时将计算机视觉算法技术嵌入到自主研发的一体化数据处理平台中,执行程序化数据加工,提升生产效率。在计算机视觉算法领域,发行人已取得4项发明专利授权,另有1项发明专利正在申请中。
发行人主要将计算机视觉算法技术运用在加工、质检环节,实现训练数据生产过程的降本增效,具体应用情况、方式、效果如下:
(1)应用情况、方式
加工、质检环节运用——嵌入到自主研发的分布式标注平台之中,运用计算机视觉算法程序执行加工和质检工作。
(2)应用效果
通过计算机视觉助力自动化、程序化训练数据加工,降低了人工加工工作量和成本,提升了数据加工的准确性。
8-1-22
以发行人的1,000人手机人像短视频训练数据集(King-AV-025)为例,该训练数据集是发行人针对手机短视频领域人像识别应用所开发的训练数据集,数据集中包括1,000个黄种人共计1,000段短视频数据,视频时间长度合计达到25小时。发行人采集完构建该训练数据集所需的短视频原料数据后,需要对上述短视频数据进行检查和进一步的加工。为保证训练数据集的质量,发行人需要检查、确认上述视频原料数据不存在重复。在上述“去重”的数据检验排查过程中,发行人借助其在计算机视觉算法领域积累的“视频筛选方法、装置及存储介质”技术,针对各个短视频批量自动截取关键帧并执行相似度计算,对于算法检查出的、相似度较高的短视频原料数据,再做人工排查。该技术降低了人工比对成本,提供了数据加工过程的准确性。核心技术4:★语音语言学基础研究语音语言学领域的专业知识是构建高质量语音识别算法和语音合成算法的关键要素。以语音合成为例,语音合成系统可以实现从文本到发音的语音合成过程,在该过程中,发音词典必不可少:发音词典提供了从单词到音素之间的映射关系,可将语言模型建模单位解构为声学模型的建模单元,为后续合成发音奠定基础。具体而言,语音合成系统在接收到文本信息后,首先运用发音词典对文本信息进行语言、韵律处理,将文本(单词、字符等)转换并拆分、解构成一系列对应的发音符号(类似于国际音标);随后,系统中的语音合成器接收到前述发音符号,运用语音库合成转换为语音对外输出,完成文本到语音的语音合成过程(参见下图)。发音词典质量将直接影响文本转换为语音的发音准确性,进而影响合成效果,在语音合成系统中具备重要作用。
8-1-23
图:语音合成系统框架示意
发行人将语音语言学基础研究成果运用在设计环节,实现训练数据生产过程的降本增效,具体应用情况、方式如下:
(1)应用情况、方式
通过语音语言学基础研究,发行人构建了成熟的发音词典构建流程、构建技术,同时对基于规则和统计的发音预测算法进行了多年研究,结合长期经营获得的大量语音数据和经验积累,研发并掌握了基于词典与模型的发音预测技术等。基于前述研究成果和技术积累,在面对已有发音词典积累的语种/方言类别时,发行人可较快速地复用此前积累的发音词典,设计、制作相应的训练数据,助力语音识别、合成算法模型在大词汇量的连续语音交互中正确、合理地运用相关的语言模型、语法和词法模型;在面对此前未积累有发音词典的语种、方言,发行人也运用其计算语言学等基础技术,较快地构建新语种/方言训练数据集所需的发音词典,加快训练数据集设计、制作过程。
(2)应用效果
发行人通过语音语言学领域的基础研究,积累了计算语言学、发音规则、发音词典等基础知识和研究技术成果,截至目前已积累了超过100个语种/方言的发音词典,累计词条数超1,000万条,稀有语言覆盖数量达26种,并将其应用于高质量智能语音训练数据的构建过程之中。
核心技术5:训练数据集设计技术
训练数据的设计环节有很多学问,以语音识别相关算法、设备为例(如智能音箱),发行人需要结合前述设备的使用场景,以及使用者方言的分布、不同说话人特征的分布、语言表达可能覆盖的文本分布、以及不同的声音传导环境等,使得最终形成的训练数据集具备更合理、全面的分布结构,助力语音识别算法、设备实现良好的识别效果和体验感。
经过多年经营积累,发行人已具备150余个语种/方言的训练数据设计开发能力,并掌握了N元语言模型训练与优化技术、文本正则化技术
、基于语言模型的文本易读
文本正则化是语音合成系统的主要模块之一,主要作用是将有多种读音方案的文本根据其所处的语境、上下文确定准确发音。以数字文本为例,同一数字在表示具体年份时(如“2019年”读作“二零一九年”)和表示计数时(如“2019个苹果”读作“两千零一十九个苹果”)的读音是不同的。文本正则化技术的目的是:尽可能准确地
8-1-24
性评测技术等算法技术,可结合音素均衡、语料主题、覆盖领域、发音人属性、设备特征等因素综合设计满足算法模型开发、训练、拓展需要的训练数据集,并运用前述技术提升训练数据集结构的合理性、科学性。在训练数据集设计技术领域,发行人已取得1项发明专利授权。
训练数据集设计技术主要应用在设计环节,发行人应用前述技术科学、合理高效地设计智能语音、计算机视觉和自然语言处理等训练数据集结构,为后续生产高质量训练数据奠定基础。该技术的应用情况、方式、效果具体如下:
(1)应用情况、方式
以语音识别、语音合成领域的训练数据集为例,在原料数据的采集环节,发音人(被采集对象)需要朗读发行人提供的基础语料,并用指定的录音设备录制形成原料音频数据。训练数据集设计环节的工作即包含语料设计工作。发行人应用训练数据设计技术,结合此前训练数据生产过程中的经验及技术诀窍积累,充分考虑如何设计基础语料,使得容量有限的训练数据集能够覆盖尽可能多的自然语言现象(如覆盖更多的语音、语气、语调情况,兼顾多种句子类型(陈述句、疑问句、感叹句等)和句长分布),结合不同的发音习惯、语言特点,实现更好的语料覆盖效果。在训练数据设计技术领域,文本正则化技术、基于语言模型的文本易读性评测技术等细分技术的应用,使得发行人可以设计出更为易读、发音更为准确的语料。
(2)应用效果
实现高效、科学、合理的训练数据集结构设计,使发行人拥有广泛的文本覆盖能力,例如通用语音识别训练数据产品文本类型覆盖数量可达1-18类不等、车载语音识别训练数据产品文本类型总数高达55类,使得算法模型获得更好的训练结果,助力客户的语音识别模型能够“听懂”更多实际场景中的语音数据,语音合成模型能够“说出”更为自然的语音效果。
核心技术6:一体化数据处理平台
一体化数据处理平台嵌入了训练数据生产过程中所需的各类工具、软件模块,由发行人自主研发,整合贯通了训练数据生产各环节(设计、采集、加工、质检)及数
消除文本在读音层面的歧义,以确保后续合成的语音读音准确。
8-1-25
据安全管理的需求,整合多维度、多创新点的工具群,构建了流程化、规范化和体系化的训练数据生产体系,提高了产能及效率,降低训练数据生产成本、缩短了训练数据生产处理时间。
在与一体化数据处理平台相关的技术领域,发行人已取得2项发明专利授权,正在申请2项发明专利。
一体化数据处理平台是发行人的生产系统,应用在发行人全部的主要业务环节(设计、采集、加工、质检)之中,应用情况、方式、效果具体如下:
(1)应用情况、方式
一体化数据处理平台应用于训练数据生产全过程,为发行人业务项目的具体执行、实施提供对应的工具和流程,便于生产过程的数据处理、质量把控,并对生产过程的数据进行记录和保存。例如,在采集环节,一体化数据处理平台整合了多通道桌面录音工具、手机通道录音工具、双目8路视频采集工具、深度摄像头采集工具、3D-人脸采集工具等;在加工环节,一体化数据处理平台整合了语音识别、语音合成、3D点云、通用视频、OCR等标注工具等。
一体化数据处理平台现由数据处理工具集、终端人管理系统和日志管理系统三大功能模块构成,除可满足训练数据的生产需要外,还可记录采购的数据服务对应的劳务工作量、产出量/数据量等信息,可在验收、决算阶段与发行人业务管理平台生成的财务相关信息进行交叉核对,进一步确保财务信息与生产、业务信息一致、准确。
(2)应用效果
通过平台上各类数据处理工具的开发和整合,实现训练数据的高效高质生产,确保财务信息与生产、业务信息一致准确,实现终端劳务人员等人员的统一化信息管理,留存生产过程日志信息,提升生产和管理效率。
8-1-26
图:一体化数据处理平台模块、功能构成图示
核心技术7:★多语种多模态训练数据设计技术运用多语种多模态训练数据设计技术可使发行人结合具体场景、应用领域特性,设计与之相匹配的、可用于算法模型开发、训练、拓展及优化的多模态训练数据。如通过多种终端设备同时获取人发出的对话语音信息、唇部动作信息、声音来源方向信息等多维度信息,随后综合运用计算机视觉技术、智能语音技术等算法技术实现视觉、听觉等融合的多维度交互。在多语种多模态训练数据设计技术领域,发行人已取得4项发明专利授权。多语种多模态训练数据设计技术主要应用在设计环节,具体应用情况、方式和效果如下:
(1)应用情况、方式
发行人的多语种多模态数据设计技术包含多语种音素均衡语料设计技术、混合语言语料设计技术等细分技术,解决了多语种、多模态的训练数据设计环节的具体痛点,具体说明如下:
①多语种训练数据设计
在该领域,发行人掌握的多语种多模态训练数据设计技术主要包含多语种音素均衡语料设计技术、混合语言语料设计技术等子技术,可解决多语种智能语音训练数据集设计时的音素覆盖、句长分布、领域内容分布问题,高效生产混合语料(如中英文混合等)训练数据。对于上述主要细分技术应用情况和方式介绍如下:
8-1-27
多语种音素均衡语料设计技术:该技术可根据训练数据集设计时的原始句长分布需求,从原始语料中选取句数、句长要求符合需求、且与所述原始句长分布相匹配的语料,作为初始句长分布模型(以下简称“初始模型”),形成与原始句长分布一致或较为接近的初始模型;再通过技术化修正处理初始模型得到满足总字数、句数、句长的最终模型,使得最终模型更接近原始语料的句长分布情况,实现语料设计中对于句长分布的要求。混合语言语料设计技术:该技术运用于训练数据集设计阶段,可基于原始中英混语料的特征提取,通过转化纯中文语料高效生成中文汉字、英文单词及标点符号的中英混合语料,并兼顾易读性和常见性,形成具备良好中英文混合效果的训练数据。发行人已在该细分技术领域取得了1项发明专利授权。
②多模态训练数据设计
在该领域,发行人掌握的多语种多模态训练数据设计技术使得发行人可结合具体场景、应用领域特性,设计与之相匹配的、可用于算法模型开发、训练、拓展及优化的多模态训练数据。如设计科学合理的采集方案,助力后续通过多种终端设备同时采集发音人发出的对话语音信息、唇部动作信息、声音来源方向信息等多维度信息,便于综合运用计算机视觉技术、智能语音技术等算法技术实现视觉、听觉等融合的多维度交互。
(2)应用效果
①解决多语种智能语音训练数据集设计时的音素覆盖、句长分布、领域内容分布问题,高效生产混合语料(如中英文混合等)训练数据,有效扩充中英混合语料库,为中英混合语音识别的模型训练提供充足的训练数据,提高算训练数据的质量、训练效果。
②使得发行人设计的多模态训练数据集机构科学合理,并配合设计科学合理的采集方案,为后续采集多维度信息、形成高质量多模态训练数据奠定基础。
核心技术8:多模态多通道数据采集技术
多模态多通道采集过程是指通过部署多台设备实现多通道多模态原料数据采集,具体工作方式举例如下:针对同一发音人,同时部署多台录音设备、多路视频采集设
8-1-28
备,从而同时采集发音人的语音、视频、唇形等多维度不同形态的数据。在多模态多通道数据采集过程中,各录音设备、视频采集设备等需接入同一服务器,可能出现多路设备冲突导致丢失数据包、视频帧、语音视频不一致的情形。发行人针对上述现象,自主研发了多模态多通道数据采集技术,并开发完善了相应的采集软件、软硬件一体系统,能够实现多维度原料数据的采集和有机整合。
针对上述问题和生产痛点,发行人自主研发了多模态多通道数据采集技术,并在该领域取得了2项发明专利授权及1项实用新型专利授权。多模态多通道数据采集技术主要应用在采集环节,将该技术的具体应用情况、方式和效果举例说明如下:
(1)应用情况、方式
该技术的研发成果主要体现在发行人自主研发的采集软件、软硬件一体系统等采集工具之中,在发行人8类采集设备、6类采集通道上均可应用,解决了多路采集设备、软件录入数据同时录入、自动对齐整合的采集需求。
(2)应用效果:实现多路原料数据的同时采集、自动对齐
以发行人的200人中文普通话语音识别数据库(King-ASR-010)和250人唇语语音视频数据库(King-AV-018)生产过程为例:
King-ASR-010是发行人生产的中文普通话语音识别训练数据集,该数据集覆盖了4个通道(在同一桌面不同位置布设的4个录音设备)的音频数据,每个通道覆盖200人共6,000句语音数据。发行人自主研发的多通道采集工具很好地支持了4路语音数据同时录入、自动对齐整合的采集需求。
King-AV-018是发行人针对虚拟主播需求开发的视频训练数据集,该数据集中含有250个中国人共计610句的唇语视频信息。发行人在常见的语音数据采集设备上叠加了针对唇语信息的视频采集设备,运用自主研发的多模态数据采集软件同时录入不同硬件设备的数据,并保持多维度数据的对齐。
核心技术9:★数据同步技术
数据同步性是训练数据集质量的重要评价标准。而在数据采集过程中,往往会出现多通道(多个设备)同时采集的需求,如多个收音设备同时记录声音、多个拍摄设
8-1-29
备同时记录影像等。因设备的物理限制,受设备采集开始时间不同步、设备本身时钟不同步、结束时间不同步等因素影响,多个设备采集的原始数据很容易发生不同步的情况(参见下图示例),使得后续数据加工难度大大增加。
图:不同通道录制的语音数据不对齐情况示例——针对同一音源,不同品牌手机同时录制的语音数据的时间起点不一致,且不同语音片段的终点也不一致,且起点至终点之间并不是完全线性平移的关系,例如第一段语音的终点差距为190毫秒、第二段语音的终点差距则达到了290毫秒针对上述问题,发行人自主研发了数据同步技术,并在该技术领域取得了1项发明专利授权。
该技术主要运用在加工环节,具体应用情况、方式、效果如下:
(1)应用情况、方式
发行人应用数据同步技术对已采集的、存在不同步问题的语音类原料数据进行加工,执行自动对齐的加工处理。具体而言,该技术通过获取不同录音设备采集的同一语音内容对应的多个语音数据,并从任一语音数据选取任一语音片段作为样本,通过确定所选语音样本的帧数提取其语音特征参数,在各其他语音数据中确定与上述样本相似度最高的目标语音片段,进而实现多个语音数据的时间轴对齐处理工作。
(2)应用效果:自动化、程序化实现多通道采集原料数据的事后精准对齐,提升了训练数据生产效率和产品质量
以在发行人生产的训练数据集山东重口音普通话语音数据库(手机)(King-ASR-384-12)的生产过程为例:King-ASR-384-12是发行人针对山东普通话手机端语音识别应用开发的典型训练数据集。该数据集的原料音频数据共涉及三个通道,分别由三个
8-1-30
不同的手机同时采集,每个通道采集约542个小时的语音,对应句子数达500,866句。在King-ASR-384-12的制作过程中,需要对录制的50多万组、每组3句话的语音数据进行比对和对齐,工作量巨大,采用纯人工操作难以较快完成。发行人通过运用核心技术数据同步技术项下的音频对齐技术,对上述50多万组语音数据进行了并行处理及对齐,高效地完成了前述音频文件的同步需求。核心技术10:实时采集质控技术在原料数据采集过程中,受采集设备的物理限制、被采集人的主客观情况或者采集环境变化等因素影响,无法完全保证采集到的每条原料数据都满足后期加工的质量要求。例如,在手机录音采集任务中,当发音人说话声音太响,在音频采集时会出现截幅现象;但说话声音太小时,又会造成所采集到的语音片段难以听清内容,不符合后期加工要求;此外,音频录制时,若周围噪音过大,也会导致音频数据的信噪比过小,不符合质量要求。
针对上述原料数据质量问题,发行人总结多年行业经验自主研发了实时采集质控技术,并在该技术领域取得了1项发明专利授权、1项实用新型专利授权。
实时采集质控技术主要应用在采集、质控环节,应用情况、方式、效果具体如下:
(1)应用情况、方式
应用该技术,发行人将声音能量检测、音频截幅检测、静音检测、信噪比检测等数字信号处理技术整合到了实际数据采集设备中,在采集的同时进行质量检查,实时发现采集数据的质量问题并及时提供现场反馈(参见下图示例),提高了采集数据的有效性、降低了无效数据占比,提升了最终产品的质量。
图一:实时反馈——音量过大 | 图二:实时反馈——未保留足够静音 | 图三:实时反馈——语音段太短 |
图:原料数据采集过程中实时质检反馈示意
以发行人生产的西班牙语手机对话类语音数据库(King-ASR-321)的生产过程为例: King-ASR-321是发行人针对西班牙语自由对话语音识别应用开发的训练数据集。该训练数据集涉及普通环境下的呼叫中心+手机双通道,每个通道采集了约213个小时
8-1-31
的语音数据,对话内容覆盖21个主题。在King-ASR-321原料对话数据的采集过程中,应用了发行人实时采集质控技术的录音设备能够实时检测信噪比、语音能量和静音时长等信息,一旦出现录制声音过大或过小、信噪比过低、首尾静音时长等不符合要求的语句,会即时提示要求发音人重录;同时,该设备将依据长音频中切分的各段语音长度和对应文本字数计算发音人的语速分布,后续可执行统计分析、找到异常情况并校正,有效提高了训练数据产品质量。
(2)应用效果
在采集同时通过实时质检,即时提示被采集对象按要求规范采集,实现前端原料数据的高质量采集,使发行人采集损耗率总体控制在5%以内,并为后续生产高质量训练数据奠定基础
核心技术11:★大数据驱动的高效数据处理技术
发行人在训练数据研发、生产领域深耕多年,积累了深厚的开发经验,并在训练数据的设计、采集和处理环节积累了大量数据,具体包括:发行人自行采集的大量原料数据、发行人拥有自主知识产权的训练数据产品;以及训练数据生产过程中产生的大量日志数据等。
发行人充分利用前述数据及经验积累,通过分析训练数据生产过程中的数据分布规律和行为数据模型设计开发出了高效率的数据处理平台与工具集,形成了大数据驱动的高效数据处理技术。在该技术领域,发行人已取得4项发明专利授权。
大数据驱动的高效数据处理技术主要应用在加工环节,具体应用情况、方式、效果如下:
(1)应用情况、方式
发行人对积累的原料数据及加工后数据等大数据的异同点进行了分析,运用统计模型归纳出一般性规律,将之应用在采集、标注过程所运用的辅助工具与算法的开发和优化,以及加工任务类型的划分和流程管控的科学设计之中,提升了数据加工的工作效率。例如:发行人基于多年积累的训练数据生产经验开发了词性预测工具,针对不同语种/方言反复调整参数和算法,不断提升预测的准确率,提升数据加工效率、降低人力需求;此外,发行人分析了标注人员的专业领域、属性特征,与其从事数据加
8-1-32
工的效率情况和工作质量情况,从而指导自身针对具体数据加工需求更科学地进行数据处理任务分配、提升数据加工效率;发行人也对数据加工过程中的人工行为的模式及原因加以分析,用以指导数据加工流程的优化和工具界面调整设计,最终达到提升数据开发效率的目的。
(2)应用效果
发行人现已积累了25个运用于标注过程的预测算法或工具,利用上述工具提升了数据加工过程的效率及准确率,保证了发行人的产能及数据质量。从产能角度,在语音识别、语音合成、计算机视觉、自然语言领域,报告期内每月处理数据量可分别高达2万小时语音数据、15万句语音数据、500万个目标对象、2万工作小时;从效率角度,以词性预测算法工具为例,其将词性预测算法的准确率由86%提升至96%
。
在大数据驱动的高效数据处理技术领域,发行人还积累有音素边界自动预测技术、基于语音特征的韵律预测技术等细分技术,前述技术均使得发行人实现了加工效率的提升、有效减少了人工工作量。具体说明如下:
①音素边界自动预测技术:音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。音素及音素边界的正确性是衡量语音合成训练数据质量的重要指标。发行人通过大量数据训练声学模型自主研发掌握了音素边界自动预测技术,可通过语音识别算法的运用得到音素边界的预测值,标记人员可基于音素边界自动预测技术的标注结果执行人工复核和少量精确人工调整,减少了人工操作的工作量和准确度。
②基于语音特征的韵律预测技术:韵律反映的是语音语句中各字词之间的停顿时长情况,加工环节中的韵律标注操作即需标出句子中不同字词的具体停顿长度,如以“#1”代表语法词的停顿长度、“#2”代表≤90毫秒的停顿长度等。由于语音韵律具有
较强的差异性和个人特色,因此韵律标注通常由标注人员通过语音听辨人工完成,标注人员根据韵律标注规范,判断每个语法词的韵律边界类型。发行人掌握的基于语音特征的韵律预测技术,可以利用语音识别模型,对音素进行自动切分并预测韵律边界,利用语音识别模型预测结果,修正基于文本得到韵律预测结果;结合标注人员的后续
上述数据来自发行人实验室模拟运算分析。
8-1-33
人工听辨、修改,提升了韵律预测与实际音频数据的贴合度,提高了韵律预标的准确率,有效减少了标注过程中约25%的人工标注工作量。核心技术12:★分布式高性能自动校验技术质检环节是训练数据生产过程的关键步骤,是发行人保证训练数据集质量的重要手段。发行人生产的训练数据集将直接运用于客户算法模型的训练过程中,对训练数据集的质量、准确率均有较高的要求。
以语音合成训练数据的音素信息为例,对音素信息标注的准确率往往需要达到99%以上。对大规模数据进行质检并避免重复人工检查、提升最终的训练数据准确率是质检环节面临的挑战。基于传统的信号处理技术已无法很好地满足要求,发行人自主研发了分布式高性能自动校验技术,运用成熟的人工智能算法来辅助完成训练数据质检。在分布式高性能自动校验技术领域,发行人已取得4项发明专利授权。分布式高性能自动校验技术主要应用在质检环节,具体应用情况、方式、效果如下:
(1)应用情况、方式
发行人在其部署的分布式高性能集群系统上运行自主研发的平台架构、工具及全自动校验技术相关算法,实现质检环节各计算节点间的数据共享、安全传输、任务动态分配及消息队列自动管理等功能,同时支持自动添加、删除和更新节点服务器,弹性地支撑实际业务需求。
在分布式高性能自动校验技术领域,发行人拥有相似说话人自动筛查技术及音素标注正确率校验技术等细分质检技术,具体应用情况如下:
①相似说话人自动筛查技术:为覆盖不同说话人的声学特性,一个大规模语音识别训练数据集往往包含上千个说话人录制的语音数据。为避免同一说话人录制多份数据影响训练数据的质量,发行人自主研发了相似说话人自动筛查技术。该技术首先建立说话人的语音模型,然后对说话人进行相似度打分,筛选出疑似相同说话人,指导后续人工校验过程。在该技术领域,发行人已取得1项发明专利授权。
②音素标注正确率校验技术:音素及音素边界的正确性是衡量语音合成训练数据质量的重要指标。发行人利用基于三音子模型的音素边界自动预测技术,通过训练声
8-1-34
学模型,对音素进行识别,基于一定数学分布的假设先行筛选出错误可能性较高的音素,交由人工检查进一步修正。在该技术领域,发行人已取得1项发明专利授权。
(2)应用效果
①分布式高性能自动校验技术使得发行人整体实现了质检、比对、处理等计算任务的高效运行,可在约24小时内完成约660G的数据质检工作。
②细分技术相似说话人自动筛查技术将相似说话人筛查等质检校验的人工工作量减少了98%以上,同时提高了工作的准确度;音素标注正确率校验技术则同样通过程序先行、人工检查修正的方式提升了音素标注质量和效率。
二、结合主营业务及同行业可比公司说明训练数据加工及处理、提供具体服务内容及方式等方面是否存在技术优势与核心竞争力
(一)同行业可比公司对比
发行人同行业可比公司、竞争对手主要为Appen、慧听科技及标贝科技。结合前述竞争对手的公开披露信息及主营业务,对训练数据加工处理、服务内容方式等各方面对比如下:
1、主营业务情况
主营业务情况 | ||||
项目 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
主营业务范围概述 | 训练数据+训练数据相关的应用服务 | 训练数据 | 训练数据+AI算法模型、输入法研发 | 训练数据+ AI算法模型解决方案和技术产品 |
主营业务 | 训练数据的研发设计、生产及销售业务。 | 主要面向机器学习、人工智能开发提供高质量人工标注数据集。 | 业务包括语音识别、语音合成、语音评测、语言文本类、多媒体类的多领域数据制作,以及语音合成、语音识别、输入法系统研发等;涵盖语音训练数据、音乐数据、语音质量评测等。 | 主要提供语音交互相关服务,包括语音合成整体解决方案,以及语音合成、语音识别、图像识别等数据服务。 |
在主营业务方面,发行人与其主要的同行业可比公司、竞争对手主营业务均覆盖了训练数据生产销售、研发相关业务。相比同行业可比公司,发行人业务还包含训练数据相关的应用服务,除提供训练数据外还可基于训练数据提供算法模型相关的训练服务,助力下游客户完成算法模型的语言拓展、算法模块拓展、垂直应用领域拓展,
8-1-35
也可为客户定制针对特定场景应用的专属算法模型。同行业可比公司则在训练数据以外也提供AI算法模型解决方案和技术产品,涉足下游AI算法技术领域。
以下围绕训练数据加工处理、产品服务内容方式展开具体对比:
2、训练数据加工处理技术指标对比
训练数据加工处理情况及技术指标 | ||||
项目 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
技术实力情况 | 海天瑞声自主开发了一体化数据处理支撑平台,在基础研究、平台工具、训练数据生产三个维度下均积累核心技术,将多项具体核心技术整合为发行人特有的核心技术体系。 | Appen拥有人工智能辅助数据注释平台,在全球130多个国家与100多万名专业承包商合作,训练数据涵盖科技、汽车、金融服务、零售、医疗健康和政府等各个领域。 | 采用全程质量监控流程,执行完善的标注流程,配合保密管理手段,提供质量上乘的数据服务。 | 拥有语音合成模型和算法,通过算法+专业的人工数据处理方式,为客户提供优质的语音合成服务。拥有TOBI 标注体系,通过自主研发的TTS评测系统,为客户提供高质量的数据服务。 |
数据处理能力/效率指标 | (1)语音识别领域:报告期内平均每月采集近4,000人语音数据,每月最高可处理2万小时语音数据; (2)语音合成领域:报告期内平均每月采集近150万字/词语音数据,每月最高可处理15万句语音数据; (3)计算机视觉领域:每月最高可在图片数据中标注超过500万个目标对象; (4)自然语言:每月标注自然语言可达2万工作小时 | 未公开披露 | 未公开披露 | 未公开披露 |
行业机构评价 | “北京市级企业科技研究开发机构”、“新一代人工智能产业创新重点任务入围揭榜单位”、“2019中国信息技术人工智能行业优秀产品”、“2019中国信息技术人工智能数据服务领军企业”、2020年国家专精特新 | 2017-2019年德勤亚太区“高科技高增长500TM”、2012-2019德勤澳洲“高科技高增长 50TM”、2019美国常识顾问(CSA Research)第八大语言服务供应商 | “慧听中文重口音语音数据库”曾获中国语音产业联盟“2015中国语音创新产品” | 中国企业联合会“2019全球人工智能TOP 50”、融资中国“新经济领域最具成长性企业TOP30”、中国语音产业联盟会员单位 |
8-1-36
“小巨人”公示名单入选企业等 | ||||
语种/方言覆盖能力 | 150余个 | 180余个 | 19个 | 9个 |
应用领域覆盖能力 | 智能语音、计算机视觉、自然语言 | 智能语音、计算机视觉、自然语言 | 智能语音、计算机视觉、自然语言、音乐 | 智能语音、计算机视觉、自然语言、音乐 |
专利储备(已取得专利授权) | 24项(22项发明专利、1项实用新型专利及1项外观设计专利) | 2项 | 无 | 1项 |
计算机软件著作权数量 | 133项 | 未公开披露 | 13项 | 25项 |
成品训练数据集储备 | 699个 (截至2020年9月30日) | 276个 | 23个 | 94个 |
数据来源及说明:
1、Appen、慧听科技、标贝科技数据:截至2020年12月,前述公司官网及公开披露信息;国家知识产权局中国及多国专利审查信息查询平台(http://cpquery.sipo.gov.cn/)、中国版权保护中心CPCC微平台等公开信息查询渠道及第三方机构查询信息。
2、发行人数据:除特别标注外,均为截至本落实函回复签署日数据。
结合上述对比可以看出,相比同行业上市公司,发行人的技术优势主要体现在:
经过多年深耕,以长期的业务实践和创新积累为基础,整合了多项核心技术,构建起围绕基础研究、平台工具和训练数据生产三个层次的完整核心技术体系。与同行业竞争对手相比,发行人的语种/方言覆盖能力处于领先水平,积累的自主知识产权的训练数据产品数量和规模远大于境内竞争对手,具备较强的技术优势、核心竞争力。发行人在专利储备方面也具备显著优势,截至本落实函回复出具日,发行人已取得24项专利授权(包含22项发明专利授权、1项实用新型专利授权及1项外观设计专利授权),显著优于同行业竞争对手,充分反映了发行人的技术竞争优势和核心竞争力。
3、具体产品服务内容和方式对比
产品/服务提供方式 | ||||
项目 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
训练数据相关的产品服务形式 | 训练数据定制服务(采集加工、纯加工)、训练数据产品 | 定制开发+训练数据产品 | 定制开发+训练数据产品 | 定制开发+训练数据产品 |
8-1-37
在训练数据业务领域,发行人与同行业可比竞争对手提供产品服务的方式基本相同,均可提供训练数据的定制化开发服务,也可提供成品训练数据集。基于公开渠道可查询信息,以下主要基于发行人和同行业可比公司储备的成品训练数据集(即训练数据产品)情况进行产品服务具体内容对比:
(1)训练数据产品整体情况对比
发行人与同行业可比公司的训练数据产品情况整体如下:
项目 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
1、智能语音类训练数据产品 | ||||
数量 | 534 | 119 | 19 | 83 |
覆盖语种/方言数量 | 100 | 82 | 11 | 10 |
录音场景类别 | 9 | 15 | 4 | 2 |
采集设备种类 | 8 | 2 | 5 | 2 |
采集通道覆盖数 | 6 | 5 | 7 | 1 |
2、自然语言类训练数据产品 | ||||
数量 | 95 | 152 | 2 | 11 |
覆盖语种/方言数量 | 43 | 100 | 2 | 5 |
3、计算机视觉训练数据产品 | ||||
数量 | 70 | 5 | 2 | 0 |
(2)各应用领域训练数据产品具体对比
①智能语音训练数据产品
对于智能语音类训练数据而言,其内容差异主要体现在文本内容、噪声环境、录音通道等方面。文本内容指智能语音训练数据集对应的录音文本覆盖的具体内容或类别,覆盖种类越多则该训练数据集可针对更广泛的应用领域和场景实现更好的算法模型训练效果;噪声环境指覆盖的噪声环境类型数量及分布情况,训练数据集覆盖的噪声环境越多,则语音识别算法模型经训练后可实现更多环境下的可靠识别率;录音通道指训练数据集中的语音数据来源的录音设备数量,通道数越多则该训练数据集可适配的录音设备种类越多。
注:本部分对比中,Appen、慧听科技、标贝科技的训练数据产品数量等相关信息来源为其官方网站或公开信息披露所列举的信息,数据截至2020年12月;发行人的训练数据产品信息为截至2020年9月30日之情况。
8-1-38
选取较有代表性的几类智能语音训练数据产品,与同行业主要竞争对手对比如下:
A.通用语音识别训练数据产品
训练数据集 内容结构属性 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
单一训练数据产品覆盖的文本类型数量 | 1-18类不等 | 1~10类不等 | 1~3类不等 | 1类 |
文本类型 | 拼读词、命令词、数字串、自然数、时间、日期、人名、地名、歌曲名、机构名、长句等 | 数字串、自然数、字符串、人名地名企业名、命令词、申请词、拼音词、时间和日期、长句等 | 命令短语、普通短语、日常短句 | 拼读词、命令词、数字串、自然数、时间、日期、人名、地名、歌曲名等 |
单一训练数据产品覆盖的噪声环境类别数量(个) | 1~6 | 1~6 | 1~4 | 1~3 |
噪声环境类型 | 车内、办公室、家庭、医院、地铁、游戏场、餐厅/咖啡厅、商场、街道 | 办公室、家庭、街边、车内、公共场所、录音棚 | 办公室/宿舍/家、餐厅/咖啡厅、街道、车载 | 安静室内、车载、录音棚 |
单一训练数据产品覆盖的录音通道数量 | 1~6 | 1~5 | 1~6 | 1 |
注:Appen、慧听科技、标贝科技的智能语音训练数据产品情况据其公开披露信息整理。
B.车载语音识别训练数据产品
训练数据集 内容结构属性 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
文本内容类型总数 | 55类 | 8类 | 未披露具体信息 | 36类 |
文本内容类型示例 | 数字串、街道名称、控制词、地名、命令词、英语、数字串、时间、日期、度量衡、长句、自然口语等 | 数字、自然数、街道名称、通用指令和特定指令、字母串、地点、企业名称、自然语句等 | 未披露具体信息 | 导航找音乐,城市导航,机车系统控制,查火车,查酒店,查餐厅,查地铁,路况查询等 |
各训练数据产品覆盖的噪声环境类别数量 | 7 | 2 | 5 | 7 |
覆盖车载噪声环境具体类别 | 怠速、低速、低速噪音、高速、高速噪音、城市道路、城市道路噪音 | 怠速、高速 | 高速路况、低速路况、停车待机、车窗打开、车窗关闭 | 怠速、低速、低速噪音、高速、高速噪音、城市道路、城市道路噪音 |
各训练数据产品覆盖的 | 4 | 5 | 4 | 1 |
8-1-39
注:Appen、慧听科技、标贝科技的智能语音训练数据产品情况据其公开披露的信息整理。
C.特色语音识别训练数据产品
录音通道数量
训练数据集内容结构属性
训练数据集 内容结构属性 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
稀有语言覆盖数量 | 26 | 38 | 0 | 0 |
注:Appen、慧听科技、标贝科技的智能语音训练数据产品情况据其公开披露信息整理。
与同行业主要竞争对手公开披露、可在训练数据产品结构维度加以比较的智能语音类训练数据产品相对比,发行人的训练数据产品的优势和竞争力主要体现在:
覆盖的噪声类型、录音通道数量、录音文本内容类型更为丰富。以通用语音识别训练数据产品、车载语音识别训练数据产品、特色语音识别训练数据产品这几类典型的智能语音类训练数据产品为例,发行人的训练数据产品整体而言可覆盖更丰富的录音文本内容类型、噪音环境类型、录音通道数量,在内容上相比境内竞争对手可覆盖更多稀有语言,具备广泛性、强适用性,具备竞争优势。
②计算机视觉训练数据产品
计算机视觉训练数据产品主要是对现实生活中的人体(包含人脸和身体姿态等)、物体(包含车辆等)、生活场景中的文字图片等图像信息等进行采集和标注所形成的训练数据产品。以人脸训练数据产品为例,计算机视觉训练数据产品的内容差异主要体现在人脸图像角度、光线、背景,被采集人脸对应的肤色、年龄、性别,人脸图像的标注点数等方面。针对发行人及同行业竞争对手公开披露的计算机视觉数据产品信息,将其异梳理对比如下:
训练数据产品内容结构属性 | 海天瑞声 | Appen | 慧听科技 | 标贝科技 |
人像识别检测相关 | 包含了不同人脸数据,覆盖黑、白、黄、棕等不同肤色。覆盖闸机口安检库、手机拍照库、人物表情库、等应用场景。 | 包含数千名中国人、黑人在不同角度和光线下的人脸图片;以及1,000名中国人身体动作视频等 | 包含2万张人物轮廓图片,覆盖不同年龄段男女老少、各类着装打扮,各类行动姿势(站立、行走、蹲坐等) | 未公开披露 |
8-1-40
OCR (光学字符识别) | 覆盖10余个语种,覆盖菜单、路牌、收据、书籍等17类不同场景 | 包含中文、泰语、芬兰语3个语种,覆盖书籍、报刊、门票、路牌、菜单等16个不同场景 | 未公开披露 | 未公开披露 |
注:Appen、慧听科技、标贝科技的智能语音训练数据产品情况据其公开披露信息整理。
与同行业主要竞争对手公开披露、可在训练数据产品结构维度加以比较的计算机视觉类训练数据产品相对比,发行人的训练数据产品内容、结构方面差异主要体现在:
在人像识别检测相关数据产品领域,发行人与同行业竞争对手均可覆盖不同类型的人脸、姿势、场景等,因计算机视觉数据产品个性化特征较强,各类训练数据产品在具体的人脸类型、姿势范围、场景等方面具备一定差异,发行人与同行业竞争对手相比不存在显著劣势。在OCR训练数据产品方面,慧听科技、标贝科技未披露其在该领域的产品储备情况;与Appen相比,发行人的OCR训练数据产品可覆盖更多语种的光学字符识别需要,具备广泛性、强适用性特征,具备竞争力。
③自然语言训练数据产品
自然语言训练数据产品主要是对现实生活中的文本类数据进行采集标注所形成的训练数据产品。自然语言训练数据产品类型较多、内容各异,具备较强的非标准化特征。例如,文本来源可为新闻、短信、聊天记录、小说、诗歌、翻译句对等;标注点种类也较为繁多,如分词标注、命名实体标注、词性标注、句法结构标注、情感标注、极性标注、领域标注、意图标注等。不同自然语言训练数据产品的内容差异主要体现在文本来源、内容、标注属性等方面。同行业主要竞争对手公开信息披露的自然语言训练数据产品数量、信息均较少,未披露训练数据产品结构、内容具体属性信息,因此无法直接对具体训练数据产品的内容、结构等细节信息进行比较。
(3)产品服务内容对比小结
结合上述对比情况可以看出,在产品服务内容方面,与竞争对手在公开信息渠道列示披露的训练数据产品相比,发行人的核心竞争力和优势主要体现在下述方面,
训练数据产品数量更多:发行人在智能语音、自然语言及计算机视觉各领域均具备较为丰富的训练数据产品储备。与国内竞争对手相比,发行人在训练数据产品数量上具备显著优势;与境外竞争对手Appen相比,发行人在智能语音、计算机视觉领域
8-1-41
具备产品数量优势;在自然语言训练数据产品数量方面略有劣势。产品覆盖语种/方言数量更多:发行人的智能语音训练数据产品覆盖的语种/方言数量相比境内竞争对手有显著优势,与境外竞争对手Appen基本相当;自然语言类训练数据产品覆盖的语种方言数量低于Appen,并显著优于慧听科技、标贝科技。采集方案复杂度更高:发行人智能语音训练数据产品的录音场景类别丰富于慧听科技、标贝科技,类别数量略低于Appen;采集设备种类显著高于竞争对手;采集通道覆盖数与Appen、慧听科技相当,相比标贝科技存在一定优势。综合而言,发行人的智能语音数据产品在采集方案复杂度相关指标上更为突出,可提供更为复杂的采集方案。
文本、环境覆盖范围更广:整体而言,发行人的智能语音识别训练数据产品覆盖的噪声类型、录音通道数量、录音文本内容类型更为丰富。以通用语音识别训练数据产品、车载语音识别训练数据产品、特色语音识别训练数据产品这几类典型的智能语音类训练数据产品为例,发行人的训练数据产品整体而言可覆盖更丰富的录音文本内容类型、噪音环境类型、录音通道数量,在内容上相比境内竞争对手可覆盖更多稀有语言,具备广泛性、强适用性,具备核心竞争力。
整体而言,与同行业可比公司相比,发行人可提供覆盖多语种/方言、多场景、多领域的,采集方案更为复杂的,文本、环境覆盖更广的训练数据产品,在产品服务内容方面具备全面性、专业性优势。发行人在产品服务内容方面具备核心竞争力。
(二)技术优势与核心竞争力小结
综上,结合上述同行业可比公司对比情况可以得出:
在训练数据加工处理及相关技术方面:发行人构建了围绕基础研究、平台工具和训练数据生产3个层次的完整核心技术体系,具备较强的技术优势和核心竞争力,体现在语种方言覆盖能力、自主知识产权训练数据产品资源积累、专利技术储备等方面。
在具体产品服务内容和方式方面:发行人的产品服务提供形式与同行业可比公司基本相同;但着眼到各应用领域的具体产品服务内容方面,则发行人整体呈现出训练数据产品数量更多、产品覆盖语种/方言更多、采集方案复杂度更高、文本及环境覆盖更广的特点,在产品服务内容方面具备广泛性、全面性、专业性特征,具备核心竞争
8-1-42
力。
三、说明发行人在人工智能细分领域提供基础数据服务所产生的增值服务内容发行人在人工智能细分领域提供基础数据服务所产生的增值服务内容主要体现在以下两个方面:
(一)实现从原料数据到训练数据的生产过程,助力人工智能算法模型发展
1、训练数据是人工智能算法发展和演进的“燃料”,从自然数据源简单收集取得的原料数据不能直接用于算法训练
(1)算法、算力、数据是人工技术发展的三大要素,其中训练数据是算法发展和演进的“燃料”
人工智能的目标是模拟人的思维和判断能力,为了实现这个目标的过程则需要对算法模型进行训练。如同学生需要通过不断的学习与训练,才能逐渐获得并提升处理判断生活中各种事件的能力;AI技术企业需要使用训练数据对算法模型进行训练、优化,才能使得算法模型符合实际场景中的应用需求;此外,算法模型还需要针对尚未学习过的模拟场景持续进行学习,或针对已经学习过的实际场景再进行不断迭代学习以持续优化性能。
在当前技术发展进程中,深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节:训练需要海量数据输入,训练出一个复杂的深度神经网络模型;推断指利用训练好的模型,去“推断”现实场景中的待判断数据,并得出各种结论。训练数据越多、越完整、质量越高,模型推断的结论越可靠。
(2)原料数据需经专业化的采集、加工处理,才能形成工程化数据集供算法模型训练使用
通常,从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练,必须经过专业化的采集、加工处理,形成相应的工程化数据集后才能供深度学习算法等算法、模型训练使用。
以发行人的成品训练数据集为例说明:通常而言,一个成品训练数据集内部包含数据文档、说明文档和技术文档,其中数据文档是交付物的核心,包括数据文件和标
8-1-43
注文件。以语音识别训练数据为例,训练数据由一段段语音录音的数据文件和相关的标注文件构成。前述语音录音数据文件需要经过截取等加工操作,还需要结合语音录音数据情况进行标注。通俗而言,标注文件将告知机器和算法与语音录音相关的多种信息,包括语音对应的文字、所代表的具体意思、说话者的情绪等等,仅从发音人等数据源简单录制取得的语音录音数据并不能直接用于算法训练。此外,训练数据集结构设计的合理性、科学性也将影响最终的算法模型训练效果。
2、发行人通过其专业化业务流程,实现从原料数据到训练数据的生产过程发行人通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集。为了助力下游AI技术企业使用训练数据更好地训练、教导算法模型,实现更好的训练效果,训练数据的生产过程中有很多学问:以智能音箱为例,因其使用者年龄跨度较大,可能从小孩覆盖到老人,还可能覆盖着各地口音和不同的语言表达习惯、使用的场景(如家里的客厅或者办公室)。所以发行人需要在训练数据集的设计过程中同时考虑方言的分布、不同说话人特征的分布、语言表达可能覆盖的文本分布、以及不同的声音传导环境等,使得最终形成的训练数据集具备更合理、全面的分布结构。因此,全面的数据集结构与内容的设计、逼真的采集环境搭建、合理的被采集人选择、准确的标注信息等,都将决定训练数据的质量,进而影响智能音箱最终的识别效果和智能音箱使用人群的体验感。
图:训练数据生产过程示意图通俗而言,发行人的主要业务环节包括设计、采集、加工、质检(参见上图示意),业务过程涉及下述几方面工作:①为了实现更好的算法模型训练效果,发行人需要对训练数据集的结构和内容进行设计;②需要根据算法模型的训练需要,搭建/选
8-1-44
择合适的采集环境,选取合适的采集设备,采集大量符合要求的原料数据,比如声音、文本、图像、视频等;③需要对采集到的原料数据进行加工,把想让算法学会的信息,通过标注的方式提供给算法;④而在采集、加工的过程中,发行人则要对数据质量进行把控,伴随着持续进行的质检。
因此,发行人的业务实质是:通过执行设计、采集、加工、质检的工序,实现从原料数据到训练数据的生产过程,最终形成可供下游AI产业链各机构训练其算法模型所使用的训练数据集。
发行人在人工智能细分领域提供基础数据服务所产生的增值服务内容包括:①研发设计合理的训练数据集结构;②采集形成符合要求的原料数据包;③通过加工、质检等操作最终形成可供AI算法模型训练使用的成品训练数据集,助力下游AI产业算法模型及技术的发展优化。
(二)运用核心技术开展训练数据生产工作,运用科技力量实现赋能增值
经过多年积累,发行人具备对主流人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力,以及AI辅助标注和精细标注能力。发行人充分发挥前述创新实力,将核心技术积累运用于训练数据生产过程,运用科技力量为生产过程赋能增值,显著区别于通过简单组织大量劳务人员进行原料数据采集、标注的企业。发行人的技术实力主要体现在下述3个方面:
1、算法与数据处理技术并用:公司积累了12项核心技术,其中在多语种的语音语言学基础研究和高效数据处理两大领域积累了5项关键核心技术。通过算法与处理技术并用,可以满足算法在不同应用场景下的训练数据需求,可对大规模数据进行高效的加工或质检。截至2020年9月30日,公司积累有接近700个自有知识产权的训练数据产品,可提供超过150余个语种/方言的训练数据。
2、工具和平台共建:公司自主开发了一体化数据处理平台,融入项目流程管理、质量把控、数据安全管理,嵌入生产所需的各类工具、软件模块,可实现高效、高质的训练数据生产,提升生产效率及质量控制水平。
3、在语音语言学基础研究方面有深厚积累:公司建立了成熟的发音词典构建流程、积累了深厚的语音语言学基础研究成果。截至本落实函回复出具日,公司的产品/服务已覆盖150余个语种/方言,公司已积累下超过100个语种/方言的发音词典,累计词条数
8-1-45
超过1,000万条,可构建高质量的智能语音训练数据。截至目前,公司已经取得22项发明专利授权、1项实用新型专利授权及1项外观设计专利授权,133项计算机软件著作权,另有4项专利已提交申请。
多年积累的核心技术和专业服务能力,使得公司能够更大规模、更有效率、更加精准地生产训练数据,在提升自身产出效率的同时也有效提高了训练数据对于客户算法模型的改善、优化效果。
(三)小结
综上,发行人在人工智能细分领域提供基础数据服务所产生的增值服务内容主要体现在:1、实现从原料数据到训练数据的生产过程,助力人工智能算法模型发展;2、运用核心技术开展训练数据生产工作,运用科技力量实现赋能增值。
四、结合上述分析说明发行人所处行业及细分领域是否符合科创板定位,科创属性行业分类是否准确
结合上述分析,发行人主要从事训练数据的研发设计、生产及销售业务,生产过程中需要设计训练数据集结构、采集原料数据、对原料数据进行加工处理和质检,最终形成可供AI算法模型训练使用的训练数据集,与数据加工处理息息相关。
结合国家统计局《战略性新兴产业分类(2018)》,发行人所从事的训练数据生产业务属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”行业。
因此,发行人属于《科创板企业发行上市申报及推荐暂行规定》中规定的行业领域“新一代信息技术领域”中的战略性新兴产业,符合科创板行业领域要求;此外,发行人连续荣获“国家高新技术企业”及“中关村高新技术企业”称号,并于2018年被评为国家规划布局内重点软件企业,2019年入选工业和信息化部“新一代人工智能产业创新重点任务入围揭榜单位”,2020年入选工业和信息化部国家专精特新“小巨人”公示名单,科创属性、技术实力得到行业、主管机构的高度认可。
综上,发行人所处行业和细分领域符合科创板定位,科创属性行业分类准确。
8-1-46
中介机构核查意见
一、核查程序
保荐机构、发行人律师执行了下述核查程序:
1、访谈了发行人主要管理人员,查阅发行人专利证书,并通过国家知识产权局中国及多国专利审查信息查询系统查询发行人掌握的专利情况、了解核心技术的形成、储备和使用情况;
2、登录发行人信息系统,查看发行人自主研发的一体化数据处理平台及其集成的技术、工具情况、在生产过程中的使用情况;
3、访谈发行人主要业务人员,了解发行人的整体业务流程、产品服务情况。通过公开渠道查询了同行业可比公司的核心技术储备及应用情况、产品服务情况、知识产权情况等;结合行业报告、行业专家访谈,了解发行人的核心技术优势、核心竞争力情况,以及发行人在人工智能基础数据服务领域产生的增值服务内容情况;
4、查阅国家统计局《战略性新兴产业分类(2018)》及发行人所获证书奖项,结合发行人主营业务情况,核对其所处行业、细分领域,核查其与《科创板企业发行上市申报及推荐暂行规定》中行业领域的匹配情况。
二、核查结论
经核查,保荐机构、发行人律师认为:
1、发行人在基础研究、平台工具、训练数据生产三个层次积累了12项核心技术,广泛运用于训练数据生产的各个环节之中;
2、发行人在训练数据加工及处理、提供的具体服务内容和方式等方面存在技术优势和核心竞争力;
3、发行人在人工智能细分领域提供的基础数据服务产生的增值服务内容主要体现在:(1)实现从原料数据到训练数据的生产过程,助力人工智能算法模型发展;(2)运用核心技术开展训练数据生产工作,运用科技力量实现赋能增值;
4、发行人所处行业及细分领域属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”,符
8-1-47
合科创板定位,科创属性行业分类准确。
8-1-48
(本页无正文,为《关于北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市的发行注册环节反馈意见落实函的回复》之签章页)
发行人董事长(签名):
贺 琳
北京海天瑞声科技股份有限公司年 月 日
8-1-49
发行人董事长声明
本人已认真阅读北京海天瑞声科技股份有限公司本次发行注册环节反馈意见落实函回复的全部内容,确认发行注册环节反馈意见落实函回复中不存在虚假记载、误导性陈述或重大遗漏,并对其真实性、准确性、完整性、及时性承担相应法律责任。
发行人董事长(签名):
贺 琳
北京海天瑞声科技股份有限公司年 月 日
8-1-50
(本页无正文,为《关于北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市的发行注册环节反馈意见落实函的回复》之签章页)
保荐代表人:
张 鹏 葛 青
华泰联合证券有限责任公司年 月 日
8-1-51
保荐机构总经理声明
本人已认真阅读北京海天瑞声科技股份有限公司本次发行注册环节反馈意见落实函回复的全部内容,了解发行注册环节反馈意见落实函回复涉及问题的核查过程、本公司的内核和风险控制流程,确认本公司按照勤勉尽责原则履行核查程序,本回复中不存在虚假记载、误导性陈述或重大遗漏,并对其真实性、准确性、完整性、及时性承担相应法律责任。
保荐机构总经理(签名):
马 骁
华泰联合证券有限责任公司
年 月 日
8-1-1
关于北京海天瑞声科技股份有限公司
首次公开发行股票并在科创板上市的
发行注册环节反馈意见落实函的回复
保荐机构(主承销商)
(深圳市前海深港合作区南山街道桂湾五路128号前海深港基金小镇B7栋401)
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-2
中国证券监督委员会、上海证券交易所:
贵所于2021年3月22日转发的《发行注册环节补充反馈意见落实函》(以下简称“落实函”)已收悉,华泰联合证券有限责任公司(以下简称“华泰联合”或“保荐机构”)作为北京海天瑞声科技股份有限公司(以下简称“海天瑞声”、“发行人”或“公司”)首次公开发行股票并在科创板上市的保荐机构(主承销商),会同发行人等相关各方,本着勤勉尽责、诚实守信的原则,就落实函所提问题逐项进行认真讨论、核查与落实,并逐项进行了回复说明。具体回复内容附后。
说明:
1、如无特别说明,本回复中使用的简称或名词释义与《北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市招股说明书(注册稿)》(以下简称“招股说明书”)一致。涉及招股说明书补充披露或修改的内容已在招股说明书中以楷体加粗方式列示。
2、本回复中若出现总计数尾与所列值和不符的情况,均为四舍五入所致。
3、本回复中涉及的我国、我国经济以及行业的事实、预测和统计,包括本公司的市场份额等信息,来源于一般认为可靠的各种公开信息渠道。本公司从上述来源转载或摘录信息时,已保持了合理的谨慎,但是由于编制方法可能存在潜在偏差,或市场管理存在差异,或基于其它原因,此等信息可能与国内或国外所编制的其他资料不一致。
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-3
目 录
问题1 ...... 4
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-4
问题1
1、根据发行人提供的经会计师审阅的2020年财务数据,发行人2020年度营业收入为23,337.40万元。请发行人补充论证说明,其是否符合《科创属性评价指引(试行)》的相关要求,是否具备科创属性、符合科创板行业定位。请保荐机构核查并发表明确意见。
答复:
发行人说明事项
发行人符合《科创属性评价指引(试行)》的相关要求,具备科创属性、符合科创板行业定位。具体说明如下:
一、发行人2020年度受新冠疫情影响,营业收入略有下降,但并未对公司整体行业定位、产品结构及竞争力、科技创新能力、技术及研发实力等方面造成不利影响。发行人仍持续具备科创属性,科创属性未发生变化,符合科创板行业定位
(一)公司主营业务、核心技术、形成主营业务收入的核心产品均未发生变化,行业领域属于《指引》和《暂行规定》所列符合科创板定位的行业领域
根据《关于在上海证券交易所设立科创板并试点注册制的实施意见》《科创板首次公开发行股票注册管理办法(试行)》《科创属性评价指引(试行)》(以下简称《指引》)和《上海证券交易所科创板企业发行上市申报及推荐暂行规定》(以下简称《暂行规定》)要求,申报科创板发行上市的发行人应属于新一代信息技术、高端装备、新材料、新能源、节能环保、生物医药或其他符合科创板定位的行业领域。
发行人主要从事训练数据的研发设计、生产及销售业务,生产过程中需要设计训练数据集结构、采集原料数据、对原料数据进行加工处理和质检,最终形成可供AI算法模型训练使用的训练数据集,与数据加工处理息息相关。结合国家统计局《战略性新兴产业分类(2018)》,发行人所从事的训练数据生产业务属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”行业。
因此,发行人属于新一代信息技术行业领域,符合科创板行业定位。
本落实函回复中,涉及2020年度财务数据的均采用经会计师审阅的2020年财务数据计算。
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-5
(二)2020年度,公司持续推进产品研发和技术创新,研发投入金额及发明专利数量持续增长,持续符合《指引》和《暂行规定》关于研发投入金额占比及发明专利数量的指标规定
2020年以来,发行人继续保持了较高的研发投入力度,不断增强技术创新能力,2020年度研发投入金额为4,164.04万元,2018-2020年累计研发投入占累计营业收入比例为16.68%。2020年申报科创板IPO至今,发行人新增主营业务相关的发明专利10项,截至目前已拥有形成主营业务收入的发明专利22项。发行人研发投入金额及发明专利数量持续符合《指引》《暂行规定》关于研发投入金额占比及发明专利数量的指标规定。
(三)2020年度新冠肺炎疫情对公司营业收入的负面影响为短期性、暂时性情形,不会对公司未来长期经营能力及成长性造成重大不利影响,公司具有持续成长性,符合科创板定位要求
2020年,发行人实现营业收入23,337.40万元,同比下降1.76%,主要原因是2020年全球新冠疫情持续爆发,新冠疫情防控期间原料数据现场采集、标注工作受到限制导致项目实施、产品开发、交付验收的进度均受到影响;同时由于客户停工,延迟了客户新增采购需求,导致新增合同订单增速、项目沟通及验收效率均有所降低所致。随着我国疫情得到有效控制和全球疫苗接种的逐步普及,新冠疫情对发行人业务的影响逐渐减退。发行人预计2021年第一季度实现营业收入约4,400万元至4,500万元,同比增长约40.75%至43.95%,继续表现出较强的成长性。因疫情影响造成的公司营业收入增速下降为短期性、暂时性情形,不会对公司未来长期经营能力及成长性造成重大不利影响,公司具有持续成长性,符合科创板定位要求。
综上,2020 年度,公司营业收入增幅略有下降的情形并未对公司整体行业定位、产品结构及竞争力、科技创新能力、技术及研发实力、公司持续成长性等方面造成不利影响,发行人仍持续具备科创属性,科创属性未发生变化,符合科创板行业定位。
二、公司符合科创属性评价标准具体要求
发行人符合《指引》《暂行规定》的科创属性评价标准要求:
(1)发行人已在招股说明书、发行保荐书等发行申请文件中对发行人符合科创属性评价标准一相关要求的情况进行了充分论证,具体如下:
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-6
科创属性评价标准一 | 是否符合 | 指标情况 |
最近三年累计研发投入占最近三年累计营业收入比例≥5%,或最近三年累计研发投入金额≥6000万元 | √是 □否 | 2017-2019年累计研发投入占累计营业收入比例:17.17% |
形成主营业务收入的发明专利(含国防专利)≥5项 | √是 □否 | 形成主营业务收入的发明专利:22项 |
最近三年营业收入复合增长率≥20%,或最近一年营业收入金额≥3亿 | √是 □否 | 2017-2019年营业收入复合增长率:41.25% |
现对发行人符合科创属性评价标准二相关要求的情况补充论证如下:
发行人符合科创属性评价标准二的相关要求:
科创属性评价标准二 | 是否符合 | 主要依据 |
拥有的核心技术经国家主管部门认定具有国际领先、引领作用或者对于国家战略具有重大意义。 | □是 √否 |
□是 √否 | ||
独立或者牵头承担与主营业务和核心技术相关的“国家重大科技专项”项目。 | □是 √否 | |
依靠核心技术形成的主要产品(服务),属于国家鼓励、支持和推动的关键设备、关键产品、关键零部件、关键材料等,并实现了进口替代。 | √是 □否 | 参见下文论述。 |
形成核心技术和主营业务收入相关的发明专利(含国防专利)合计50项以上。 | □是 √否 |
因此,除科创属性评价标准一外,发行人也符合“科创属性评价标准二”第四条“依靠核心技术形成的主要产品(服务),属于国家鼓励、支持和推动的关键设备、关键产品、关键零部件、关键材料等,并实现了进口替代”的相关要求。对发行人符合科创属性评价标准二(四)相关要求的情况具体说明如下:
(一)发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键设备、关键产品、关键零部件、关键材料等
1、根据国家战略、产业政策,发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键产品
发行人依靠核心技术形成的主要产品/服务为训练数据产品/服务,服务于人工智能技术的训练、测试等环节,是当前阶段人工智能技术和行业发展的关键产品。具体依据说明如下:
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-7
序号 | 实施时间 | 颁布主体 | 国家战略/产业政策 | 相关内容 | 发行人产品/服务匹配情况说明 |
1 | 2015年7月 | 国务院 | 《国务院关于积极推进“互联网+”行动的指导意见》 | “培育发展人工智能新兴产业。建设支撑超大规模深度学习的新型计算集群,构建包括语音、图像、视频、地图等数据的海量训练资源库,加强人工智能基础资源和公共服务等创新平台建设。进一步推进计算机视觉、智能语音处理、生物特征识别、自然语言理解、智能决策控制以及新型人机交互等关键技术的研发和产业化,推动人工智能在智能产品、工业制造等领域规模商用,为产业智能化升级夯实基础。” | 发行人提供的训练数据产品/服务,充分服务于该指导意见所指的人工智能关键技术的研发和优化环节,是人工智能算法模型实现大规模商用、产业化智能升级的关键基础。 |
2 | 2016年5月 | 国家发展改革委、科技部、工业和信息化部、中央网信办 | 《“互联网+”人工智能三年行动实施方案》 | “总体思路。??着力突破若干人工智能关键核心技术,增强智能硬件供给能力。” “实施目标。到2018年,打造人工智能基础资源与创新平台,人工智能产业体系、创新服务体系、标准化体系基本建立,基础核心技术有所突破,总体技术和产业发展与国际同步,应用及系统级技术局部领先。在重点领域培育若干全球领先的骨干企业,初步建成基础坚实、创新活跃、开放协作、绿色安全的产业生态,形成千亿级的市场应用规模” “主要任务:加快建设文献、语音、图像、视频、地图等多种类数据的海量训练资源库和基础资源服务公共平台,建设支撑超大规模深度学习的新型计算集群,建立完善产业公共服务平台。” | 发行人提供的训练数据产品/服务,从属于“突破人工智能关键技术”的总体思路,是该方案提出的、实现关键技术突破的主要任务(加快建设海量训练资源库)的构成部分。 |
3 | 2017年7月 | 国务院 | 《新一代人工智能发展规划》 | “加速积累的技术能力与海量的数据资源、巨大的应用需求、开放的市场环境有机结合,形成了我国人工智能发展的独特优势。” 一、战略态势/(三)战略目标:“??到2030年:“人工智能产业竞争力达到国际领先水平。人工智能在生产生活、社会治理、国防建设各方面应用的广度深度极大拓展,形成涵盖核心技术、关键系统、支撑平台和智能应用的完备产业链和高端产业群,人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。” 三、重点任务/(一)构建开放协同的人工智能科技创新体系/统筹布局人工智能创新平台/专栏3 基础支撑平台:“人工智能基础数据与安全检测平台。建设面向人工智能的公共数据资源库、标准测试数据集、云服务平台,建立人工智能算法与平台安全性测试模型及评估模型,研发人工智能算法与平台安全性测评工具集。” | 发行人提供的训练数据产品/服务,是人工智能产业链的重要构成部分,从原料角度为人工智能关键技术发展提供了支撑,是人工智能关键技术发展的关键产品。 建设面向人工智能的训练数据资源是《新一代人工智能发展规划》重点任务之一。 |
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-8
序号 | 实施时间 | 颁布主体 | 国家战略/产业政策 | 相关内容 | 发行人产品/服务匹配情况说明 |
4 | 2017年12月 | 工业和信息化部 | 《促进新一代人工智能产业发展三年行动计划(2018-2020年)》 | “以信息技术与制造技术深度融合为主线,推动新一代人工智能技术的产业化与集成应用,发展高端智能产品,夯实核心基础,提升智能制造水平,完善公共支撑体系,促进新一代人工智能产业发展,推动制造强国和网络强国建设,助力实体经济转型升级。” “一、总体要求/(三)行动目标:??“人工智能产业支撑体系基本建立,具备一定规模的高质量标注数据资源库、标准测试数据集建成并开放” “五、构建支撑体系:面向重点产品研发和行业应用需求,支持建设并开放多种类型的人工智能海量训练资源库、标准测试数据集和云服务平台??,着重在以下领域率先取得突破: (一)行业训练资源库。面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域,支持建设高质量人工智能训练资源库、标准测试数据集并推动共享,鼓励建设提供知识图谱、算法训练、产品优化等共性服务的开放性云平台。到2020年,基础语音、视频图像、文本对话等公共训练数据量大幅提升,在工业、医疗、金融、交通等领域汇集一定规模的行业应用数据,用于支持创业创新。” | 发行人提供的训练数据产品/服务,是人工智能产业链的重要构成部分,为人工智能关键技术发展提供了支撑,是人工智能关键技术发展的关键产品。 |
5 | 2017年12月 | 工业和信息化部 | 《促进新一代人工智能产业发展三年行动计划(2018-2020年)》解读 | “《行动计划》按照“系统布局、重点突破、协同创新、开放有序”的原则,在深入调研基础上研究提出四方面重点任务,共17个产品或领域: ?? 四是构建行业训练资源库、标准测试及知识产权服务平台、智能化网络基础设施、网络安全保障等产业公共支撑体系,完善人工智能发展环境。 目前,我国人工智能发展的痛点问题之一就是缺少有效的行业资源训练库等公共服务支撑体系,业界普遍反映已经影响了人工智能技术发展及在行业中的应用。《行动计划》注意到了这一关键问题,加大对产业公共服务平台的支持,将形成有效引导,不断完善产业发展环境。” | 发行人提供的训练数据产品/服务从属于《促进新一代人工智能产业发展三年行动计划(2018-2020年)》发展的“重点任务”,是我国人工智能发展的痛点问题。训练数据产品/服务从原料角度为人工智能关键技术发展提供了支撑,是人工智能关键技术发展的关键产品。 |
6 | 2017年12月 | 中共中央政治局 | 中共中央政治局第二次集体学习 | 习近平2017年12月8日主持十九届中共中央政治局第二次集体学习时提出:“要构建以数据为关键要素的数字经济。建设现代化经济体系离不开大数据发展和应用。我们要坚持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合,??,发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。” | 发行人提供的训练数据产品/服务是数字经济的关键要素,是推动人工智能技术发展、推动人工智能同实体经济深度融合的关键要素。 |
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-9
序号 | 实施时间 | 颁布主体 | 国家战略/产业政策 | 相关内容 | 发行人产品/服务匹配情况说明 |
7 | 2018年10月 | 中共中央政治局 | 人工智能发展现状和趋势第九次集体学习 | “支持科学家勇闯人工智能科技前沿的‘无人区’,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破,确保我国在人工智能这个重要领域的理论研究走在前面、关键核心技术占领制高点。要主攻关键核心技术,以问题为导向,全面增强人工智能科技创新能力,加快建立新一代人工智能关键共性技术体系,在短板上抓紧布局,确保人工智能关键核心技术牢牢掌握在自己手里。要强化科技应用开发,紧紧围绕经济社会发展需求,充分发挥我国海量数据和巨大市场应用规模优势,坚持需求导向、市场倒逼的科技发展路径,积极培育人工智能创新产品和服务,推进人工智能技术产业化,形成科技创新和产业应用互相促进的良好发展局面。” “要培育具有重大引领带动作用的人工智能企业和产业,构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。” | 发行人提供的训练数据产品/服务助力于“发挥我国海量数据和巨大市场应用规模优势”,服务于我国主攻“人工智能关键核心技术”的重要进程。 |
8 | 2018年11月 | 工业和信息化部 | 《新一代人工智能产业创新重点任务揭榜工作方案》、解读 | 为贯彻落实党的十九大精神,加快我国新一代人工智能产业创新发展,基于《促进新一代人工智能产业发展三年行动计划(2018-2020年)》中部署的重点任务和目标,人工智能揭榜工作将在17个方向及细分领域,征集并遴选一批掌握关键核心技术、具备较强创新能力的创新主体,在人工智能主要细分领域,选拔领头羊、先锋队,以突破产业发展的短板和瓶颈,加快我国人工智能产业与实体经济深度融合。 “重点突破一批技术先进、性能优秀、应用效果好的人工智能标志性产品、平台和服务,为产业界创新发展树立标杆和方向,培育我国人工智能产业创新发展的主力军。” “选择高质量的行业训练资源库??等作为揭榜攻关任务。这些资源体系是影响人工智能健康发展的重要要素,需要加快完善基础环境、保障平台,加快形成我国人工智能产业创新发展的支撑能力。” | 发行人于2019年入选工业和信息化部前述“新一代人工智能产业创新重点任务入围揭榜单位”并于2021年4月揭榜优胜,主导参与该创新重点任务“(四)支撑体系-行业训练资源库”的相关建设工作,是受到工信部认可的掌握关键核心技术、具备较强创新能力以突破产业发展的短板和瓶颈的创新主体。发行人产出的大规模、高质量训练数据库产品属于工信部认可的技术先进、性能优秀、应用效果好的标志性产品,是影响我国人工智能健康发展的重要要素。 |
9 | 2020年3月 | 国务院 | 《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》 | “六、加快培育数据要素市场:培育数字经济新产业、新业态和新模式,??,提升社会数据资源价值。培育数字经济新产业、新业态和新模式,支持构建农业、工业、交通、教育、安防、城市管理、公共资源交易等领域规范化数据开发利用的场景。发挥行业协会商会作用,推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化。” | 发行人提供的训练数据产品/服务符合我国加快培育数据要素市场的战略规划和要求。 |
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-10
序号 | 实施时间 | 颁布主体 | 国家战略/产业政策 | 相关内容 | 发行人产品/服务匹配情况说明 |
10 | 2020年7月 | 工业和信息化部 | 《关于开展第二批专精特新“小巨人”企业培育工作的通知》 | “专精特新‘小巨人’企业主导产品应符合《工业“四基”发展目录》所列重点领域,从事细分产品市场属于制造业核心基础零部件、先进基础工艺和关键基础材料;或符合制造强国战略明确的十大重点产业领域,属于重点领域技术路线图中有关产品;或属于产业链供应链关键环节及关键领域‘补短板’产品;或属于国家和各省(区、市)重点鼓励发展的支柱和优势特色产业等领域。” | 发行人入选工业和信息化部第二批专精特新“小巨人”企业名单,表明发行人主导产品符合该通知所述核心基础零部件、先进基础工艺、关键基础材料;或“重点领域”相关产品、产业链供应链关键环节及关键领域‘补短板’产品或国家/省重点鼓励发展的支柱优势特色产业领域。 |
11 | 2021年3月 | 十三届全国人大四次会议 | 《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》 | 第五篇 加快数字化发展 建设数字中国: “迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。” “第十五章 打造数字经济新优势 充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,壮大经济发展新引擎。 第一节 加强关键数字技术创新应用:聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域” “专栏8 数字经济重点产业-06人工智能:建设重点行业人工智能数据集,发展算法推理训练场景” | 人工智能是数字经济的关键领域,训练数据是拓展人工智能算法推理场景的关键产品。 |
(1)人工智能是国家战略、产业政策大力支持的关键技术领域,多个国家部门在该领域频频出台政策,推进人工智能关键技术发展和人工智能训练数据资源建设人工智能发展至今已成为引领新一轮科技革命和产业变革的重要驱动力,对经济发展、社会治理和民生福祉产生极其深刻的影响。于经济发展而言,人工智能是引领未来的战略性技术,全球主要国家及地区都把发展人工智能作为提升国家竞争力、推动国家经济增长的重大战略。近年来,国务院、工信部、发改委等多个部门陆续出台多项国家战略/产业政策,大力推进人工智能关键技术发展,如《国务院关于积极推进“互联网+”行动的指导意见》《“互联网+”人工智能三年行动实施方案》《新一代人工智能发展规划》《促进新一代人工智能产业发展三年行动计划(2018-2020年)》等提出“着力突破若干人工智能关键技术”、“确保我国在人工智能这个重要领域的理论研究走在前面、关键核心技术占领制高点”。
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-11
同时,与发展人工智能这一关键技术的目标相配套,前述文件政策也大力推进人工智能训练数据资源发展,将训练数据的发展作为突破人工智能关键技术的主要任务之一,提出“构建包括语音、图像、视频、地图等数据的海量训练资源库”、“加快建设文献、语音、图像、视频、地图等多种类数据的海量训练资源库”、“建设面向人工智能的公共数据资源库、标准测试数据集”。
此外,国务院《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》、十三届全国人大四次会议《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》也持续强调数据作为数字经济关键要素的重要性,提出“加强关键数字技术创新应用:聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域”、“建设重点行业人工智能数据集,发展算法推理训练场景”。
(2)发行人提供的训练数据服务于人工智能关键技术的训练测试及领域拓展进程,是人工智能技术发展的关键产品
工业和信息化部在关于《促进新一代人工智能产业发展三年行动计划(2018-2020年)》(以下简称“行动计划”)的解读中指出:目前我国人工智能发展的痛点问题之一就是缺少有效的行业资源训练库等公共服务支撑体系,业界普遍反映已经影响了人工智能技术发展及在行业中的应用;《行动计划》注意到了这一关键问题,加大对产业公共服务平台的支持,将形成有效引导,不断完善产业发展环境。国务院《关于积极推进“互联网+”行动的指导意见》提出建设海量训练数据资源库,进而推进各项人工智能关键技术的研发和产业化。国家发展改革委、科技部、工业和信息化部、中央网信办出台的《“互联网+”人工智能三年行动实施方案》(以下简称“实施方案”)则将加快建设海量训练数据资源库认定为“互联网+”人工智能三年行动实施方案的主要任务之一,整体服务于“突破人工智能关键技术”的总体思路。
结合上述产业政策,发行人提供的训练产品/服务从属于产业政策拟大力发展的人工智能训练数据资源库范畴,是建设海量训练数据资源库、突破人工智能关键技术这一产业任务的主要构成部分。发行人的训练数据产品响应于国家发展人工智能关键技术的战略意图,是国家鼓励、支持和推动的关键产品。
依据上述政策,发行人于2019年入选工业和信息化部 “新一代人工智能产业创新重点任务入围揭榜单位”名单并于2021年4月揭榜优胜,根据工业和信息化部《新一代
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-12
人工智能产业创新重点任务揭榜工作方案》,揭榜优胜单位应是掌握关键核心技术、具备较强创新能力以突破产业发展的短板和瓶颈的创新主体。同时,公司于2020年入选工业和信息化部第二批专精特新“小巨人”企业名单,根据工业和信息化部《关于开展第二批专精特新“小巨人”企业培育工作的通知》,专精特新“小巨人”企业主导产品应符合该《工业“四基”发展目录》所述核心基础零部件、先进基础工艺、关键基础材料;或“重点领域”相关产品、产业链供应链关键环节及关键领域‘补短板’产品或国家/省重点鼓励发展的支柱优势特色产业领域。以上由国家部委授予的荣誉、认证均验证了发行人掌握关键核心技术,具备较强的科创能力,发行人提供的产品/服务是突破产业发展、国家战略鼓励的关键产品。
2、根据国家主管部门证明及行业专家评定,发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键产品
为贯彻落实党的十九大精神,加快我国人工智能产业创新发展,按照国务院《新一代人工智能发展规划》(国发〔2017〕35号)和《促进新一代人工智能产业发展三年行动计划(2018-2020)》(工信部科〔2017〕315号)部署,工信部于2018年底启动了新一代人工智能产业创新重点任务揭榜工作,旨在选拔一批在我国人工智能主要细分领域掌握关键核心技术,聚焦并能突破人工智能产业发展短板瓶颈,具有国际竞争力、领先性的标杆企业。
根据工信部科技司出具的《关于对北京海天瑞声科技股份有限公司相关情况说明的复函》工科函〔2021〕277号认定:“为加快推动我国新一代人工智能产业创新发展,我部于2018年底印发《新一代人工智能产业创新重点任务揭榜工作方案》(工信厅科函〔2018〕80号),聚焦人工智能产业发展重点领域,遴选培育掌握关键核心技术、具备较强创新能力的企事业单位,壮大发展产业力量。北京海天瑞声科技股份有限公司揭榜承担了“行业训练资源库”方向任务,经专家评议和专业机构测评,成果达到预期指标,完成了揭榜任务,被我部确认为新一代人工智能产业创新重点任务揭榜优胜单位。”
此外,经中国信息通信研究院组织,共计5名中国工程院院士、中国科学院等科研机构正高研究员及教授、行业资深人士等行业专家对发行人产品/服务情况及技术水平进行了评定。经前述行业专家确认:“发行人所提供的训练数据已经成为国家鼓励、支持和推动的人工智能产业发展所必需的关键产品,是形成我国人工智能产业创新发
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-13
展的关键性基础能力,是攻克我国人工智能产业基础发展瓶颈的关键一环。”
综上主管部门说明及行业专家评定,发行人在训练数据领域掌握了关键核心技术,具备较强的创新能力,突破了人工智能产业发展短板瓶颈,是具有国际竞争力、领先性的标杆企业,所提供的训练数据产品或服务是国家鼓励、支持和推动的人工智能产业发展所必需的关键产品。
(二)发行人主要产品/服务的进口替代依据和技术先进性情况说明
1、实现进口替代的发行人产品/服务主要为智能语音类训练数据产品/服务
发行人实现进口替代的主要产品/服务为智能语音类训练数据。在该产品/服务领域,发行人在国内企业中起步较早,并持续陪伴我国人工智能产业发展,为下游人工智能行业实现了智能语音训练数据的国产、独立、自主供应,避免海外进口冲击、达到了进口替代的作用。
智能语音类训练数据产品/服务是发行人报告期内的主要收入来源,且均为发行人依靠其核心技术开展经营所产生的收入,占发行人营收比例较高,2017年、2018年、2019年及2020年1-9月分别达到82.43%、82.57%、80.49%及78.94%。2017-2019年,发行人智能语音领域训练数据产品/服务实现了高速增长,三年复合增长率达到39.58%。
2、发行人通过核心技术优势和经营成果,实现了基础数据服务行业的国产优势,有效地降低进口依赖和发展产业的独立自主,实现了进口替代的目的
进口替代的最终目的是通过国内市场主要由本国生产者供应,减少或者完全消除该种产品的进口,实现经济上的独立自主。发行人基于自身拥有的和积累的核心技术优势和经营成果,实现了基础数据服务行业的国产优势,从而有效地降低进口依赖并发展产业的独立自主,实现了进口替代的目的。
(1)中国人工智能产业蓬勃发展,Appen作为从事训练数据服务的主要国外厂商,其竞争实力较强,拓展中国市场的战略方向明确
近年来,我国人工智能产业从基础支撑、核心技术到行业应用的产业链条基本形成,一批创新活跃、特色鲜明的创新企业加速成长,新模式、新业态不断涌现,整体呈现蓬勃发展态势。根据国际数据公司(IDC)的数据,中国人工智能产业规模预计将在2023年将达174.68亿美元,年复合增长率达到40.52%。截至2019年年末,中国
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-14
(不含港澳台)活跃AI企业达到1,189家,占全球总数的22.08%,位居全球第二。与此
同时,随着我国人工智能产业高速发展,数据作为核心发展要素之一,其重要性和市场规模也不断提升。根据艾瑞咨询《2020年中国AI基础数据服务行业研究报告》,2019年中国基础数据服务行业的市场规模达到30.9亿元,预计2025年将突破100亿元,复合年增长率达到21.8%。因此,我国基础数据服务行业日益增长的行业需求使得国内市场成为了包括国外厂商在内的训练数据服务厂商的必争之地。从事训练数据服务的主要国外厂商包括Appen、Definedcrowd、Zen3Tech等公司。其中Appen为上市公司,通过其信息披露可以获知,其整体竞争实力较强,且中国市场是其重点业务方向。Appen成立于1996年,是美国与澳大利亚的合资公司,并于2015年在澳大利亚上市,是全球较早从事数据资源开发的数据资源产品服务提供商,经营历史较长,实力较强。Appen拥有人工智能辅助数据注释平台,训练数据涵盖科技、汽车、金融服务、零售、医疗健康和政府等各个领域,2020年营业收入59,938万澳元,净利润5,051万澳元,目前员工数量1100余人,覆盖235个语种/方言,具备较大的体量规模和广泛的语种资源能力。
同时,根据Appen年报等信息披露文件显示,Appen成功上市后,成为澳大利亚资本市场表现优异的科技龙头股之一,通过资本运作,启动全球布局,继续加强拓展中国市场已成为Appen战略重心之一。Appen已建立专门的运营和产品团队服务中国市场,中国市场对于Appen业绩的持续增长变得日趋重要。Appen负责中国市场的大中国区总经理已出任全球高级副总裁,截至目前Appen已在中国设立3家全资子公司,中国现已成为Appen除美国外设立子公司数量最多的国家,人员和机构设置均体现了Appen对中国市场的高度重视。
(2)海天瑞声是国内最早从事人工智能基础数据服务的公司,并实现了基础数据服务的国产优势,达到了进口替代的目的
发行人是我国领先的训练数据专业提供商,自2005年成立以来始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。发行人的进口替代体现在两个方面:
第一,发行人成功替代Appen等公司成为全球科技巨头在中国设立的分支研究机
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-15
构的供应商。1995年至1998年,IBM、微软、Intel等相继在中国设立分支研究机构,分别为IBM中国研究院、微软亚洲研究院、英特尔中国研究中心。各分支研究机构成立后,主要从Appen购买基础数据用于模型训练。
2005年发行人成立后至2012年期间,上述分支研究机构陆续与发行人开展合作,其主要基础数据服务供应商由Appen等国外厂商变更为发行人,验证了发行人在基础数据服务领域的技术先进性和产品服务优势,实现了对国外厂商的进口替代。
发行人与上述分支研究机构开展合作的具体情况如下:
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-16
序号 | 客户 | 开始合作时间 | 销售内容 | 典型应用场景 | 典型应用效果 | 报告期内销售金额(万元) |
1 | 微软亚洲研究院 | 2005年 | 语音识别、语音合成相关产品及服务 | 人机交互、机器人、智慧医疗、公共安全 | 通过中英日韩德法意西等语音数据,完善了语音语义、机器翻译等多项技术,搭建了人工智能云平台,在公共安全、智能机器人、智慧医疗等领域做出了卓越的贡献。 | 2,821.11 |
2 | IBM中国研究院 | 2007年 | 语音识别、语音合成相关产品及服务 | 智慧教育、智慧医疗 | 通过使用德语、西班牙、法语等识别语音数据库,完善了语音识别,语义分析模型,在人工智能医疗和智慧教育领域取得了进一步发展。 | 181.36 |
3 | 英特尔中国研究中心 | 2012年 | 语音识别相关产品及服务 | 芯片深度学习功能 | 通过使用日、英以及印地语和一些美洲语言的识别数据,完善了其人工智能芯片的功能,在深度学习领域又迈进了一步。 | 340.82 |
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-17
第二,发行人的成立和发展与我国AI产业发展和对训练数据的需求是同步的,始终保持了该领域的国产优势,实现了训练数据供应的独立、自主。
发行人自2005年成立至今,一直致力于训练数据的研发和生产,成立早期主要与全球科技巨头在中国设立的分支研究机构合作,掌握了最前沿的训练数据需求,积累下技术储备和管理经验;而后在国内AI产业起步过程中,利用自身已有的积累,为国内客户提供训练数据方面的整体解决方案,充分满足了国内客户的训练数据需求,对我国AI产业的发展起到了显著的推动作用。
如今,发行人经过长期经营积累了12项核心技术,并拥有对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力,以及AI辅助标注及精细标注能力,所提供的训练数据全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景,同时其本地化优势使得发行人能够为国内客户提供更高效更及时的持续服务。
其中,智能语音为发行人的优势领域,产品线已包含150余个主要语种及方言,发行人提供的多语种智能语音训练数据帮助众多国内客户实现了多功能、多地域等国际业务扩张,提高国内厂商在国际上的综合竞争力。尤其近年来持续响应国家“一带一路”整体规划,语言研究能力已覆盖规划内的54个国家的42个语种及方言,累计词条数近350万条。截至目前,发行人智能语音训练数据相关的产品和服务获得了阿里巴巴、腾讯、百度、科大讯飞、中国科学院、清华大学等国内大型科技公司、人工智能企业和科研机构的广泛认可,累计覆盖国内客户273家。
发行人与各类主要国内客户开展合作的具体情况如下:
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-18
序号 | 客户 | 开始合作时间 | 销售内容 | 典型应用场景 | 典型应用效果 | 报告期内销售金额(万元) |
1 | 科大讯飞 | 2008年 | 语音识别、语音合成相关产品及服务 | 语音输入、智能家居、语音翻译 | 通过使用中文、方言、英语、东南亚语种类等数据,拓展了国内及东南亚的语音技术产品的市场,巩固了语音交互产品的业务,产品市场占有率提高。 | 370.39 |
2 | 清华大学 | 2008年 | 语音识别、语音合成相关产品及服务 | 智能问答 | 通过使用西班牙语、土耳其语、朝鲜语、缅甸语、哈萨克斯坦语等语种的语音识别数据,加深一带一路人工智能学术带应用,深化产学研用,孵化包括智能问答在内的人工智能新兴产业。 | 63.46 |
3 | 阿里巴巴 | 2010年 | 语音识别、语音合成相关产品及服务 | 智能客服 | 通过使用多语种的语音识别和语音合成数据,完善了国际电商平台的产品相关功能和体验,取得了较好的产品体验。 | 7,955.24 |
4 | 百度 | 2011年 | 语音识别、语音合成相关产品及服务 | 语音输入、智能家居、机器人、语音导航、智能播报、语音翻译 | 通过使用中文、方言数据,完善了语音识别、语音合成模型,用于资讯信息、地图、搜索、音箱、手表等产品,取得了较好的产品体验。 | 1,805.75 |
5 | 腾讯 | 2012年 | 语音识别、语音合成相关产品及服务 | 语音输入、机器人、语音翻译 | 通过使用中文、方言类等数据,拓展了国内微信等APP语音交互产品的市场,巩固了社交、云服务等业务,完善了语音交互、语音合成等产品,取得了较好的产品体验。 | 5,341.63 |
6 | 华为 | 2012年 | 语音识别、语音合成相关产品及服务 | 个人助手、语音输入、语音翻译 | 通过使用多语种数据,拓展了海外手机市场,巩固了手机业务,完善了手机的语音交互、云产品等服务,取得了较好的产品体验。 | 921.60 |
7 | 联想 | 2013年 | 语音识别相关产品及服务 | 个人助手、语音输入 | 通过使用英语语音识别数据,主要用于扩展东南亚、非洲市场,完善了语音助手在英语识别的功能,拓展了智能手机等周边产品的业务。 | 431.47 |
8 | 小米 | 2016年 | 语音识别、语音合成相关产品及服务 | 语音输入、智能家居、机器人 | 通过使用印度英语识别数据,拓展了印度市场,主要用于音箱、智能家居等产品。 | 1,013.22 |
9 | 字节跳动 | 2017年 | 语音识别、语音合成相关产 | 语音输入、语音翻译 | 通过使用方言、英语、巴葡、日语等数据,拓展了短视频的智能语音应用,以及社交产品的语音交互功 | 1,009.90 |
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-19
品及服务 | 能,取得了较好的产品体验。 | |||||
10 | VIPKID | 2018年 | 语音识别相关产品及服务 | 语音输入、语音翻译 | 通过使用英语语音识别数据,完善了课堂语音自动转写业务,实现了对课堂教学质量的有效监督和质检。 | 285.68 |
8-1-20
发行人除向上述国内的商业客户提供智能语音训练数据产品及服务外,也为中央网信办下属单位国家计算机网络与信息安全管理中心等政府客户提供其产品及服务。随着人工智能技术在我国社会安全、互联网安全等方面的介入和应用,国家有关部门对训练数据的需求也越来越高,由于该类训练数据涉及的领域比较特殊,涉及国家公共安全特征,因此对国产化要求高。发行人所拥有的核心技术能力和丰富语种资源,能够充分满足现有国产化要求,使建设国家公共安全的训练数据研发与生产的核心技术掌握在中国人手中,对我国公共安全信息化建设具有重要支撑作用。根据国家计算机网络与信息安全管理中心出具的说明函:“海天瑞声在为中心提供训练数据产品、服务的过程中,符合国内企业身份,在企业实力、关键技术、产品/服务能力、质量控制、管理能力等条件上具备明显优势,有效地满足了中心的相关训练数据采购需求,协助中心实现了同类训练数据国产化采购的要求。”
3、发行人通过自主研发,构建了人工智能算法技术和大数据处理技术结合的驱动机制,动态提升数据处理自动化程度,解决了智能语音训练数据规模化、场景化生产的技术难题,并保证数据质量、提高生产效率、降低数据成本。发行人基于核心技术所生产的智能语音训练数据在核心指标上与主要国外竞争对手相比具有一定的领先优势,具备技术先进性,能够有效地实现进口替代
(1)发行人通过持续的研发,积累了核心技术并充分运用于智能语音训练数据的生产工作中,实现降本增效,可高质高量地生产体量规模更大、场景覆盖更加全面、成本更为优化的智能语音训练数据,奠定了行业内的竞争地位
①随着人工智能行业技术水平的提升和下游客户研发周期更迭速度的加快,对大规模训练数据集、训练数据总量的需求持续增加。这直接导致在训练数据生产过程中,采集和加工的数据量持续扩大,对采集、加工、质检等环节的要求持续提升,具体包括:如何实现数据的高效流转、如何提升数据加工效率、如何缩短数据加工周期、如何保障数据安全等。仅仅靠拓展资源网络、堆集劳动力,已无法满足大规模训练数据高效生产的要求。大规模、高质量的训练数据成为人工智能产业发展的瓶颈之一。
发行人充分运用自身积累的人工智能算法、大数据处理技术,结合多年生产经验积累的技术诀窍(know-how),以算法技术作为数据处理平台和工具集的底层基础,形成高效、实用的算法平台和工具;并通过算法平台和工具对数据处理过程中的数据
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-21
分布规律和行为数据模型进行分析,不断动态调整人机协作的边界、拓展自动化数据处理的最大可能,提升训练数据生产效率,降低人工工作量、提高数据处理能力。在训练数据生产完毕后,发行人也用算法技术对训练数据执行大规模批量质检,降低人工检查的工作量,同时检验训练数据的训练效果、反哺指导训练数据的设计与生产。截至目前,发行人已积累了25个运用于训练数据生产过程的算法平台和工具,并利用上述技术提升了数据加工过程的效率及准确率。以词性预测算法工具为例,发行人针对不同语种/方言反复调整参数和算法,不断提升预测的准确率,提升数据加工效率、降低人力需求,目前词性预测算法的准确率由86%提升至96%
,基本实现了纯人力标注的替代。通过算法、大数据技术并用和驱动,发行人数据处理能力和效率大幅提升,可以充分满足下游市场对规模化智能语音训练数据的需求。报告期内发行人智能语音数据处理能力、效率量化指标如下:
应用领域分类 | 数据处理能力/数据处理效率定量描述情况 |
语音识别 | 报告期内平均每月采集近4,000人语音数据 每月最高可处理2万小时语音数据 |
语音合成 | 报告期内平均每月采集近150万字/词语音数据 每月最高可处理15万句语音数据 |
通过上述数据处理能力和效率的积累,发行人在自有知识产权智能语音训练数据产品数量、典型语种数据库数量、总时长、总人数等规模指标上,较国际主要竞争对手具备优势(详见后述“(2)发行人在智能语音训练数据各项指标上具备技术先进性,能够有效地实现进口替代”)。
②人工智能技术落地化应用于多种细分领域和具体行业之中,要使得算法技术实现更好的应用效果,就需要引入更贴近实际场景特征的训练数据对算法模型进行训练和优化。例如,对于拟应用于保险客服领域的语音识别算法模型,需要用具备保险客服领域特征和特有内容的专有数据集进行训练;拟应用于行车场景的语音识别算法模型,则需要用车载噪声环境特征的专有数据集加以训练,才能获得特定领域/环境的高识别率效果。对于智能语音训练数据的生产来说,这就要求在设计上覆盖更全面的因素、更细化的维度,以贴合场景化算法技术的训练需要;同时,在数据处理上需要有
上述数据来自发行人实验室模拟运算分析。
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-22
更多针对性强、定制化程度高的平台和工具,才能保证对场景化特征较强数据的自动化处理的效果和效率。
一方面,发行人通过深入掌握、理解算法技术和数据处理技术,兼顾下游模型训练需求和数据处理的可实现性,能够实现智能语音训练数据集设计的全面性和专业性,具体而言,主要体现在广泛的数据集内容设计能力、广泛的语种/方言、场景、领域等的覆盖能力。在智能语音训练数据领域,对比国际主要竞争对手,发行人在覆盖的文本类型、普通噪声环境类型、车载噪声环境类型、典型语种数据库采样率丰富度及等级、典型语音产品母语覆盖、年龄跨度、性别平衡的设计与实现及标注类型的丰富度和准确率等主要技术指标方面,均具备优势(详见后述“(2)发行人在智能语音训练数据各项指标上具备技术先进性,能够有效地实现进口替代”)。
另一方面,发行人在已有的算法平台和工具中,运用自身掌握的丰富的场景化数据,对底层的语音识别算法、语音合成算法进行训练,促使数据处理平台和工具进行定制化升级,加强其处理场景化数据的能力和效率,降低数据处理成本。目前,发行人可以覆盖个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译等多种应用场景,在诸多场景中持续保证训练数据生产效果和效率,并与国际主要竞争对手相比具备价格优势,例如在运营商智能客服场景中,发行人的市场价格较Appen低约50%-80%。
(2)发行人在智能语音训练数据各项指标上具备技术先进性,能够有效地实现进口替代
发行人与Appen在智能语音训练数据相关的产品和服务涉及的技术指标可以分为三个层面进行对比,分别为公司整体层面对比、典型产品类型层面对比和典型细分产品对比。
公司整体层面的能力储备和技术指标对比如下:
项目 | 海天瑞声 | Appen |
1、整体性指标 | ||
智能语音训练数据相关专利储备(已取得专利授权) | 18项(17项发明专利、1项实用新型专利) | 0项 |
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-23
智能语音训练数据产品储备7 | 534个 | 119个 |
语种/方言覆盖能力 | 150余个 | 235个 |
2、采集方案复杂度 | ||
采集设备种类 | 8 | 2 |
采集通道覆盖数 | 6 | 5 |
3、文本、环境覆盖范围 | ||
通用型单一训练数据产品覆盖的文本类型数量 | 1-18类不等 | 1~10类不等 |
文本类型示范 | 拼读词、命令词、数字串、自然数、时间、日期、人名、地名、歌曲名、机构名、长句等 | 数字串、自然数、字符串、命令词、申请词、长句等 |
车载型训练数据产品覆盖的文本类型数量 | 55类 | 8类 |
文本类型示范 | 数字串、街道名称、控制词、地名、命令词、英语、数字串、时间、日期、度量衡、长句、自然口语等 | 数字、自然数、街道名称、字母串、地点等 |
通用型单一训练数据产品覆盖的噪声环境类别数量 | 1-6 | 1-6 |
噪声环境类型 | 车内、办公室、家庭、医院、地铁、游戏场、餐厅/咖啡厅、商场、街道 | 办公室、家庭、街边、车内、公共场所、录音棚 |
车载型各训练数据产品覆盖的噪声环境类别数量 | 7 | 2 |
覆盖车载噪声环境具体类别 | 怠速、低速、低速噪音、高速、高速噪音、城市道路、城市道路噪音 | 怠速、高速 |
典型产品类型层面,语音识别12大语种数据库的技术指标对比如下:
对比分类 | 现有库数量(个) | 总时长(小时) | 总人数(人) | 采样率 | ||||
海天瑞声 | Appen | 海天瑞声 | Appen | 海天瑞声 | Appen | 海天瑞声 | Appen | |
中文 | 135 | 12 | 67,982 | 1,060 | 73,163 | 3,696 | 8KHz/16KHz/22.05KHz/44.1KHz/48KHz | 8KHz/16KHz |
英语 | 114 | 13 | 35,034 | 2,067 | 35,774 | 11,698 | 8KHz/16KHz/44.1KHz/48KHz | 8KHz/16KHz/48KHz |
海天瑞声数据:截至2020年9月30日;Appen数据:截至2020年12月公司官网及公开披露信息
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-24
法语 | 17 | 10 | 3,526 | 704 | 3,454 | 9,850 | 8KHz/16KHz/44.1KHz/48KHz | 8KHz/16KHz |
西班牙语 | 31 | 5 | 8,923 | 664 | 6,177 | 1,331 | 8KHz/16KHz/44.1KHz/48KHz | 8KHz/16KHz/22KHz |
葡萄牙语 | 10 | 3 | 2,192 | 95 | 1,924 | 502 | 8KHz/16KHz/44.1KHz/48KHz | 8KHz/16KHz |
阿拉伯语 | 3 | 9 | 1,042 | 1,083 | 582 | 3,271 | 16KHz/44.1KHz | 8KHz/16KHz |
印地语 | 6 | 2 | 4,254 | 256 | 3,597 | 2,916 | 8KHz/16KHz/44.1KHz | 8KHz |
俄语 | 10 | 4 | 2,287 | 294 | 2,088 | 3,415 | 8KHz/16KHz/44.1KHz | 8KHz/16KHz |
德语 | 11 | 7 | 2,293 | 457 | 2,092 | 6,592 | 8KHz/16KHz/44.1KHz/48KHz | 8KHz/16KHz |
日语 | 23 | 2 | 5,852 | 90 | 7,812 | 744 | 8KHz/16KHz/44.1KHz/48KHz | 16KHz |
韩语 | 19 | 1 | 3,814 | 20 | 6,264 | 100 | 8KHz/16KHz/44.1KHz/48KHz | 16KHz |
意大利语 | 8 | 7 | 1,960 | 509 | 1,863 | 5,260 | 8KHz/16KHz/44.1KHz/48KHz | 8KHz/22KHz/48KHz |
注:采样率指单位时间内对信号的采样频率。通常情况下对于声音信号来讲,采样率越高,其还原度越高。典型产品类型层面,语音合成5类语言数据库的技术指标对比如下:
对比分类 | 现有库数量(个) | 总时长(小时) | 采样率 | |||
海天瑞声 | Appen | 海天瑞声 | Appen | 海天瑞声 | Appen | |
英国英语 | 3 | 2 | 34.82 | 18.00 | 44.1KHz | 96KHz |
美国英语 | 6 | 0 | 89.45 | - | 44.1KHz /48KHz | - |
西班牙西班牙语 | 1 | 1 | 10.44 | 1.00 | 48KHz | 22KHz |
墨西哥西班牙语 | 1 | 0 | 39.97 | - | 44.1KHz | - |
意大利语 | 2 | 1 | 19.60 | 3.00 | 44.1KHz | 22KHz |
在典型细分产品层面,选取了发行人与Appen均具有代表性的语音识别数据、语
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-25
音合成数据库进行技术指标对比,具体情况如下:
1,000小时男女混美语语音识别数据库:
技术指标 | 海天瑞声 | Appen |
采样率 | 16KHz | 16KHz |
母语发音人比例 | 100% | 97% |
年龄覆盖系数 | 3.28 | 3.06 |
性别平衡度 | 1.17 | 1.27 |
文本标注正确率 | 98% | 98% |
发音标注正确率 | 98% | 96% |
时标正确率 | 99% | 80% |
注:采样率指单位时间内对信号的采样频率,通常情况下对于声音信号来讲,采样率越高,其还原度越高;年龄覆盖系数是指数据库设计的最高年龄与最低年龄的比,覆盖系数越高,其能够体现的年龄覆盖范围越广;性别平衡度是指数据库设计的男女发音比例,平衡度越趋近于1,数据库性别平衡越好;文本标注、发音标注、时标等正确率均体现数据加工的准确性,比例越高,数据质量越高。
10小时英国英语语音合成数据库:
技术指标 | 海天瑞声 | Appen |
采样率 | 44.1KHz | 96KHz |
文本标注等级 | 音素级 | 句子级 |
标注类型 | 韵律、词性、音素边界 | 词性、音素边界 |
韵律标注准确率 | 95% | 无 |
词性标准准确率 | 98% | 80%-90% |
音素边界标注准确率 | 99% | 70%-80% |
注:文本标注等级分为音素级、字词级、句子级,越接近音素级,标注难度越高,数据质量越高;标注类型及各项标注类型的准确率均体现数据加工的全面性和准确性,类型越多、比例越高,数据质量越高
由以上对比可以看出,发行人在智能语音训练数据研发核心技术发明专利数量、拥有自主知识产权的智能语音训练数据产品数量和规模、智能语音产品服务内容的全面性和专业性、智能语音主流语种成品训练数据集的核心指标、智能语音产品详细参数指标等方面普遍领先于Appen,其智能语音训练数据产品及服务具备技术先进性,能够有效地实现进口替代。
4、发行人已经在业务实践中受到行业高度认可
发行人作为我国最早进入基础数据服务行业的企业之一,多年的业务实践中提供
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-26
的智能语音训练数据产品及服务已覆盖多个语种/方言和多项应用场景,赢得了阿里巴巴、腾讯、百度、微软、三星、亚马逊、科大讯飞、字节跳动、中国科学院、清华大学等众多大型优质客户的认可。同时,公司先后获得国家重点软件企业、国家高新技术企业等资质,成为中国人工智能产业发展联盟理事单位、中国语音产业联盟理事会员单位、中关村高新技术企业协会理事单位,并荣膺多项国内外人工智能领域奖项和荣誉称号。
同时,根据由中国信息通信研究院组织、共计5名中国工程院院士、中国科学院等科研机构正高研究员及教授、行业资深人士等行业专家出具的专家意见:
“与国际主要竞争对手相比,海天瑞声在主营业务覆盖广度、核心技术发明专利数量、拥有自主知识产权的训练数据产品数量和规模、主流语种语音类成品训练数据集的核心指标对比、语音类产品服务内容的全面性和专业性等方面已经具备领先优势。同时,海天瑞声在整体技术实力、应用领域覆盖能力等方面已与国际主要竞争对手保持同步领先水平。
在国际产业竞争日趋激烈的大环境下,海天瑞声依托其100%自主研发的国产化技术体系、生产体系,实现了同类产品服务的进口替代,其产出的大规模、高质量的训练数据资源集群对带动我国人工智能训练数据建设与发展起到了引领作用,对加快构建我国人工智能产业发展体系、完成人工智能在国家战略层面的系统布局起到了积极的推动作用,具备广阔的市场应用前景。”
(三)发行人主要产品/服务的进口替代效果及前景
1、人工智能基础数据服务保持了较高国产化率,发行人市场份额排名领先
以海天瑞声为代表的国内人工智能基础数据服务厂商在国内人工智能产业发展过程中通过经营积累和本地化服务,成功替代国外厂商成为全球科技巨头在中国的分支研究机构的基础数据服务供应商,同时形成并保持了国产优势,持续服务国内客户,使得该行业始终具有较高的国产化率,具体情况请参见前述“(二)发行人主要产品/服务的进口替代依据和技术先进性情况/2、发行人通过核心技术优势和经营成果,实现了基础数据服务行业的国产优势,有效的降低进口依赖和发展产业的独立自主,实现了进口替代的目的”的相关回复内容。
发行人是中国基础数据服务行业的头部企业。根据艾瑞咨询发布的《2020年中国
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-27
AI基础数据服务行业研究报告》,2019年发行人在我国基础数据服务行业的市场份额为8%,位居行业第二,在我国语音类基础数据服务行业的市场份额位居行业第一。因此,发行人在基础数据服务行业已经实现了较为明显的进口替代效果。
同时,发行人在基础数据服务领域所具备的技术水平已经具备了与国外厂商进行直接竞争的实力。从可提供的训练数据类型上看,发行人可提供包含智能语音、计算机视觉、自然语言在内的三个主流人工智能领域的综合解决方案;从客户覆盖程度上看,全球领先的大型科技公司、人工智能企业等多为发行人的客户;从已实现的市场布局看,报告期内,发行人在境外市场实现的主营业务收入占比为38.77%,实现了基础数据服务的出口输出。综上所述,发行人凭借自身实力,在持续实现国产化和进口替代的同时,兼具境外市场的开拓,有助于进一步增强品牌声誉、迭代技术能力、扩大经营规模,提高国产训练数据的全球竞争力。
2、人工智能基础数据服务在未来仍具备广阔的应用前景,发行人具有持续增长的能力,并将持续满足进口替代需求
未来,成熟算法模型的拓展性需求和新生算法模型的前瞻性需求将是人工智能基础数据服务的主要需求方向。在成熟的拓展性需求方面,深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求。为充分发挥技术潜能,深度学习模型需要海量且涵盖语音在内等多种类型的训练数据进行模型训练。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,算法模型所使用的训练数据亦需要定期更新。具体而言,约1/3的算法模型每月至少更新一次,约1/4的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。而在新生的前瞻性需求方面,随着人工智能商业化进程的演进,新兴应用场景如智联网AIoT、AI PaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进AI技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。
同时,随着人工智能的广泛应用,训练数据的数量多寡和质量高低将会直接影响到人工智能产业链内企业的研发周期、产品性能和可扩展性。因此,数据成本将成为人工智能产业发展、数字化经济时代最重要的成本。从事训练数据开发的企业需要通过各方面的技术研发,实现效率质量的提升和成本的降低,从而促进训练数据的规模化应用,进而支持人工智能产业发展。而国产化和进口替代则有利于国内人工智能产
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-28
业降低其数据成本。发行人作为中国语音类基础数据服务领域的头部企业,凭借丰富的技术积累和行业经验,构建了高质量的智能语音训练数据,并赢得了阿里巴巴、腾讯、百度、字节跳动、科大讯飞、中国科学院、清华大学等众多国内大型优质客户的广泛认可,同时发行人持续培养研发团队并进行研发投入,2020年研发和技术人员占比约69%,2020年研发投入占比达18%,2020年人均营业收入和人均净利润分别达到了160万元和56万元,具备显著的技术规模效应,在未来的市场竞争中具备了明显的竞争优势,能够持续满足基础数据服务行业的进口替代需求。同时,随着人工智能行业的进一步发展、训练数据需求的丰富、以及新冠疫情影响的逐渐消退,发行人2021年一季度的营业收入预计超过4,400万元,同比增长超过40%,预计实现扣除非经常性损益后的归属于母公司股东的净利润1,370万元至1,450万元,预计增长20.62%至27.66%,体现了持续增长和持续盈利的能力。
三、结论
综上所述,发行人属于新一代信息技术行业领域,符合科创板行业定位要求;发行人2017-2019年累计研发投入占比及营业收入复合增长率和形成主营业务收入的发明专利数量,符合科创属性评价标准一;发行人依靠核心技术形成的主要产品/服务,属于国家鼓励、支持和推动的关键产品,发行人通过核心技术优势和经营成果,实现了基础数据服务行业的国产优势,有效的降低进口依赖和发展产业的独立自主,实现了进口替代的目的,符合科创属性评价标准二(四)的要求;因此,发行人具备科创属性。中介机构核查意见
一、核查程序
保荐机构执行了下述核查程序:
1、查阅国家统计局《战略性新兴产业分类(2018)》,结合发行人主营业务情况,核对其所处行业、细分领域,核查其与《科创属性评价指引(试行)》《科创板企业发行上市申报及推荐暂行规定》中行业领域的匹配情况。
2、访谈了发行人主要管理人员,了解核心技术的形成、储备和使用情况;通过公开渠道查询了同行业可比公司的核心技术储备及应用情况、产品服务情况;
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-29
3、取得国家机关、主管部门出具的产业政策、认定文件,公开查询行业报告,对发行人所在的行业专家、主要客户进行访谈,了解发行人实现进口替代的产品/服务情况、替代效果、市场空间、发行人的核心技术优势、核心竞争力情况。
二、核查结论
经核查,保荐机构认为:发行人符合科创板行业定位要求、符合科创属性评价标准一及二(四)的要求,发行人具备科创属性。
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-30
(本页无正文,为《关于北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市的发行注册环节反馈意见落实函的回复》之签章页)
发行人董事长(签名):
贺 琳
北京海天瑞声科技股份有限公司年 月 日
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-31
发行人董事长声明
本人已认真阅读北京海天瑞声科技股份有限公司本次发行注册环节反馈意见落实函回复的全部内容,确认发行注册环节反馈意见落实函回复中不存在虚假记载、误导性陈述或重大遗漏,并对其真实性、准确性、完整性、及时性承担相应法律责任。
发行人董事长(签名):
贺 琳
北京海天瑞声科技股份有限公司年 月 日
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-32
(本页无正文,为《关于北京海天瑞声科技股份有限公司首次公开发行股票并在科创板上市的发行注册环节反馈意见落实函的回复》之签章页)
保荐代表人:
张 鹏 葛 青
华泰联合证券有限责任公司年 月 日
北京海天瑞声科技股份有限公司 关于发行注册环节反馈意见落实函的回复
8-1-33
保荐机构总经理声明
本人已认真阅读北京海天瑞声科技股份有限公司本次发行注册环节反馈意见落实函回复的全部内容,了解发行注册环节反馈意见落实函回复涉及问题的核查过程、本公司的内核和风险控制流程,确认本公司按照勤勉尽责原则履行核查程序,本回复中不存在虚假记载、误导性陈述或重大遗漏,并对其真实性、准确性、完整性、及时性承担相应法律责任。
保荐机构总经理(签名):
马 骁
华泰联合证券有限责任公司
年 月 日