如果说AI是一场饕餮盛宴,数据是原材料,算力是天然气,算法是菜谱,那么开源就犹如无数厨师经验与智慧合著成的一本永不完结的烹饪百科全书,其他厨师可以从中汲取经验来快速完成菜品,也可以指出书中的问题、贡献更多创意,让这本书经过无数人的完善后逐渐成为神作。相关统计数据显示,全球开源项目数量呈指数级增长,截至2019年GitHub托管仓库已有1.4亿,2019年新增仓库4400万个,创建第一个项目的用户比2018年增加44%。SourceClear调查报告预测,2026年全球开源项目数量将超过3亿。
开源,正处于一片狂欢中。近日,中国信通院发布了《开源生态白皮书》(以下简称白皮书)。白皮书从技术、市场、趋势、挑战等多维度,对我国开源产业生态进行了全面、深度的剖析,指出了我国开源产业发展的几大重要趋势。如果您想获得本报告的全文pdf,请在微信公众号回复关键词“1022报告”提取。
文档来源:中国信通院一、开源生态概述1、开源概念逐渐明晰开源既是一种协作模式,也是一种特性的产品。开源形态最早出 现于上世纪六十年代,软件代码附属硬件产品以开源的形式分发。
1983年,RichardMatthewStallman发起GNU计划,推动自由软件概念,成为开源软件早期形态。开源软件明确定义由1998年OSI给出,包括十大特性,即自由再发布、源代码公开、允许派生作品、作者源代码完整性、不能歧视任何个人或团体、不能歧视任何领域、许可证的发布、许可证不能只针对某个产品、许可证不能约束其他软件、许可证必须独立于技术。
从过程维度看,开源是一种分布式协作模式,从结果维度看,开源是一种特定形态的产品,具有公开、可使用、可修改、可分发特点。开源软件比自有软件更宽松,开源软件与免费软件无直接对应关系,公开代码不一定是开源软件。开源生产模式逐渐成为新一代软件开发模式。随着产业数字化发展,信息技术需要满足业务场景发展需求,具有海量数据处理能力,快速上线迭代特点,多场景异构兼容性,传统软件封闭开发模式在创新度、迭代速度上均存在一定限制。
开源开发模式具有公开透明的特点,有效聚集优质开发人员,形成分布式协作,推动产品快速迭代,同时丰富企业商业模式,促进科技公司良性竞争。2、开源生态以开源项目为中心构建 开源生态以开源项目为中心构建,依托开源社区协作形成软件、硬件等开源项目。涉及开源贡献者、开源使用者、开源运营者、开源服务者多重角色,包含开源治理、开源运营、开源商业布局等多个环节,需要满足开源规则要求,依托代码托管平台等基础设施构建。
微观层面开源生态依托四大角色进行有效协作。开源生态涉及开源贡献者、开源使用者、开源运营者、开源服务者等多个角色,企业和个人均可参与。对于开源贡献者和开源服务者,开源是实现商业布局的一种途径,可将开源布局与商业产品布局进行有效结合,推动用户使用,在应用层面有效降低边界成本,扩大用户使用范围。
对于开源使用者,开源模式推动产品快速迭代,激发产品创新,丰富产业侧供应体系,建立用户需求联动机制。 宏观层面开源生态涉及开源运营、开源治理、开源商业布局、开源规则、基础设施等多个要素。二、开源生态发展现状1、开源数量持续攀升,我国开源覆盖全栈技术领 域 全球开源项目数量呈指数级增长。根据全球最大开源代码托管平台GitHub年度报告数据显示,截至2019年GitHub托管仓库已有1.4亿,2019年新增仓库400万个,创建第一个项目的用户比2018年增加44%,130万开发者对开源做出首次贡献。
SourceClear调查报告指出开源项目已呈现指数级增长趋势,2026年预计超过3亿。活跃开源项目集中在新兴技术领域2019年GitHub代码仓库中,人工智能、云计算等新技术领域开源项目关注度较高,微软的源码编辑器VSCode、机器学习文档AzureDocs是2019年GitHub上贡献者最多的开源项目,其次是谷歌的机器学习平台TensorFlow、容器编排平台Kubernetes和Facebook的移动应用开发框架ReactNative框架。
我国自发开源项目覆盖全栈技术领域我国自发开源项目涵盖底层操作系统、物联网操作系统和编译器,中间层边缘计算、容器、中间件、微服务、数据库和大数据,上层前端开发、移动开发和UI框架,另外还有人工智能领域、运维和其他热门开源项目,基本覆盖目前主要的技术领域,接近30个的开源项目已经捐赠给开源基金会,走向国 际。2、开源占据各领域主要市场份额,我国开源应用逐年攀升 全球基础软件领域,开源占据主要市场份额。基础软件主要包括操作系统,数据库和中间件,操作系统可以细分为PC操作系统、手机操作系统、物联网操作系统、超级电脑操作系统等。
根据Linux年度报告,在操作系统领域,Linux分别占据100%的超级计算机市场和82%的智能手机市场,桌面操作系统市场排名第二;数据库可以分为关系型数据库与非关系性数据库,非关系型性数据库又可以细分为文档型数据库、图数据库、时序数据库、K-V存储数据库等。根据DB-Engines数据显示,截至2020年9月全球开源数据库182个,已超过商业数据库176个;中间件可以按照功能分为消息中间件、事务中间件与远程过程调用(RPC)中间件。根据enlyft数据显示,ApacheKafka占据应用集成领域16.5%市场份额,同类型竞品中排名第一,Seata、Dubbo也分别在事务中间件与RPC领域占据领先地位。
全球新兴技术领域,开源成为主要技术路径云计算领域涉及虚拟化、虚拟化管理等多个技术,以容器为代表的云原生技术路径是未来云计算发展趋势。根据CNCF调查报告,2019年84%的公司在生产中使用容器,其中78%的用户使用Kubernetes进行容器集群管理;大数据领域,大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用等关键技术。根据QYRescearch调查显示,到2025年全球Hadoop市场预计将达到6708亿美元,2017-2025年年均增长65.6%,亚马逊EMR、谷歌Dataproc、阿里云E-MapReduce和AzureHDInsight均选择基于Hadoop构建。
人工智能领域涉及机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR等技术,其中机器学习框架是关键技术,TensorFlow拥有8万多Fork数,位居同类型产品排名第一,Caff和Keras在学术界和工业界应用广泛,三者稳居深度学习库前三名。 我国开源软件应用比例略有提升。根据信通院调查显示,2019年我国企业已经使用开源技术的企业占比为87.4%,比去年增长0.7%,暂未计划使用开源技术的企业占比为2.3%,比去年降低0.4%,我国企业对开源技术的接受程度较高,使用开源技术已成主流。节约成本,大大缩短应用部署时间,成为我国企业选择使用开源技术最主要的原因有50.8%的开源用户企业认为使用开源技术可以节约成本,比去年增长8.9%,认为使用开源技术可以大大缩短应用部署时间的企业占比为45.1%,另外自主性、可控性(30.3%)和降低试错风险(20.7%)也是企业认为使用开源技术的两个优点。
我国超半数企业使用开源软件应用于数据库方向企业在数据库方面对开源软件的使用比例最高,占比为58.7%,其次企业对大数据和存储的开源软件使用占比也均超过五成,分别为52.4%和51.2%,另外有48.4%的企业在网络方面使用开源软件,有46.3%的企业选择在云计算方面使用开源软件。我国云计算领域已普遍应用云计算开源技术据中国信通院调查,云计算开源解决方案部署虚拟服务器的个数在500以内的企业占比最高,达到33.5%,虚拟服务器个数在500个以上的企业占比25.8%,还有35.4%的企业已少部分试用部署虚拟服务器。 我国超过七成的企业已经应用开源容器技术据调查,40.7%的企业已经使用了容器技术,相比2018年提高了4.3%;其次,正在测试容器技术应用环境的企业占比达到323%,比去年减少1.9个百分点。
此外,还有19.1%的企业正在评估容器技术。微服务领域以开源技术路径为主,我国超过六成企业已经应用或正在测试微服务框架在对企业微服务框架使用情况的调查中发现,24.8%的企业已经应用微服务框架,相比2018年提高2.0%;其次,正在测试环境的企业占比达到34.4%,与去年相比提高2.8%;此外,还有27.6%的企业正在评估微服务框架。Jenkins是目前我国企业使用最广泛的开源集成工具调查发现,在诸多开源集成工具中,Jenkins的使用比例最高,达到36.8%;其次,分别有32.9%和21.1%的企业表示已经应用TeamCity和GitLabCI。
此外,使用GoCD的企业占比为9.2%。3、开源企业数量保持稳定增长,我国企业呈现主动开源趋势 ,全球参与开源生态的企业数量激增全球企业一方面积极参与开源代码贡献,截至2019年12月GitHub参与的企业数接近300万;另一方面积极跟进开源组织,目前Linux基金会企业会员数超过1500,是5年前会员数的5倍。我国企业近年开源热度提升近两年来,我国头部科技公司贡献大量开源项目,百度、阿里、腾讯和华为等企业开源数量连年增长。技术共建是我国企业参与开源的主要动机根据信通院调查,60.7%的企业希望通过建设开源生态的方式影响共建技术,实现产品的完善与提升,其次,有41.4%的企业希望能借助开源项目扩大企业名气。
大范围发起开源的企业仍占少数信通院调查发现,我国自发开源企业中,开源项目数量小于10个的企业占比为40.1%,仅有44%的企业开源项目数量超过100个。GitHub成为我国自发开源企业首选的开源代码托管平台对开源自发企业调查发现,企业开源项目时最多考虑的代码托管平台是美国公司运营的GitHub,比例高达46.1%,其次选择的代码托管平台是中国公司运营的Gitee,占比为32.8%,另外还会考虑的开源代码托管平台是GiLab(美国公司运营)和Coding(中国公司运营)。超六成开源服务软件提供闭源软件调查的开源服务企业中,有67.4%的企业拥有基于开源软件的闭源软件,说明开源服务企业提供开源服务时大多通过售卖封装好的闭源软件创造商业价值。
云计算和数据库是开源服务企业的两大热门领域调查显示,2019年中国开源服务企业中51.9%是基于云计算领域的开源软件进行二次开发提供开源服务,有47.8%的产品是基于数据库领域的开源软件进行二次开发,此外网络(28.8%)和人工智能(26.3%)类开源软件也是开源服务企业进行二次开发主要选择的两个领域。4、开源基金会成为开源运营重要角色 目前主流的开源基金(Linux基金会、Apache基金会等)是在美国国税局注册的501(CX3)或501Cc)非盈利机构,近年来开源基金会会员数及托管项目数不断扩充,我国企业积极参与国际开源基金会。5、各行业开源生态已经形成,我国行业积极拥抱开源 全球各行业开源应用均占据较高比例。
根据新思科技发布的《2020开源安全与风险分析报告》调查显示,在可扫描的代码范围内,在互联网和软件基础设施行业以及物联网行业的代码库中分别有83.4%和82.1%是开放源代码;其次,在教育技术、网络安全、营销技术领域开源代码分别占比78.8%,78.4%和78.1%;金融服务和技术(75.3%)、能源和清洁技术(71.6%)、以及娱乐媒体行业(70.1%)也都是开源代码应用的热门领域。全球传统行业积极跟进开源组织,并形成行业特色开源社区2019年Github企业账号超过300万,ATT、摩根大通、西门子等行业用户积极参与开源贡献;Linux基金会会员同样覆盖重点行业用户,包括通用、NTT、富士通、中国移动、民生银行等。
重点行业及领域逐步形成特定开源社区,对于电信行业,Linux合并的六个项目(ONAP、OPNFV、OpenDaylight、FD.io、PDNA和SNAS)成立LFN工作组,白金会员中覆盖全球60%运营商;金融行业,2016年成立金融行业开源社区(FINOS),2020年成为Linux基金会的子基金会;边缘计算领域,Linux基金会在2019年成立LFEDGE基金会,旨在建立独立于硬件、芯片的一个开放的、可互操作的边缘计算框架。 我国互联网、金融、软件和信息技术服务行业是开源服务企业主要的服务对象开源服务企业对互联网服务的占比最高,为40.8%,其次是服务软件和信息技术行业,达到32.6%,金融业也是开源服务企业的重要服务对象,服务占比达31.6%。
6、开源风险问题凸显,成为开源应用屏障存在漏洞的开源软件占比较高根据BD《2020开源安全与风险分析报告》显示,75%的代码库至少含有一个漏洞,49%的已审核代码库包含高风险漏洞,发现最多的高危漏洞为CVE-2018-16487,在513个代码仓库中发现此漏洞(高风险Lodash原型污染漏洞)。7、全球开源治理理念兴起,我国初步形成开源治理模式我国企业逐步关注统一开源治理开源软件数目庞大,统筹管理困难成为企业最关注的开源软件引入风险点,23.6%的受访企业有统一管理流程和管理团队,13.4%的企业有白名单或黑名单机制,55.1%的企业目前对引入的开源项目没有统一管理,主要由开发运维团队分散管理。开源软件数量庞大是开源治理的主要难点对开源用户企业调查 发现,开源软件数量庞大,统筹管理困难是企业关注的开源软件引入的最主要风险,占比达到63.4%,技术更新迭代快、运维成本高(52.8%) 和安全漏洞威胁严重(50.2%)也是企业认为引入开源软件会遇到的主要风险。
三、开源成为企业商业布局的重要手段企业可通过主动开源进行商业布局,一是积极跟进相关领域顶级开源项目,深度参与开源贡献,影响开源技术路线;二是建立自发开源生态,将有可能影响市场格局的项目开源,同时培育潜在用户,推动形成事实标准;三是收购特定领域开源企业,与自身商业产品配合,扩大用户市场;四是结合开源项目提供开源服务,通过开源服务实现商业转化。1、全球开源企业已启动收购模式,进一步扩大用户群体IBM在过去五年中投入开源近10亿美元;微软2018年以75亿美元收购GitHub。2、全球开源企业积极布局开源,率先在基础软件领域发力,带动整体商业布局顶级科技公司成为开源的重要贡献者,微软、谷歌、红帽、英特尔等顶级科技公司的员工是开源项目的重要贡献者。
根据Github统计,微软有7700名员工参与开源投入,谷歌有5500人参与开源投入。谷歌开源移动操作系统Android,截止2019年8月,在全球移动操作系统市场中占有率高达75.44%;开源PC操作系统ChromeOS,在美国有一定市场地位,其市场占有率高达4.82%。微软开源跨平台编译器VScode,自2016年起连续占据GitHub开源项目TOP10,2018-2019稳居榜首,由它部署的Azure在2018年市场收益达到48.6亿美元,占据云计算市场17%份额;Facebook开源对象关系数据库服务器PostgreSQL,2020年3月,DB-Engines数据库流行度排行榜第四名。
3、我国开源企业已初步构建形成有影响力的开源项目 我国积极跟进国际开源生态。参与国际顶级开源社区反馈,实现技术输出,共建技术路径,GitHub国内贡献数117万,在全球占比11.8%,Linux项目中国在全球贡献度排名第三。4、头部科技公司在基础软件领域的开源项目呈增长趋势,开源将成为未来新技术发展的重要抓手华为开源服务器操作系统EulerOS,跨平台的操作系统HarmonyOS,单机版数据库GaussDBOLTP,全场景AI计算框架MindSpore;腾讯开源轻量级物联网实时操作系统TencentOStiny,万亿级分布式消息中间件TubeMQ,企业级分布式HTAP数据库管理系统TBase;阿里开源实时计算平台Blink,云服务器架构方升,关系数据库OceanBase。
四、开源生态未来发展趋势与建议1、发展趋势开源从个人行为逐渐发展成为企业行为开源虽起源于个人行为,但由于开源的协作模式和产品特点,影响商业产品的市场格局,企业层面逐渐借助开源模式实现市场布局,企业层面通过主动布局开源,减低边界成本,引导事实标准,改变市场竞争格局,同时吸纳多方参与,激发产品创新,满足用户多场景需求;国内逐步主动布局基础软件领域开源生态,国内早期开源生态发展最早集中在应用侧开发软件领域,虽开源项目数量百万级别,但具有国际影响力的开源项目不足,近年来国内企业逐渐侧重基础软件领域开源项目布局,在操作系统、数据库、中间件等领域涌现多个开源项目,不乏国际基金会的顶级开源项目。 基金会与联盟开源运营呈现多 态发展趋势开源联盟组织将持续推进与企业的开源运营合作,我国开源基金会逐步形成稳定流程机制,国内开源联盟组织相对灵活,覆盖主要技术领域,可借助联盟标准化与行业推广优势,推动我国自发开源项目应用;国际仍以开源基金会作为主要运营载体,为开源项目运营提供有力法律、协作支撑,建立与国内外开源组织、标准化组织建立联动机制,推动开源项目建立生态。 开源风险问题得到关注,开源治理体系逐步建立开源项目虽最终形成软件、硬件等最终形态,但需要满足开源许可证要求,相比通用软件具有一定的使用范围和规则要求。未来开源风险问题进一步凸显,开源应用情况逐渐透明,开源违约、兼容性、被开源等风险进一步暴露,全球开源违约判例可能进一步增加,企业内部逐步建立开源治理体系应对开源风险,通过开源管理机制及平台规避开源风险。
行业开源生态兴起行业用户在开源生态的角色逐渐发生转变,从开源使用到自发开源发展,金融、工业互联网、电信、政府采购等行业逐渐探索行业内开源生态构建,将企业内部信息建设代码脱敏输出,借助开源公开透明的特点快速迭代,形成满足行业属性的特定开源项目,逐步形成行业开源协作机制,实现行业输出战略布局。 2、建议企业侧建立稳定的开源模式我国自发开源企业需要建立稳定的开源商业模式,一是针对国际基金会顶级开源项目,建立社区反馈和联动机制;二是建立自主开源生态,重点在操作系统、数据库、中间件等基础软件领域探索开源。 第三方快速完善开源运营机制一是国内开源联盟组织持续推进与企业的开源运营合作,借助联盟标准化与行业推广优势,推动我国自发开源项目应用;二是开源基金会形成稳定的决策机制,项目孵化流程,为国内开源项目运营提供有力知识产权托管以及法律、协作支撑。
构建开源治理体系针对自发开源企业、开源使用企业建立开源软件管理体系,第三方组织需制定开源软件治理的行业标准,通过制定开源软件管理规则,帮助企业规范开源软件的使用和输出,实现企业软件的全覆盖和全流程管理,同时配套建设开源风险检测、开源生态监测等平台,推动企业落地开源治理体系建设。AI于开源而言,或许与其他软件别无二致。而开源于AI而言,却是促进AI应用创新与更多行业智能化普及的重要驱动力。
当前我国在AI应用层基本站稳脚跟,在数据资源、数理人才、市场环境等方面均有很大优势,再加上战略引领、政策支持助力,AI开源开放平台、完整AI生态链的相关建设正在持续推动中。这或许会是一个长期的工作,不仅需要产学研各类机构的协同努力,也需要更多开发者的鼓励与支持。
原创文章,未经授权禁止转载。详情见转载须知。
本文来源:beat·365-www.vcz92.com