pbanbg.jpg
icon-ai.png
赋能,让世界更美好
技术领先,不止于此
坚持创新,持续探索,引领人工智能想象力
gn-hov1.png
深耕场景,核心技术全栈自研
深⼊理解行业典型场景和挑战,始终专注核心技术的⾃主创新与研发,发布面向多个场景的产品及解决⽅案,积累了可⽀持多场景应用的全栈技术能⼒,牵头或参与制定多项⾏业技术标准。
gn-hov1.png
人机交互,以人为中心的视觉理解
在计算机视觉基础模型上进⼀步构建三维视觉模型,围绕以人为中心的需求和使用场景,进行语义级的理解和逻辑推理,模型在复杂的多对象分析的同时考量场景语义,并进行逻辑推理,以输出更富有意义的解释,更易于与自然语⾔处理等其他技术进行融合,打造更智能、自然的⼈机交互体验。
gn-hov1.png
开放共享,开源数据集和训练模型
·Glint360k 人脸数据集
·PartialFC 大规模人脸识别训练算法
·NgeNet 底重叠点云配准算法
·EasyQuant 模型int8量化算法
·Unicom(ICLR23)视觉预训练模型
·ALIP(ICCV23)图⽂预训练模型
......
gn-hov1.png gn-hov1.png gn-hov1.png
深瞳大脑
深瞳大脑作为公司核心技术的底层驱动平台,全面赋能公司产品及解决方案的技术实现,推动人工智能技术在各个领域的落地应用。
深瞳大脑可以支持数十亿训练数据、数亿类别任务、数十亿参数模型的训练,大幅提高算法模型的研发效率和自动化水平,为公司提供了有力的研发创新和业务场景应用支撑。
业务应用层
智慧金融
城市管理
智慧商业
轨交运维
体育健康
元宇宙
核心技术层
3D立体视觉技术
多目传感器标定与深度估计
人体姿态及动作分析
3D重建与立体视觉分析
大规模跨镜追踪技术
人脸识别
百亿级人员聚集
以图搜图
机器人感知与控制技术
实时定位与建图
机械臂视觉反馈
路径规划与自主导航
沉浸式交互感知技术
行为识别技术
基于时序光点编码的RelD技术
道具动作识别与定位显示技术
自动化交通场景感知与事件识别技术
多精度目标检测与跟踪
多目标属性识别与对象关联
交通场景理解及事件监测识别
算法层
2D算法
人脸相关算法
预训练大模型
人体相关算法
视频分析算法
3D算法
人体3D算法
深度估计算法
多视角几何算法
点云算法
机器人相关算法
SLAM
环境感知
轨迹规划
机械臂规划与控制
基础设施层
多模态大模型
数据平台
数据采集
数据标注
数据预处理
训练平台
模型优选
模型训练
模型小型化
深瞳大脑
多模态大模型

格灵深瞳自主研发的多模态大模型采用先进的弱监督学习技术,有效降低数据标注成本,其在少量样本学习中提升精确度,具备优秀的零样本泛化能力,便于模型快速启动。通过MetaLoop AI平台,用户可以轻松接入预训练模型,并利用自主学习方案快速微调模型以满足特定行业需求。

格灵深瞳的多模态大模型已在金融、城市管理、轨交运维等领域实现应用,提高了算法准确性并缩短了开发周期,为行业智能化升级提供了强大动力。


智慧金融解决方案
城市管理解决方案
icon.png
智慧商业解决方案
轨交运维解决方案
履职解决方案
金融大模型
城市治理大模型
商业大模型
轨交大模型
履职大模型
基础多模态大模型
数据处理
模型训练
模型评估
模型部署
AI 开发平台
边端
智能摄像机
可穿戴设备
智能盒子
边缘节点设备
gnp5.png
机器人
核心技术
hx-icon10.png hx-icon11.png
3D立体视觉技术
hx-icon20.png hx-icon21.png
大规模跨镜追踪技术
hx-icon30.png hx-icon31.png
机器人感知与控制技术
hx-icon40.png hx-icon41.png
沉浸式交互感知技术
hx-icon50.png hx-icon51.png
自动化交通场景感知与事件识别技术
3D立体视觉技术
公司在3D立体视觉领域进行了深入的算法创新和应用实践,突破传统方法的局限,在复杂环境中实现精细化的三维建模和分析,大幅提升算法在交通、体育等领域的适用性。

在体育运动场景中,运用双目相机的三维重建技术,结合人体动作学知识,实现了高精度的三维人体关键点检测,使运动姿态和动作分析更加精准。

在轨交运维场景中,依托独特的三维重建与匹配算法,将分散的车厢和部件图像信息整合重组,进行高效的列车零部件的识别、定位和质量检测,实现对故障和异物的精确诊断。
a2.jpg
大规模跨镜追踪技术
公司完全自主研发了国内领先的大规模跨镜头人脸追踪技术,在人脸标准测试集上的准确率达99.1%。

在人脸识别算法方面,开源了多个行业标杆级的数据集和模型代码,如TrillionPairs和Glint360K两个人脸识别数据集以及PartialFC训练代码,加速推动该领域技术的进步。

在以图搜图引擎方面,支持多架构、不同计算设备上的图片检索功能,实现数十亿级图像秒级大规模匹配检索。针对海量图片检索场景,实现单机检索30亿人脸图片20秒内返回结果的性能,集群部署后可实现包含百亿人脸图片的分布式秒级检索。
01.png
机器人感知与控制技术
公司自主研发的机器人感知与控制技术,将实时高精度定位、场景三维建模、机械臂视觉反馈和自主规划导航技术进行有机结合,应用于轨交的列车、轨道运维等复杂场景。

自主研发的机器人相关核心算法实现了对机器人自身状态的准确估计、对环境中动态障碍物的实时感知,并进行快速安全的路径规划与跟踪控制,使机器人在复杂狭窄的轨交环境中,可实现1米/秒的高速自主运动,避开运营中的列车,完成轨道检测、设备维护等任务,大幅提升了机器人在复杂场景中的环境适应能力和运动自主性。
深瞳能力图_03.jpg
沉浸式交互感知技术
沉浸式交互感知技术是一种利用传感器和计算机视觉技术,实现人与虚拟环境自然交互的技术。

搭载公司自主研发的三维人体关键点识别、跟踪、定位算法,实现毫秒级的动作捕捉和实时画面反馈。支持大量用户同时进入虚拟环境,通过动作、语音等多模态交互,可以实时感知每个用户的意图和行为,实现自然的人机交互和虚拟协作。

结合自研双目立体摄像头捕捉用户的动作,实现精准的人体运动追踪和深度感知,为虚拟现实、增强现实和运动游戏等领域带来更真实、沉浸式的交互体验。
自动驾驶.jpg
自动化交通场景感知与事件识别技术
公司自主研发国内领先的自动化交通场景感知与事件识别技术,在车辆识别方面能够对多种类型车牌进行高精度多角度识别,支持45°内倾斜车牌,准确率超过98%,车辆及人体属性识别准确率达95%以上。

在交通事件识别方面,通过自适应交通场景理解和车辆重识别技术,实现对交通视频的无需人工标注的自动化分析,可准确识别闯红灯、不按导向行驶等11类典型违法事件,并自动定位车辆位置,进行风险预警和自动化违法审核,实现交通场景的智能化监测与管理。
沉浸式.jpg
核心算法
自主研发大量人工智能领域核心算法,多次在国内外竞赛中名列前茅
icon-sf1.png
2D算法
icon-sf2.png
3D算法
icon-sf3.png
机器人相关算法
icon-sf10.png
人脸相关算法
icon-sf11.png
人体相关算法
icon-sf12.png
预训练大模型
icon-sf13.png
视频分析算法
_0005_人脸识别.jpg
sf11.png
人脸识别
人脸识别(Face Recognition)通过人脸检测、关键点定位、人脸矫正和特征提取,对人脸进行精准的比对和检索。格灵深瞳在千万张人脸的大规模底库下,Top1准确率超过99%;在模糊、过曝、带口罩等困难场景下,万分之一误识率下,识别率大于95%。

曾在NIST举办国际性人脸识别测试FRVT中获得综合第一名,在公安部治安局举办的亿级人像算法评测获得第一名。格灵深瞳向学术界开源了TrillionPairs和Glint360K两个人脸识别数据集,开源了PartialFC训练算法,推动学术界进展。
_0004_人脸聚类.jpg
sf14.png
人脸聚类
人脸聚类(Face Cluster)是利用人脸识别特征通过聚类技术进行人员聚档。结构化后的人脸特征和历史特征进行查询和比对,通过聚类技术把人脸图片聚档。人脸聚类可以在很大的时空范围内进行人脸的聚类分析,在安防和商超场景中应用广泛,具体的像行动轨迹、停留时间、人和物的关系分析、人员置信、 安防管控、人物画像统计等。

通过格灵深瞳自主研发的局部特征融合模型和多级时空网络聚类算法,在千万级ID的大规模人脸聚类中纯度能达到99%以上,散度低于1.2,召回达到95%以上。在戴口罩、 夜晚、大角度等困难场景中也达到很好的聚类效果。
人体检测.jpg
rt11.png
人体检测
人体检测(Human detection)基于深度学习检测图像中的所有人体,并返回图像中人体坐标值以及置信度。格灵深瞳拥有丰富姿态的海量数据库,不仅包含常见站立行走以及少有的坐、蹲、躺等特殊姿态,还拥有丰富场景数据,包括中远距离俯拍和不同角度平拍视角,在密集行人检测crowdhuman benchmark上达到SOTA,根据不同场景中调用不同的模型,结果更加准确可靠。
rt22.png
rt21.png
人体姿态估计
人体姿态估计(Human Pose Estimation)是基于人体检测后的图像检测人体的2Dpose。格灵深瞳基于精度更高的Top-down方法,在网络中采用多层特征融合方式聚合多尺度特征,在编码解码过程中都优化了量化误差,使其在关键点预测中能达到更高的精度。

同时格灵深瞳拥有丰富的人体2D姿态数据,包括篮球、跳绳、引体向上、仰卧起坐、银行场景等,在AI体育、银行等场景的业务中都获得了成功的应用。
rt31.png
行人 ReID
行人重识别(Person Re-identification)也称行人再识别(简称:ReID),是利用计算机视觉判断图像或者视频序列中是否存在特定行人的技术。

ReID有一个非常重要的特性就是能够根据输入的特定行人图片,检索跨摄像头、跨视频序列下的目标行人,目前格灵深瞳在换衣、遮挡、低分辨率、姿态和视角变化等方向都有研究,在公开数据集Market1501、DukeMTMC、Occluded-Duke上达到SOTA,在城市管理场景中,万分之一误识率下的召回率达到98.14%。
17721652.jpg
rt41.png
行为识别
行为识别(Action Recognition)是从视频剪辑(2D帧序列)中识别不同动作的技术。在金融安全、城市管理、文娱训练等场景中,基于时空信息端到端行为识别算法能实时解析视频流推理出异常行为,比如:人员摔倒、拉扯打架、损坏公物、攀爬等。

基于骨骼动作特征的行为识别能够识别行为动作或者流程是否符合标准,行为识别算法已在实际项目中进行落地迭代,推动视频分类和表示学习的发展。
xl11.png
预训练大模型
预训练大模型技术通过在大规模数据集上进行模型预训练,获得具有通用泛化能力的预训练模型,然后在下游任务上利用预训练的模型进行微调,来提高下游任务的精度。

基于此,格灵深瞳提出了高效的预训练框架,在大规模的数据上训练出一系列不同规模的预训练大模型,并在银行、高铁、安防场景下的业务中获得成功应用。格灵深瞳还将自研预训练大模型应用于Kaggle地标识别竞赛,并荣获金牌。
_0003_视频分析算法.jpg
sp11.png
视频分析算法
通过优化各种算子,实现了在千万级视频数据下高效的视频预训练。将视频预训练模型与Linear probe、Adaptor tuning、Finetuning等技术结合,可以将海量数据下预训练模型学到的知识迁移到行为分析、目标跟踪等多种下游任务,显著提高业务性能并大幅缩短研发周期。

预训练模型能够学习到丰富的视觉表示,经过适当的微调后,可以快速适配到具体的下游任务,实现知识的有效迁移,减少人工特征工程,降低训练样本需求。
3d1.png
人体3D算法
icon-sf12.png
多视角几何算法
3d2.png
深度估计算法
3d3.png
点云算法
3drt62.png
3drt61.png
单目3D姿态估计
单目3D人体姿态估计(Monocular 3D Human Pose Estimation)是根据单个RGB相机检测人体3DPose,可广泛应用于个人健身、学校体育训练等场景。

目前格灵深瞳构建了包含各种运动的大规模3D人体姿态数据集,如篮球、排球、乒乓球、瑜伽、舞蹈、武术、跳绳、仰卧起坐、单双杠等。未来我们将继续丰富姿态数据规模和场景,以提升单目3D姿态估计的鲁棒性和泛化能力。




3drt52.png
3drt51.png
多目3D姿态估计
多目3D姿态估计(Multiple Cameras Multiple People 3D Human Pose Estimation)是指利用多相机同步采集覆盖一个区域(如篮球场、足球场)的图像,实时重建和跟踪场内所有人员的三维姿态。

目前格灵深瞳多目3D姿态估计技术已成功应用于篮球场景(对场上球员进行实时姿态分析)和大规模人机交互解决方案。
_0002_单目3D表面重建.jpg
3drt41.png
单目3D表面重建
单目人体3D表面重建(Monocular Human Mesh Reconstruction)技术是基于单张RGB图像预测10个表示人体高矮胖瘦信息的shape参数和24个控制人体pose的关节旋转参数,其中每个关节点旋转参数采用三维向量来表示该关节相对其父关节分别沿着 x, y, z 轴的旋转角,并基于预定义人体 template mesh可以通过shape和pose参数预测人体表面密集点(6890个)的三维坐标。

该技术可以用于基于视觉的人体动作捕捉,驱动虚拟人物做出与真人完全匹配的动作,也可以应用在体育等需要进行人体关节角度估计的应用场景。
_0001_2D多视图输入的3D重建.jpg
3drt31.png
2D多视图输入的3D重建
基于RGB多视图三维重建技术,是一种计算机视觉方法,通过从多个视角拍摄的RGB图像来还原场景的三维结构。SFM(Structure From Motion)通过计算相机的运动轨迹和场景中的三维点云,还原场景的几何结构和外观信息。

SFM技术的主要步骤包括特征提取、特征匹配、相机姿态估计、三维点云重建和优化等。SFM技术的优势在于它能够从无序的图像集合中恢复出场景的三维结构,而无需额外的深度传感器或特殊设备。基于RGB多视图三维重建的SFM技术在许多领域有着广泛的应用,包括虚拟现实、增强现实、三维建模、文化遗产保护、室内导航和自动驾驶等。
20240529-123126.jpg
3drt21.png
激光点云多视图输入的3D重建
基于激光雷达等多传感器融合、SLAM等技术能够快速重建厘米级精度的点云,能够在一个小时能完成对电厂、高铁动车所、工厂、园区等环境的三维重建,配合不同载具也可进行空天地、室内外一体化建图,并且能够与主流设计软件(3DS Max、Revit、AutoCAD)打通,方便设计师快速生成厘米级、部件化的标准数字孪生模型,并供Unity、Unreal、WebGL使用。

另外生成的模型还可服务于物联网设备的管理、机器人定位、园区自动驾驶、面向C端室内外精细化导航、办公环境招商、承载元宇宙容器等功能。
_0000_多模态输入的3D重建.jpg
3drt11.png
多模态输入的3D重建
基于RGBD多模态三维重建技术,结合了RGB图像和深度图像的信息,能够更准确地还原场景的几何结构。该技术主要步骤包括建立TSDF(Truncated Signed Distance Function)体素网格,利用Marching Cubes算法进行表面提取,基于图优化算法对重建进行优化。

目前该技术方案成功应用于高铁转向架模型重建等任务,可以获得高精度的3D重建模型并应用于故障诊断分析。
sd12.png
sd11.png
双目深度估计
双目立体匹配(stereo matching)是基于标定好的双目相机计算出深度值,是双目相机产品的重要基础技术。首先进行匹配代价计算,获取左右视图的相似度度量张量,然后进行代价聚合计算视差(disparity),并通过一些正则项对视差进行优化,再通过几何关系计算出深度图。

格灵深瞳在匹配代价和代价聚合阶段采用卷积神经网络提取特征,并通过循环神经网络融合多帧之间的时序关系,将立体匹配技术在嵌入式芯片上做到了实时,同时通过实际数据与虚拟数据相结合的方式提升了算法的泛化能力,使其在各个业务场景中都有较好的表现。
sd22.png
sd21.png
单目深度估计
单目深度估计是指通过一张单目图像预测场景中每个像素点的深度或距离信息,通过单目深度估计获得精确的场景深度还原场景的三维结构。

单目深度估计采用卷积神经网络的编码器-解码器结构实现端到端的深度估计,再将深度反投影回3D空间(如体素空间)输入到后处理网络中进行细化。

目前该技术在计算机视觉和机器人领域有广泛的应用,包括三维重建、虚实融合、自动驾驶、增强现实等。
20240529-122859.jpg
dy11.png
点云配准
点云配准即求解两个具有重叠区域的点云之间的旋转平移变换,使得两个点云的坐标处于同一坐标系下。

相较于传统点云配准算法icp(iterative closest point),格灵深瞳提出基于深度学习的点云配准技术,发表论文Leveraging Inlier Correspondences Proportion for Point Cloud Registration,基于点云几何结构和多层特征投票机制提升正确匹配点云比例,从而提升点云配准精度,在学术数据集3DMatch、3DLoMatch、KITTI、MVP-RG等数据集均取得sota结果。

在真实业务测试集上旋转向量误差小于1度、平移向量误差小于0.3mm,该技术为产品落地起到了至关重要的作用。点云配准在无人驾驶、三维重建等领域具有广泛的应用。
jq42.png
j141.png
SLAM
SLAM(Simultaneous Localization and Mapping)即实时定位与建图,使用相机、激光雷达、IMU等传感器的感知信息来计算图像(视觉)或点云(激光)的帧间位姿关系,进而实现移动机器人在未知场景下的建图与定位。

SLAM技术已经广泛应用于自动驾驶、室内导航、三维重建等领域,在高铁检修场景下,基于激光雷达以及IMU的激光SLAM方案可快速地为检修车间、列车底部坑道、转向架建立高质量的三维点云地图,为搭载了机械臂和深度相机的移动机器人提供机械臂碰撞模型以及准确的里程计定位信息,并通过停车点的全局里程计校正来解决长距离、退化场景下里程计累计误差增大的问题,使机器人能在列车底部自主运动并控制机械臂完成任意项点的数据采集任务。
20240529-123354.jpg
jq31.png
机械臂规划与控制
机械臂规划与控制算法在非结构化环境中控制机械臂快速进行避障路径规划,到达指定的目标位置完成相应任务。

传统路径规划算法在多自由度机械臂上存在建模难度高、搜索效率低等问题,格灵深瞳结合深度强化学习技术,针对避障任务设计了强化学习奖励函数,实现多轴机械臂避障任务,且规划时间更少、路径更短。目前,格灵深瞳已将该技术成功应用于轨交运维的机器人产品中。
20240419175919834.png
jq11.png
环境感知
环境感知算法指通过使用固态激光与摄像头等传感器,实时感知机器人周围的环境信息。这些传感器可以帮助机器人获取关于障碍物、地形、距离等方面的数据,以便机器人能够正确地理解和适应其周围的环境。

在高铁巡检中,格灵深瞳结合SLAM技术、3D点云、2D图像联合识别与分割以及点云的处理技术,实时完成对周围环境的碰撞损失地图构建以及高铁的位置感知,用来辅助机器人避障、机械臂规划控制以及确定高铁的巡检检测位置。
20240430160142786.jpg
jq21.png
轨迹规划
轨迹规划算法为机器人生成最优巡检路径。通过综合考虑机器人的当前位置、目标位置、环境信息以及其他约束条件,计算出最佳的巡检顺序和停靠点。

在高铁巡检场景中,机器人能够实时感知高铁及障碍物信息,并自动调整路径规避障碍,保证巡检任务的高效完成。通过视觉与路径优化技术的有效结合,实现了自动化、智能化的巡检流程,避免了传统人工作业的低效率与不确定性。
发挥创造力,共赴AI向深向广
即刻开启企业AI之旅
该信息仅用于格灵深瞳与您沟通以及了解您的业务需求,如您不同意提供个人信息,请关闭本表单页面。
*联系人:
*联系电话:
*联系邮箱:
*获取验证码:
点击获取验证码
立即提交
提交成功
感谢提交,近期将有格灵深瞳工作人员与您取得联系, 请您保持电话畅通。
资料下载
*姓名:
*手机号:
*邮箱:
*获取验证码:
点击获取验证码
*公司名称:
*职位:
*您是否有其他具体的业务需求?
是,请尽快与我取得联系
否,暂时无其他需求
立即下载