24小时服务热线

18928448884 / 0755-2592 9959

24h咨询热线:18928448884

标贝科技基于大模型能力的智能化标注 助力数据标注效率数倍提升 标贝科技基于大模型能力的智能化标注 助力数据标注效率数倍提升 标贝科技基于大模型能力的智能化标注 助力数据标注效率数倍提升

激光焊接机


    标贝科技基于大模型能力的智能化标注 助力数据标注效率数倍提升

    时间: 2024-07-11 07:14:05 |   作者: 激光焊接机

  • 机型介绍



  在 ChatGPT 掀起人工智能热潮的当下, 数据标注作为支持机器学习和AI发展的关键环节之一也成为了热门话题。

  在 ChatGPT 掀起人工智能热潮的当下, 数据标注作为支持机器学习和AI发展的关键环节之一也成为了热门话题。

  一方面, 人工智能的兴起带来模型训练所用结构化数据的巨大需求, 数据标注的重要性逐渐突显。另一方面, AI在数据标注领域所取得的突破性进展, 也推动数据标注行业从劳动密集型向技术驱动转型,AI 辅助标注、自动标注备受关注。

  传统的数据标注主要是依靠标注员手动标注, 输出的数据结构和信息量简单, 无法处理高维数据, 效率低周期长, 标注成本也高。而以 ChatGPT 为代表的预训练大模型不但可以对数据来进行自动化标注, 节约时机和人力成本。同时利用先进算法技术支撑, 还能尽可能地保证标注的准确率, 特别是对于复杂和大规模的数据集。

  面向大模型发展的时代趋势, 长期致力于为公司可以提供高质量 AI 数据服务的标贝科技审时度势, 提前瞄定大模型作为新的技术底座赋能, 不断对自研的 AI 数据标注平台做迭代升级, 搭载 AI 模型的自动化标注能力, 更高效地处理高复杂度的数据标注任务, 实现规模化数据生产。

  标贝科技 AI 自动标注基于大模型完善的知识储备以及强大的泛化能力, 可以在一定程度上完成对于音频、文本、图像和点云等多种数据内容的理解和分析, 根据自身的需求对通用场景和定制化场景数据格式化处理和输出, 在保证高效处理的前提下, 又能保证标注结果的高准确率。

  同时, 标贝科技基于大模型的底座, 针对特定场景, 进行模型的快速调优, 实现 3D 点云、2D 图像等场景下, 目标检测、目标追踪、车道线识别、可行驶区域识别、图像分割、点云分割等多个方向的自动化标注, 极大的提升标注效率和质量, 降低人工成本。

  在实际项目中, 常常会出现不同帧采集的数据截断、遮挡角度变化, 或者标注员主观偏差, 导致标注效率降低, 使得整个标注周期成倍增加等问题。

  就此问题, 标贝科技基于 AI 自动标注能力对点云连续帧数据来进行预处理, 通过滤波、降采样、重采样等操作优化点云文件。然后使用预处理模型进行特征提取, 将相同物体进行目标关联匹配, 设定同一 trackID, 以达到对同一物体进行追踪标记。保持数据标注的一致性, 减少主观偏差, 缩短工期。

  标贝科技 AI 自动标注模型能支持上百种物体识别, 采用多目标追踪算法对每个目标进行唯一标识, 并通过目标的特征信息来实现目标连续追踪。将同一物体识别后, 再把标注结果赋予同一追踪对象。

  例如, 在视频追踪对齐车辆并标记出车辆车牌项目中, 由于每段视频较长, 需要标注的帧数达到几千帧, 特别是视频里远处的车辆无法很好的提取特征, 使得标注难度大幅提升。

  (2) 模型追踪:通过特征匹配深度学习追踪等算法, 对同一物体在上千帧的数据中标记出同一 track;

  (3) 车牌 OCR:找到最清晰的一帧并进行 OCR 车牌识别, 并将这个车牌赋予相同 track 属性。

  在对大量不一样的购物小票的内容做定位和分类时, 由于小票上含有各种干扰字体给标注识别带来一定难度。

  标贝科技利用 AI 模型自动对小票整体进行识别, 去除小票上的干扰信息。然后 OCR 模型算法对小票上的信息做定位和识别, 将识别出的文字内容通过大模型数据理解, 分类出文字的商品、价格、编号等属性类别。

  平均 1.5 分钟一段的 4K 视频, 每秒 30 帧, 抽帧后每份作业 2000 帧+, 大量重复类似的分割工作就需要大量的人力成本。这时就需要利用模型能力快速完成标注。

  基于深度学习的分割方法, 标贝科技通过图片像素分割模型对首帧进行智能分割, 然后再将首帧分割结果, 通过追踪模型自动向后续目标帧进行追踪对齐。整体过程中, 标贝科技利用多目标追踪技术, 在场景中对多个物体进行智能追踪, 将大量重复性的工作交由模型自动完成。

  当语音数据的音频质量较低, 又有大量的要划段及转录的内容, 在同音字和多音字干扰下, 通过输入法打字, 速度慢效率低。

  标贝科技 AI 自动标注模型使用 VAD 能力自动切分, 检测语音信号中的有效语音部分, 然后基于自动语音识别技术, 将语音信号转换为对应文本。

  目前, 标贝科技已经对数据平台系统做了全面升级, 在全栈数据标注场景式中使用 AI 自动标注的能力, 并得到非常明显成效。相较于过去的纯人工标注, 获取同等数量的数据样本,AI 自动标注的周期至少可以提效 70% 以上, 大幅度降低数据生产成本。

  面对未来 AI 产业的规模化商业落地趋势, 数据标注需求急剧上升, 同时数据标注场景逐渐向个性化、复杂化的垂类进化。

  标贝科技 AI 自动标注技术依托先进的机器学习算法, 能快速处理大规模、多类型的数据, 准确识别数据中的目标, 进行高精度的标注。同时在标注过程中, 不断根据标注结果与实际结果的差异进行自我修正, 调整模型参数, 提高标注准确率, 为各种垂直场景提供实时、准确的数据支持。

  此外, 标贝科技还将逐步优化平台工具链, 通过算法自动标注+人工校对, 做到人机全链路高效结合, 实现数据生产闭环流程, 全方位提升数据生产及管理流程的效率。

  公司地址:北京市朝阳区酒仙桥路4号751 D·Park正东集团院内 C8座105室 极客公园