什么是数据标注?

在了解数据标注之前,先来了解人工智能。

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。

人工智能,其实是部分替代人的认知功能。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。

要学习数据中的规律,就要假设数据是有正确答案的,很多数据是不存在所谓答案的,那么如果我们想让数据能有“规律”就要给数据标注。

回想一下我们是如何学习的,例如我们学习认识猫,那么就需要有人带着一只猫或者猫的图片到你面前告诉你,“这是一只猫”。然后以后你遇到了猫,你才知道这东西叫做“猫”。

类比机器学习,我们要教它认识一只猫,直接给它一张猫的图片,它是完全不知道这是什么。

我们得先有猫的图片,上面标注着“猫”这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。

这里顺带提一下训练集和测试集的概念。训练集和测试集都是标注过的数据,还是以猫为例子,假设我们有1000张标注着“猫”的图片,那么我们可以拿800张作为训练集,200张作为测试集。机器从800张猫的图片中学习得到一个模型,然后将剩下的200张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。

所以目前人工智能需要标注大量数据,即对原始信息进行数据标注。

数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。

数据标注是大部分人工智能算法得以有效运行的关键环节。

数据标注的过程是通过人工贴标的方式,为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。

数据标注的分类

图像标注

图像标注问题的本质是视觉到语言的问题,用通俗的话说,就是“看图说话”。

语音标注

一般来说,语音标注与我们生活的众多方面都是息息相关的。比如,我们在使用微信时,语音可以转换成文字,在使用百度地图APP上小麦克风功能。这些都需要前期大量的人工去标记这些“说出的话”所对应的“文字”,采用人工的方式一点点去修正语音和文字间的误差。这就是语音标注。

文本标注

文本标注是指,将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域。

视频标注

视频标注指的是对视频进行分析,即对视频帧的信息进行标注。

数据标注常用工具

一般来说,数据标注工具有图片标注、文本标注、语音标注、视频标注。

丨图片标注

工具比较多,常用的有labelImg、labelme、CVAT等工具,每个工具都可以对图像进行标注。

丨文本标注

常用的有YEDDA、SMART、Doccano等。

丨语音标注

有EchoML、Aubio以及Praat等工具。

丨视频标注

相对来说少一些,有UltimateLabeling、VATIC、VoTT等工具。

丨汇总

常用的标注工具这里总结一下,按照运行平台、标注形式、标注格式展示,Windows来说常用的标注工具有LabelImg、LabelMe、VOTT、Praat等。

适用于大型项目的标注工具,基于Web,能够标注图像、视频和文本

多边形、矩形、线、 点、嵌套分类
JSON 格式
VIA
VGG的图像标注工具,也支持视频和音频标注
-

数据标注应用场景

自动驾驶

在汽车自动驾驶的过程中,想要让汽车本身的算法做到处理更多、更复杂的场景,背后就需要有海量的真实道路数据做支撑。

而这就需要依靠数据标注。

智能安防

智能安防是人工智能与信息技术结合的关键领域,对于城市与民生发展有重要的意义。通过生物识别、行为监测等技术手段,广泛地应用于城市道路监控、车辆人流监测、公共安全防范等领域。

人脸标注在智能安防中主要应用于人脸识别与身份识别。

物品标注在智能安防中,物品标注需要和行为标注结合。

智能医疗

智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。AI与医疗行业的结合将有望迎来跨越式发展。

医疗影像标注是对医疗影像进行区域标注及分类标注,多应用于辅助临床诊断。人工智能通过学习大量的医疗影像标注数据集,将会很好的辅助医生进行临床诊断以及提出治疗方案。

除了上面几个应用,数据标注在金融行业、家居行业、电子商务等行业也有着重要的应用。

©著作权归作者所有:来自51CTO博客作者点宽Digquant的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 【点宽专栏】基于深度学习的股票涨跌预测
  2. 数据包处理利器——Scapy基础知识
  3. 又说骚话,Linus再次拒绝Intel CPU漏洞补丁
  4. mysql数据库ddl与dml语言实操
  5. BlueStore checksum机制
  6. 项目启动大会,数据治理项目不容忽视的关键节点
  7. 君自故乡来-《唐诗三百首-杂诗》数据源程序应用
  8. 四周上手BI 电商数据分析
  9. 数据库查询构造器

随机推荐

  1. Android学习笔记(八):Activity-OpenMenu和Li
  2. Android(安卓)后台服务简要概述
  3. JS与Android互调
  4. Android--从零单排系列(3)--文件读写的操
  5. Android安全防护防护———Android(安卓)
  6. android长度单位
  7. android telephony 之 UICC 卡数据读写及
  8. Android_android签名证书的sha1值获取
  9. android Application Component研究之Con
  10. [置顶] 编译自己的Windows Android(安卓)