《数据标注工作汇报.docx》由会员分享,可在线阅读,更多相关《数据标注工作汇报.docx(10页珍藏版)》请在课桌文档上搜索。
1、数据标注工作汇报什么是数据标注?当前,以互联网、大数据、人工智能 为代表的新一代信息技术日新月异。人工智能在去年、今年 两度被写入政府工作报告。产业勃兴,数据标注员因此成为新兴职业。多名业内人 士告诉记者,目前国内至少有大小近千家标注公司,共20 余万名数据标注员。其实大部份的工作内容很简单的,就是听听语音然后把 提示字幕修改一下,或者看一张图片,把里面文字也打出来, 这是我们做数据标注往往做的事,只要有电脑,就可以随时 随地的去做任务,如果有想深入了解请加微信 TYY1999-06-06第2客服录音数据标注规范(完整版)客服录音数据标注 规范(完整版)用谷歌浏览器(至少32.0以上版本)来标
2、注。其他浏 览器或者低版本谷歌浏览器可能浮现部份文件播放不了的 问题。质量要求:文字错误率:3%以内注:文字错误率指语音内容标注错误,只要有一个字 错,该条语音就算错。其他错误率:5%以内注:综合错误率指:除了语音内容以外的其他标注项 错误,只要有一项错,该条语音就算错。客服语音内容说明:都是鲜百味公司和客户的电话语音,公司主营业务是卖 海鲜,所以大部份内容都是关于海鲜(如大闸蟹)的购买、 礼品券、配送等方面。1 .当前语音是否包含有效语音无效语音(即不包含有效语音)的类型:文件播放不了;音频全部是静音或者噪音;许多地方听不清或者听不懂,例如,方言太重、噪音 太大、音量过低等。 两个人同时说话
3、超过3个字(包括3 个字)并且听内容不清晰的或者噪音声音盖住说话人声大于 3个字(包括3个字)导致内容听不清晰的2 .当前语音的噪声情况如果能听到明显的噪音(噪音指说话人正常说话外的其 他声音),则选择“含噪音”,否则选“肃静”。常见噪音举例(但不限以下):其他人说话声背景音乐声动物叫声汽车滴滴声咳嗽声明显的电流声3 .说话人数量(即标注的语音内容是几个人说的)一人说话(主体说话人):惟独一个人说话多人说话:有多个人说话(因为是客服语音,普通是 两个人)4 .说话人性别如果有多个人说话,则标第一个说话人的性别。标注项:男女5 .是否包含口音如果有多个人说话,则标第一个说话人是否有口音。标注项:
4、否:无口音是:有口音有口音是指说话人发音的拼音或者声调和正确发音 的不一致。常见情形包括:1和n不分,h和f不分,n和ng不分,e和uo 不分,先后鼻音,平翘舌,以及其他情况。6 .语音内容如果两个人同时说话,以主体说话人声音大的为准来转 写文字。如果一条语音中,低于3个字有两个人同时说话,并听 不清晰的,将听不清的部份用 d ”表示。如果一条语音中,低于3个字部份噪音太大,盖住说话 人声音导致听不清的,将听不清的部份用表示。文字转写具体要求:语音内容必须和听到的语音彻底一致,不能多字、少 字、错字。阿拉伯数字要写成汉字形式,如“一二三”,而不是“123” o注意区分“一”和“幺”。“二”和“
5、两”语气词:音频中说话人清晰地讲出的语气词,如“呃 啊嗯哦唉呐”等,要按照正确发音进行转写。语气词除了 “了不”没 有口字旁,其他基本上都有口字旁。转写内容的完整性要与实际发音一致,不得删减;如发音为:我是北北京人;“北”字有重复现象,那 转写的时候要写成:我是北,北京人。英文比较复杂,转写的原则是:按字母读的情况(如 缩写词,网址等)一律大写,按词读的则小写,例如“APPLE”表示用户 是逐个字母念的,“apple”表示用户按单词念的。明显的儿化音必须标注出来第3轻松标注Excel表格中的无效数据轻松标注Excel 表格中的无效数据校对数据是我们在日常办公中时常要做的工作,对于含 有大量数据
6、的表格,如何快速找到无效的录入数据、提高我 们校对的效率是不少朋友急于想了解的,今天我教大家两招 我出来的心得,希翼对大家有所启示。图1为单位第一季度 的加班统计表,领导让会计室小卜统计出来好计发加班费以 调动职工的积极性,小卜花了一晚上时间终于把全厂2000 多名职工的加工统计表搞出来了,实在累得够俄,再也没有 精力校对了。他让我想想办法能不能把超出范围的错误数据 快速找出来,由于单位规定,每人每月的加班时间不得超过 90小时(出于职工的健康着想),我给他介绍了下面的两种 办法:图1L使用条件格式选中表格中的数据区域(从C列到F列),单击“格式” 菜单中的“条件格式”命令,在弹出的“条件格式
7、”的对话 框的“条件1”列表中选择“公式”,在其右侧的文本框中输 入公式Jor(CI90)”(如图2),单击“格式”按钮,此时弹 出“单元格格式”对话框,切换到“字体”选项卡,将文字 “颜色”选择为“红色”,完成设置后挨次单击“确定”按 钮返回到数据表格中,浏览一下表格,是不是看到超出范围 的数字已经被标注了红颜色,这样改起来就方便多了。图22.利用数据有效性圈释无效数据普通情况下,在录入数据之前设置数据的有效性可避免 录入超出指定范围的非常规数据,但数据录入完成后设置数 据的有效性有什么作用呢?通过下面的介绍大家就会明白 了。选中表格中需要设置有效性的数据区域,单击“数据” 菜单中的“有效性
8、”命令,弹出“数据有效性”对话框,切 换到“设置”选项卡,按图3所示进行相应的设置,单击“确 定”按钮返回数据表中(此时表格的数据中看不到有什么变 化)。图3右击工具栏打开“公式审核”工具栏,单击工具栏中的 “圈释无效数据”按钮,此时我们会发现表格中的无效数据 都被清清晰楚地标注出来了(如图4) o图4Cico提示:以上两种方法都可以轻松地标注表格中的无 效数据,这些无效数据只要修改到指定的范围内,标注就会 同时被取销,不会影响数据的分析和打印。第4如何运营一家数据标注公司资源特点篇如何运营一 家数据标注公司(资源特点篇)在“基础架构篇”中我们提到的资源,也就是数据标注 公司要面对的甲方:AI
9、公司、AI企业、AI研究所。那末问 题来了,人工智能公司、人工智能企业、人工智能研究所多 种多样,作为一个数据标注公司应该如何定义自己的服务方 向呢?首先我们要能够准确的了解资源公司的特点,这样才干 更好的为其提供符合自身特点的服务。目前市场上的Al公司、AI企业、AI研究所大致分为以 下几种,对于与数据标注公司的合作来说他们各有各的优势 和劣势,这里对以下突出的几类进行分析:1 .初创型这里指的初创型公司普通指未进行过阶段融 资的初次创业型公司。优势:a)沟通成本低初创型公司的核心创始人普通都是公司 的核心技术人员,所以他们对数据标注的结果有清晰的需求认知,能够清晰严谨的表述 出需要标注数据
10、的规则,数据标注公司与此类资源公司在沟 通上比较简单,能够快速的直入主题,迅速建立供需关系, 省去冗长的上报、各级的批复等沟通环节。b)结算时间快这 类资源公司本身公司架构也相对简单,对于标注完成后的结 款时间相对也较短。劣势:a)需求联贯性不强因为初创型公司不少没有稳定的甲 方,同时公司在同一时期对接的甲方数量并非一定的,有 可能在某个月中会有不少,同样也可能一个没有。这就导致 了在数据的需求联贯性上并非很强。b)标注需求量不大在与甲方沟通合作的路上,展示型项 目产品并不需要大量数据的验证。更多时候都是以小批量数 据进行产品的小样展示,因为初创公司也要考虑项目的成功 率和标注成本之间的关系。
11、2 .企业型这里指已经形成一定规模的人工智能企业,同 时可能已经获得多轮融资。优势:a)数据联贯性强这里指的一定规模的人工智能企业可 能已是市场上第一梯队的领跑者,因为有成熟的产品和合作对象,其在产品需要进行迭代和研发关联产品时是需要大 量标注数据作为模型训练的。同时因为其在业界的影响力, 与新的需求商进行合作时的成单率也要远高于初创AI公司。b)数据价值高因为大型公司需要综合保密、质量、工期 等多方面因素,同时因为已经与需求公司建立了正式的合作 关系,此类型的AI公司在提供的数据标注单价上是要略高 于初创型企业。劣势:a)结算周期长因为此类公司的结构相对复杂,同时结构 越复杂的公司其对于支出
12、资金的流程也越谨慎,这种谨慎就 会导致合同内的结款周期远远高于初创型企业。b)沟通成本 高因为此类公司的架构相对复杂,普通一个项目的启动流程 是“算法团队将需求提供给项目经理,项目经理联系数据标 注公司试标-数据标注公司试标完毕反馈-项目经理检查并 反馈给算法团队”。这其中就避免不了多人传达规则时浮现 的含糊情况,需要大量的时间进行沟通和验证。同时在项目 启动时的流程也相对复杂,不仅需要算法确认规则,需要财 务确认支付方式,需要法务进行合同审核,需要项目主管领 导批准,这些都会使数据标注公司的沟通成本大大增加。3 .科研型这里指各类政府、大学等行政事业单位的科研 部门。优势:a)结算时间短普通
13、的科技机构的审批方式都是先进行 项目报备,在项目报备通过的时候其实这部份的项目资金就 已经预留出来了,只要数据标注公司能够按时按量的完成项 目内容同时提供合同内规定的相关发票,就可以顺利结算。b)沟通成本低普通的科研机构都是由项目负责导师指 定联系人进行与数据标注公司的沟通,同时被指定人普通也 都是项目的参预人,所以在规则的制定上更为清晰,与初创 公司一样,能够快速的进入主题,大大节省了数据标注公司 在沟通方面所花费的时间。劣势:a)数据联贯性不强因为此 类科研所的项目基本都是阶段性的,一类产品上线后,相关 产品再进行上线需要周期。b)找寻成本高因为科研机构的特殊性,在市场上很难准 确就定位到
14、需求部门,在众多部门中确立需求部门并与之建 立起合作关系是需要耗费大量的时间和精力。4 .综合型向Al化转型的各类传统行业企业。优势:a)数据联贯性强因为涉及传统生产的转型,该类企业一 般都有独立的AI产品研发组,同时因为此类公司本身的体 量和市场占有率,会使其对于需要转型的领域和需求产品更 为宽泛。b)数据量大因为AI转型除了成熟的技术支撑之外,最 重要的就是时间,越快将生产结合AI的企业,其市场竞争 力也就越明显。而如何能让计算机快速的进行训练呢?除了 算法团队的技术支撑,剩下的就是给计算机提供大量的符合 模型识别的标注数据。劣势:a)结算周期长和企业型公司性质相同,由于庞大的内部 结构,
15、项目资金的结款周期相较于初创型公司和研究所会大 大增长。b)工期紧张因为有转型这个宏观任务,所以普通此类企 业都对转型项目的落地时间有明确的规定,说简单一些就是 工期紧、任务重。由于这种特点,数据标注公司在承接此类 公司的项目时,需要有大量的人手进行数据标注,这对于公 司本身的管理无疑也是巨大的挑战。本文所说的每种公司都 有各自的渠道获取特点,请持续关注博客,我们会在接下来 更新更多的相关内容。第5入库数据清理清查工作汇报2022年入库数据清理 清查工作汇报根据省、市、区文件要求,将全员人口数据清理清查工 作作为当前重点工作来抓,解放思想,放下包袱,深入、彻 底地开展入库数据清理清查,特殊是历
16、年(含当年)漏报、 错报、瞒报人口出生数、“四术”数、查环查孕数、社会抚 养费征收数等,全面录入系统。现将这项工作总计如下:一、领导高度重视为了确保清理清查工作取得实效,我街道成为了以街道 分 管领导XXX任组长,相关人员为成员的“人口计生统计 数据核实清查”活动领导小组,领导小组在计生科下设办 公室,具体负责监督及统筹管理全员人口信息系统数据质 量检查、信息采集和录入等工作。领导小组由街道分管领 导陈伟元主持召开了协调会议,进一步明确了科室人员分 片包干的社区工作站,根据我街道实际分为3个清理清查 工作小组,整合了社区工作站各种资源,为清理清查的顺 利进行提供了组织 和队伍保障。二、突出重点
17、、深化措施,确保流动人口清理清查质量 流动人口管理是计划生育工作的重点,也是难点,因此开展 集中性清理清查是流动人口计划生育管理和服务的一种手 段,目的是通过清理建立准确、详细的台账,摸清流动人口 底子,调查他们的需求,为进一步开展“属地化管理、市民 化服务”打好基础。在清理时,我们采取统一领导、统一时 间、统一登记、统一管理的方法,按照宣传培训、清理清查、 回访复查、建档利卡录入汇总,调查处理五个阶段,对城区 流动人口进行了全面的清理清查、摸底建档,完善管理,清 除管理“空挡”和“死角”,主攻管理的薄弱环节,为城区 的流动人口管理与服务走上了时常化、制度化、规范化的管 理轨道奠定了坚实基础。