这项刷新世界最好成绩的OCR技术,也被用于疫情中的打假
有OCR界奥斯卡之称的ICDAR赛事,吸引了全球近百国家数千队伍参加。近日,来自中国的阿里巴巴一举刷新了ICDAR-RCTW17文字检测及端到端文字识别两项世界最好成绩。
OCR,光学字符识别,是一种能够自动从图像中检测并识别文本的技术。ICDAR是进行场景文本检测和识别任务最知名和常用的数据集,ICDAR-RCTW17则关注的是中文场景阅读。
OCR应用前景广阔。除了用于文本翻译、扫描文档阅读等办公场景,自动驾驶等工业场景,它同样能识别海量图像和视频中的低俗不雅信息,识别海量商品中的疑似侵权标识,可以说是数字经济时代社会治理的新型基础设施。
阿里安全资深算法专家薛晖表示,这项广泛应用于阿里经济体的技术,也在为解决复杂社会问题持续迭代升级。三年前,阿里OCR识别技术每秒能扫描图片文字2000余万个,相当于501本《康熙字典》,识别准确率达97.6%。
其实,OCR只是阿里知产保护科技大脑中的技术之一。“大脑”包含上亿个商品特征、百余个算法模型,效率相当于5万人同时工作。今年疫情期间,为让公共服务、执法监管等力量少跑腿,减少线下排查被感染的风险,阿里迅速升级知产保护科技大脑技术,提升AI打假能力,输出疫情防控的相关算法模型。此前,阿里安全已协助全国14个省份30个地市公安机关侦办制售假冒伪劣口罩等违法案件128起,在科技战“疫”中发挥作用。