海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

人工智能48

ShowMeAI 日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表;,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

📢 15岁男孩溺水遇险,高科技警用机器人开展急速救援

http://www.yunzhou-tech.com/info/363.html

近日山东威海一名15岁男孩在一处海域游泳时,因风浪太大难以上岸,体力不支陷入险境,民警赶赴现场后操控水上救生机器人快速的将男孩救回。这款上演了『急速救援』的水面救生机器人是『海豚1号』,是云洲智能自主研发生产的一款远程遥控操作的智能化救援设备。

『海豚1号』空载航速度达3.6m/s,是普通救生员的三倍,能负载200千克的重量,具备同时救援2-3人的强大应急能力,且有35分钟长续航、800米超远距离遥控等特性,可适应3级海况。救援人员无须下水,只需将其抛掷到水面,在岸边或船上遥控施救即可,大大的提升了水上救援的速度和安全性。

; 工具&框架

🚧 『StemRoller』免费的音源分离工具

https://github.com/stemrollerapp/stemroller

https://www.stemroller.com/

StemRoller是第一个免费的人声和乐器分离应用程序,可从从歌曲中分离出人声、鼓声、贝斯和其他乐器声部,只需点击一下就可以完成,StemRoller使用Facebook最先进的Demucs算法对歌曲进行拆分,并整合了YouTube的搜索结果。

; 🚧 『Nativefier』将网页转换成桌面应用(Mac)

https://github.com/nativefier/nativefier

Nativefier 是一个命令行工具,可以轻松地为任何网站创建一个 "桌面应用程序",方便快捷打开。应用程序基于Electron(它使用Chromium引擎)封装成可在Windows、macOS和Linux上使用的操作系统执行文件(.app、.exe等)。封装完成后,大家无需再打开浏览器在众多标签页中搜索查找想要的内容,而可以直接点击进入对应的网站页面。

; 🚧 『OpenKS(知目)』领域可泛化的知识学习与计算引擎

https://github.com/ZJU-OpenKS/OpenKS

OpenKS 是知识计算引擎项目中的基础软件架构,由浙江大学牵头,联合北京大学、北京航空航天大学、哈尔滨工业大学、西北工业大学、之江实验室等顶尖学术机构、百度等行业领军企业联合建设。它可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。OpenKS集成大量算法和解决方案,提供了一系列知识学习与计算的多层级接口标准,可供各机构研发人员以统一的形式进行算法模型研究成果的封装、集成与服务,并通过开源机制支持企业和社区开发者根据不同的场景需求对接口服务进行调用和进一步开发。

; 🚧 『ArXiv LaTeX』论文提交准备工具

本工具中提供了可清理和平整格式化ArXiv LaTeX提交论文的Python脚本。

https://github.com/davidstutz/arxiv-submission-sanitizer-flattener

; 博文&分享

👍 『机器学习论文撰写指南』How to ML Paper

https://docs.google.com/document/d/16R1E2ExKUCP5SlXWHr-KzbVDx9DBUclra-EbU8IB-iE/edit

作者总结了规范的论文结构,列出以下几个部分及各自内容格式与要点: Abstract、Introduction、Related Work、Background、Method、Experimental Setup、Results and Discussion、Conclusion。此外,指南也给出了常见的写作误区和建议List,可以打印出来,当作论文写作的自查清单!

; 👍 『Kaggle · 数据科学入门教程』系列Notebook推荐

https://www.kaggle.com/code/kanncaa1/data-sciencetutorial-for-beginners/notebook

本教程介绍成为一名数据科学家所需要的知识技能储备——基本工具(python、R、SQL)、统计学基本知识、数据处理、数据可视化、机器学习等,争取不多不少刚刚好。

  • Introduction to Python / Python简介
  • Python Data Science Toolbox / Python数据科学工具箱
  • Cleaning Data Diagnose / 清洁数据诊断
  • Pandas Foundation / Pandas基础
  • Manipulating Data Frames with Pandas / 用 Pandas 处理 DataFrame
  • Data Visualization / 数据可视化
  • Machine Learning / 机器学习
  • Deep Learning / 深度学习
  • Time Series Prediction / 时间序列预测
  • Statistic / 统计学
  • Convolutional Neural Network / 卷积神经网络
  • Recurrent Neural Network / 递归神经网络

; 数据&资源

🔥 『EECS 4422 Computer Vision | York University』约克大学《计算机视觉》课程资料

https://www.eecs.yorku.ca/~kosta/Courses/EECS4422/

EECS 4422是约克大学开放的《计算机视觉》课程,课程核心内容覆盖 图像形成过程、图像表示、特征提取、立体视觉、运动分析、三维参数估计和应用等。

; 研究&论文

可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.30 『 新视角合成』MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures
  • 2022.08.10 『 图像分类』Patching open-vocabulary models by interpolating weights
  • BigScience (ACL) 2022 『 图像分类』GPT-NeoX-20B: An Open-Source Autoregressive Language Model
  • 2022.05.04 『 无数据量化』Patch Similarity Aware Data-Free Quantization for Vision Transformers

⚡ 论文:MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures

论文时间:30 Jul 2022

领域任务:Novel View Synthesis, 新视角合成

论文地址:https://arxiv.org/abs/2208.00277

代码实现:https://github.com/google-research/jax3d,https://github.com/google-research/jax3d/tree/main/jax3d/projects/mobilenerf

论文作者:Zhiqin Chen, Thomas Funkhouser, Peter Hedman, Andrea Tagliasacchi

论文简介:Neural Radiance Fields (NeRFs) have demonstrated amazing ability to synthesize images of 3D scenes from novel views./神经辐射场(NeRFs)在从新的视图中合成3D场景的图像方面表现出惊人的能力。

论文摘要:神经辐射场(NeRFs)在从新视图合成三维场景的图像方面表现出惊人的能力。然而,它们依赖于基于射线行进的专门的体积渲染算法,这与广泛部署的图形硬件的能力不匹配。本文介绍了一种新的基于纹理多边形的NeRF表示法,它可以用标准渲染管道有效地合成新的图像。NeRF被表示为一组多边形,其纹理代表二进制不透明度和特征向量。用Z型缓冲器对多边形进行传统的渲染,得到的图像在每个像素上都有特征,这些特征被运行在片段着色器中的一个小型的、依赖于视图的MLP解释,以产生最终的像素颜色。这种方法使NeRFs能够用传统的多边形光栅化管道进行渲染,它提供了大规模的像素级并行性,在包括手机在内的各种计算平台上实现了交互式帧率。

; ⚡ 论文:Patching open-vocabulary models by interpolating weights

论文时间:10 Aug 2022

领域任务:Image Classification, 图像分类

论文地址:https://arxiv.org/abs/2208.05592

代码实现:https://github.com/mlfoundations/patching

论文作者:Gabriel Ilharco, Mitchell Wortsman, Samir Yitzhak Gadre, Shuran Song, Hannaneh Hajishirzi, Simon Kornblith, Ali Farhadi, Ludwig Schmidt

论文简介:We study model patching, where the goal is to improve accuracy on specific tasks without degrading accuracy on tasks where performance is already adequate./我们研究了模型的修补,其目的是在不降低性能已经足够的任务的准确性的情况下提高特定任务的准确性。

论文摘要:像CLIP这样的开放词汇模型在许多图像分类任务中实现了高精确度。然而,仍有一些情况下,它们的零次拍摄性能远非最佳。我们研究了模型的修补,其目标是在不降低性能已经足够的任务的准确性的情况下提高特定任务的准确性。为了实现这一目标,我们引入了PAINT,这是一种修补方法,使用微调前的模型权重和微调后的权重之间的插值来修补一个任务。在九项零拍CLIP表现不佳的任务上,PAINT将准确性提高了15到60个百分点,同时在ImageNet上将准确性保持在零拍模型的一个百分点之内。PAINT还允许一个单一的模型在多个任务上进行修补,并随着模型规模的扩大而改善。此外,我们还发现了一些广泛的转移案例,在一个任务上打补丁可以提高其他任务的准确性,即使这些任务的类别不相干。最后,我们调查了普通基准以外的应用,如计算或减少对CLIP的字体攻击的影响。我们的发现表明,有可能扩大开放词汇模型达到高准确性的任务集,而不需要从头开始重新训练它们。

⚡ 论文:GPT-NeoX-20B: An Open-Source Autoregressive Language Model

论文时间:BigScience (ACL) 2022

领域任务:Language Modelling, 语言模型

论文地址:https://arxiv.org/abs/2204.06745

代码实现:https://github.com/eleutherai/gpt-neox,https://github.com/labmlai/annotated_deep_learning_paper_implementations,https://github.com/labmlai/neox

论文作者:Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, Samuel Weinbach

论文简介:We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license./我们介绍GPT-NeoX-20B,这是一个在Pile上训练的200亿个参数的自回归语言模型,其权重将通过一个允许的许可免费向公众开放。

论文摘要:我们介绍GPT-NeoX-20B,这是一个在Pile上训练的200亿个参数的自回归语言模型,其权重将通过允许性许可向公众免费公开。据我们所知,这是在提交时拥有公开权重的最大的密集自回归模型。在这项工作中,我们描述了model{}的架构和训练,并评估了它在一系列语言理解、数学和基于知识的任务上的表现。我们发现,GPT-NeoX-20B是一个特别强大的几枪推理器,在评估五枪时,其性能的提升远远超过了类似规模的GPT-3和FairSeq模型。我们开源了训练和评估代码以及模型权重,网址是https://github.com/EleutherAI/gpt-neox。

; ⚡ 论文:Patch Similarity Aware Data-Free Quantization for Vision Transformers

论文时间:4 Mar 2022

领域任务:Data Free Quantization, 无数据量化

论文地址:https://arxiv.org/abs/2203.02250

代码实现:https://github.com/zkkli/psaq-vit

论文作者:Zhikai Li, Liping Ma, Mengjuan Chen, Junrui Xiao, Qingyi Gu

论文简介:Vision transformers have recently gained great success on various computer vision tasks; nevertheless, their high model complexity makes it challenging to deploy on resource-constrained devices./视觉transformers最近在各种计算机视觉任务上获得了巨大的成功;然而,它们的高模型复杂性使其在资源有限的设备上的部署具有挑战性。

论文摘要:视觉transformers最近在各种计算机视觉任务上获得了巨大的成功;然而,它们的高模型复杂性使其在资源受限的设备上的部署具有挑战性。量化是降低模型复杂性的有效方法,而无数据量化可以解决模型部署过程中的数据隐私和安全问题,因此受到广泛关注。不幸的是,所有现有的方法,如BN正则化,都是为卷积神经网络设计的,不能应用于模型结构明显不同的视觉变换器。在本文中,我们提出了PSAQ-ViT,一个用于视觉变换器的补丁相似性感知的无数据量化框架,以便能够根据视觉变换器的独特属性生成 "现实的 "样本来校准量化参数。具体来说,我们分析了自我注意模块的属性,并揭示了其在处理高斯噪声和真实图像时的一般差异(补丁相似性)。上述见解指导我们设计了一个相对值指标,以优化高斯噪声来接近真实图像,然后利用它来校准量化参数。在各种基准上进行了广泛的实验和消融研究,以验证PSAQ-ViT的有效性,它甚至可以优于真实数据驱动的方法。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

Original: https://blog.csdn.net/ShowMeAI/article/details/126399306
Author: ShowMeAI
Title: 海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报



相关阅读1

Title: dbpedia知识图谱java_一种基于DBpedia的水务领域概念知识图谱构建方法与流程

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

本发明涉及的是领域知识图谱构建技术领域,涉及到一种基于DBpedia的水务领域概念知识图谱构建方法,特别涉及到一种基于Jaccard相似度算法与随机游走相似度算法结合的协同过滤模型框架,用于补全概念模型的一套水务领域概念知识图谱构建方法。

背景技术:

目前调研领域知识图谱构建技术主要包括:1)知识融合:很多领域知识图谱的应用的方案都是建立在通用知识图谱的基础之上的,通用知识图谱可以为很多的领域知识图谱提供种子事实,目前有很多的通用知识图谱,比如复旦大学的通用百科知识图谱CN-DBpedia和概念图谱CN-Probase,基于维基百科页面结构化知识的DBpedia、YAGO。国内外对与从通用实体、概念的获取研究技术一般采用迭代的原理进行循环获取,即远程监督的方式,通过API端口,获取通用知识图谱中的领域种子实体,通过这些种子从语料中获取更多的实体,再以此实体作为种子,从通用知识图谱中获取相关的实体。概念合并,概念上下位关系合并,概念的属性合并,国内外研究学者在这些方面做出了很多贡献。国内知识图谱映射技术主要包括词典wordnet、结构和基于实例的方法,以及使用背景知识和以前的知识找到匹配结果输出。2)数据处理:数据来源通常是来自于领域百科爬取、通用百科导出、业务系统导出等,对与词汇挖掘、实体发现、关系发现的研究,国内外学者做出了很多贡献。比如对与实体关系的抽取,目前国内外主要具有成果性的技术有:基于Rule的关系抽取、基于bootstrapping的关系抽取等。

目前针对水务领域的概念知识图谱研究较少,关于这些技术还没有真正的得到落实,有些也不适用与水务领域,因此本发明构建水务概念知识图谱的方法对与其它领域可以提供一些指导。

技术实现要素:

有鉴于上述现有技术的不足,本发明的目的在于提供一种基于DBpedia的水务领域概念知识图谱构建方法,旨在解决水务领域概念知识图谱构建的知识补全的问题。

本发明解决其技术问题所采取的技术方案是:一种基于DBpedia的水务领域知识图谱构建方法,该方法主要包括如下步骤:

步骤1:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中。

步骤2:以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱。

步骤3:构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。

进一步的,本发明步骤1所述的构建水务概念词库的方法,其步骤具体包括:

步骤1-1:借助水务专家知识、相关水务分类标准、Wordnet词典初步获取概念词。

步骤1-2:使用python从贴吧、博客以及水务文档中爬取一些水务文本。

步骤1-3:用python中的jieba工具对抽取的水务文本进行文本分词。

步骤1-4:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关实体、概念词。

步骤1-5:用TF-IDF方法对水务相关实体、概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的实体、概念词。

进一步的,本发明步骤2所述的获取DBpedia中与水务相关的实体与概念的方法,其步骤具体包括:

步骤2-1:输出的实体词,通过DBpedia的接口,分别找到其上位概念、下位概念的集合,通过Jaccard相似度算法,两个集合重叠度越高,实体越相似,若相似度高于一个设定的阈值,最后的实体作为我们的最终的候选实体。

步骤2-2:利用随机游走相似度的方法,以输出的实体为起点,在DBpedia知识库中先得到上位/下位方向随机游走后落到每一个节点的概率向量,然后计算两个向量的Cosine相似度。我们设定步数为2步,最后得到两个实体的相似度值。

步骤2-3:综合考虑以上两种方法,我们采用一种合并相似度算法,找到实体的前5个最相似的实体,确定实体集。

步骤2-4:通过DBpedia,找到实体集相关的上/下位概念,及其他们之间的等级关系,并将相似的实体进行归类,将其存储到Mysql数据库中。根据从DBpedia中筛选的实体、概念词和专家知识对概念等级结构进行修改。

步骤2-5:用jena工具将保存到数据库中的概念信息表写成owl文件。

进一步的,本发明步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:

步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化。

进一步的,本发明步骤2所述的用相似度算法寻找水务相关实体方法,其算法步骤具体包括:

步骤2-1:Jaccard相似度通用公式为首先分别计算两个实体/概念c1和c2的上/下位概念集合的Jaccard相似度je和jo,je(c1,c2)=Jacc(hype(c1),hype(c2)),jo(c1,c2)=Jacc(hype(c1),hype(c2)),其中hype(c1)、hype(c2)分别为两个实体/概念c1和c2对应的概念集合。最后使用noisy-or合并je、jo,得到最终的两个实体/概念的相似度值为jacc(c1,c2)=1-(1-je(c1,c2))·(1-jo(c1,c2))。

步骤2-2:首先计算实体/概念c的随机游走向量其中i为结束的节点数,M为权重值,一般的情况设置i值为2。其次计算两个实体c1和c2随机游走向量的Cosine相似度与分别代表实体c1和c2的随机游走向量。

步骤2-3:计算合并相似度β为可调参数。

本发明能够应用于水务领域概念知识图谱的构建。

与现有技术相比较,本发明具有如下有益效果:

1.本发明在水务实体、概念词抽取阶段,从大量的非结构文本中,能够抽取大量特定的水务实体、概念词,为水务知识图谱的构建打下坚实的基础。

2.本发明通过一定的技术方法,从DBpedia知识库中归类出水务领域的实体与概念,并将初步抽取的词汇进行了精确的筛选及关系的合并,并将获取的实体、概念关系作为现有知识图谱的补充,提供了一种知识图谱补全的方法。

附图说明

图1为本发明一种基于DBpedia的水务领域知识图谱构建方法的流程图。

图2为步骤2的具体流程图。

图3为水务领域概念知识图谱部分展开图。

具体实施方式

本发明提供一种基于DBpedia的水务领域概念知识图谱构建方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参阅图1。图1为本发明一种一种基于DBpedia的水务领域概念知识图谱构建方法较佳实施例的流程图,如图所示,其实施步骤,包括如下:

步骤1:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中。

步骤2:以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱。

步骤3:构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。

图2中本发明所采用的相似度计算方法都有各自的优势,在实验中依据实体数据量的大小进行搭配使用,其中Jaccard算法在实验中较为简单,但准确率相对较低,适合概念集相对较少的时候使用,合并相似度算法较为复杂,但是准确率会相对较高,适合概念集合相对较多的时候使用。

图3是构建的水务领域概念知识图谱部分图。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Original: https://blog.csdn.net/weixin_39677203/article/details/114493090
Author: weixin_39677203
Title: dbpedia知识图谱java_一种基于DBpedia的水务领域概念知识图谱构建方法与流程

相关阅读2

Title: 华为昇腾CANN模型开发(CANN训练营2022年度第一季-学习笔记)

  • 本帖为" CANN训练营2022年度第一季-新手班模型开发课"的学习笔记,包含学习文档及其中视频、直播学习笔记和个人补充资料,大部分图片来自bilibil@昇腾Ascend昇腾社区,如有其他来源会单独标注
  • 根据个人判断,学习本课程需要基本的Python编程基础和对深度学习、神经网络有所了解,建议没有相关基础的同学们先补充相关知识再参加课程。楼主为初学者,个人笔记中会补充部分相关基础,可酌情参考,同时欢迎各位同学、前辈指正错误
  • 本帖预计根据课程进度同步更新,笔记内容包括主要课程内容及个人补充,不包含作业。本帖基于markdown整理发布,课程结束后会整理发布完整笔记

1.了解CANN在神经网络中的作用**

2. 基于CANN将TensorFlow迁移到昇腾AI处理器

3. 在昇腾AI处理器上训练模型
4. 查看训练日志、结果,具备基本问题定界、定位能力

2.1 具备Python编程经验

1. 使用位置和关键字参数定义和调用函数

  • 函数:一段具有特定功能的、可重复使用的语句组,可看作一段有名字的子程序。Python中使用def保留字定义函数
 def<函数名>(<形式参数列表>):
    <函数体>
    return<返回值列表>

2. 字典、 列表、 集合(创建、访问和迭代)

3.for 循环, for 具有多个迭代器变量的循环(例如,for a, b in [(1,2), (3,4)])

for a, b in [(1,2), (3,4)]:
    print('a=',a)
    print('b=',b)
    print('next')

a= 1
b= 2
next
a= 3
b= 4
next

4. if/else 条件块和条件表达式

5. 字符串格式 (例如,'%.2f' % 3.14)

a = 321.123456
b = '%.2f' % a
print(b)

321.12

6. 变量、赋值、基本数据类型 (int, float, bool, str 等)

2.2 了解深度学习和神经网络

2.3 了解TensorFlow AI框架

2.4 昇腾AI全栈架构

  • 视频链接
  • 视频截图海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报
  • 补充:
  • 芯片部分:
    • 集成在其他芯片中的,如麒麟9000中的NPU;
    • 单独成片的,昇腾310用于推理,昇腾910用于训练
  • MindSpore:华为自研开源AI框架
  • ModelArts:华为云上的训练资源平台

2.5 异构计算架构CANN

2.6 了解基于CANN的模型开发流程

2.7 了解遇到问题如何求助

2.8 小作业1

  • 【结束后补充】

3.1本章学习日标

  • 了解为什么要做模型迁移
  • 了解模型迁移的两种迁移方式
  • 掌握如何进行模型迁移

3.2为什么要做模型迁移

3.3了解两种模型迁移方式

3.4 TensorFlow AI模型自动迁移详解

3.5 TensorFlow AI模型手工迁移详解

3.6小作业2.

  • 【结束后补充】

Original: https://blog.csdn.net/weixin_44831765/article/details/123731040
Author: dust-star
Title: 华为昇腾CANN模型开发(CANN训练营2022年度第一季-学习笔记)

相关阅读3

Title: 在AI创新赛道啃下最硬的骨头:中科凡语抢滩NLP蓝海

文丨智能相对论

作者丨叶远风

自然语言处理(NLP),人工智能皇冠上的"明珠",由于各个底层算法和技术模块都与业务场景的业务逻辑、数据特点高度捆绑,每一个领域、每一个业务场景都需要高度定制,已经成为AI领域最难啃的硬骨头。

目前,国内NLP在生活场景的应用占比不到1%,与之对比的是,视觉(CV)、听觉赛道上商业化的大幕早已开启。

尽管微软亚洲研究院认为未来十年是NLP发展的黄金档,尽管Tractiac的"自然语言处理(NLP)市场研究报告-全球预测2022"分析NLP市场将在未来五年内快速增长,尽管市场乐观预期国内NLP在生活场景的应用占比在10年内将突破50%...... 然而,这一切终归需要NLP领域的创新企业一个个技术难题攻克、一个个场景突破来最终实现。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

谁来啃下这最硬的骨头?

不同的人会有不同的答案。而现在,一些不常出现在业界舆论焦点的创新企业,却正在成为NLP创新突破的重要力量。

中科凡语就是其中之一。这家由中国科学院自动化研究所孵化、专注于NLP服务的创新型企业,历经短短的几年发展后已经成长为 "中关村金种子企业"。基于特定行业、教育、医疗、航空等多个细分领域的特定需求,中科凡语的技术和产品正在改变人们工作、生活的方方面面,并凭借众多语种的覆盖成为"一带一路"建设的重要伴行者。

如同投资方高科新浚所言,中科凡语"汇聚具有国际视野和产业实践的人才梯队",该企业优质的人才体系已经成为各项发展优势的重要支撑——首席科学家宗成庆、董事长周玉均是来自中国科学院自动化研究所的研究员,核心团队成员均为博士学历,有阿里、IBM等高级算法专家的从业经历。

如果说NLP的创新突围是一场旷日持久的抢滩登陆,那么中科凡语已经为此做了完善的顶层规划,而在其耕耘NLP赛道的过程中,一个客观上的、围绕抢滩NLP蓝海的体系化步骤也显现出来。

深挖洞:用最顶尖的团队夯实最坚实的技术基础

"九层之台,起于累土"。对NLP而言,最首要的莫过于坚实的技术创新,为一切应用创新、场景攻克提供最底层的支撑,挖洞越深,在面对NLP那些复杂场景需要时越能够从容。

而中科凡语早已完成了这样的挖洞过程,且还在持续巩固。

作为一个并非赶着AI、NLP风潮而凭空创立的企业,中科凡语承接的是中国科学院自动化研究所在人工智能、自然语言处理和机器翻译等方向20多年的技术储备,或者说,中科凡语就是这些技术储备的一种实体化、市场化表现。

再加上,行业顶尖团队和技术储备对整个行业技术人才的天然"吸引力",不断壮大的团队让中科凡语在算法或技术层面持续突破、领导行业,以创新企业的身份获得了不可忽视的NLP技术话语权,甚至在技术层面一定程度上代表着行业发展走向,睥睨整个赛道。

在2019年9月,中科凡语就已获得中关村高新技术企业认证,12月获得国家级高新技术企业认证;2020年10月,在中关村国际前沿科技创新大赛上,中科凡语从数百家高新企业中脱颖而出,入围人工智能领域TOP10榜单。

此外,已经拥有一百余项国家发明专利、软著的中科凡语,还横扫了各种行业权威技术大赛:

核心技术团队荣获2014年 "钱伟长中文信息处理科学技术奖"一等奖、中国电子学会科技进步一等奖、2015年度国家科技进步奖二等奖;

与中国科学院自动化研究所共同申报的"多语言机器翻译关键技术及平台建设"项目被中国发明协会授予发明创业奖创新奖一等奖;

2020年11月荣获"2020全国移动互联创新大赛(社会组)决赛一等奖"及单项奖"最具市场潜力奖";

在第五届中国健康信息处理大会评测大赛第一赛道临床术语标准化任务中,进入前三甲;

中科凡语首席科学家宗成庆、董事长周玉深度参与的《神经网络机器翻译核心技术及产业化》获得北京市科学技术进步奖一等奖。

......

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

如果说这些技术优势是中科凡语布局NLP领域的生产机器,那么在NLP的基础生产资料——语料数据方面,中科凡语也有着行业最充足的准备,极具创新精神的人才团队不断推动着中科凡语领先的数据优势进一步夯实。

由于NLP领域的特殊性,相对于视觉、听觉,其对数据的渴望更为强烈,大部分NLP技术都是建立在大规模语料训练的基础之上。

而中科凡语一方面依托中国科学院自动化研究所相关团队过去20多年的积累,另一方面依托于与语言类高校的深入合作,如前文所言已经建立了涵盖特定行业、教育、医疗、航空等多个领域的亿级双语平行语料,NLP语料数据方面领先行业,先天拥有NLP基础资源方面的优势。

现在,看似与数据资源关联不大的人才体系,还在不断强化中科凡语这种优势。

在NLP领域,数据一般来源于两个方向,一是全网无标注数据;二是采集特定语料进行标注后的数据,后者价值更大但往往需要大量的体力劳动来完成工作。中科凡语依托强大人才体系创新了业界领先的智能化标注技术,让原本需要大量人工来完成的NLP数据标注进程变得更有效率,从而大大推动有标注数据的生产,不断充实自身的NLP语料池,保持甚至扩大在行业的数据储备优势。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

由此可见,NLP领域的人才并不只有业界通常认为的算法创新价值,在数据方面同样有显著的推动作用。

集齐了算法、数据两大优势,中科凡语已经为NLP抢滩做好了最全面的准备。

广积粮:以场景突围为导向构建稳固且灵活的人才体系

基于NLP的内在需要,只是在某个技术领域、某个场景耕耘,无法完成NLP的创新突围。"兵马未动,粮草先行"。NLP抢滩需要积累更为广泛且灵活的多专长人才体系。

而中科凡语客观上所组建的人才体系"中台"结构,就成为其在NLP领域积蓄粮草的重要表现方式,不同特性的人才相互协同推动中科凡语实现高效的垂直场景拓展。

事实上,不论算法还是数据优势多么强大,最终的NLP成果都要与场景有效结合才能实现商业价值,而NLP在跨语种、跨领域时又表现出很强的领域特征,这意味着产品的实现和落地必须有多方面能力的人才体系来支撑。

在中科凡语,一个包括技术人才、业务人才、语言人才在内的内外部人才体系已经搭建起来:

1)技术人才面向不同的行业或场景提供通用型技术,确保底层技术基础的稳固,类似于互联网企业的统一"中台";

2)业务人才向不同的行业或领域延伸,提供独属于本行业、与行业实际相结合的进阶服务能力,推动产品落地;

3)语言人才提供外部协助,例如与中科凡语紧密合作的高校的语言学者,可提供更专业的语言层面的词法、句法、语义的专业指导等。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

这样的人才储备,使得中科凡语既具备稳健的底层技术支持,也拥有了向不同行业领域开拓的能力——现在,中科凡语已经在特定行业、教育、医疗、航空等垂直领域设计了定制化翻译及信息分析服务产品,且面向"一路一带"国家提供了70多种语言翻译。

数不清的场景、全球超过100种常用语言的市场,NLP的场景空间广阔而深入,而上述相互协同的人才体系正在成为中科凡语不断突破这些场景空间、落地商业价值的核心竞争力。

高筑墙:全面落地应用场景的同时不断为下一步领先优势做准备

对NLP这片蓝海而言,谁能建立起高行业壁垒,谁就能在抢滩登陆中占据先发优势。而建立行业壁垒的先决条件,就是要能推动技术创新在各个场景走向落地,以市场化的标准来验证产品的实际价值,为下一代NLP技术发展提供正向反馈。

基于深厚的技术积淀和体系化的人才支撑,目前中科凡语推出了"信译"、"信推"、"信析"、"信服"和"信取"五大NLP技术产品,并在此基础上整合建立了全网态势洞知平台。此外还包括一款"基于神经网络及领域知识的机器混译系统成套装备"(该装备已被列为2019年中关村首套重大技术装备试验、示范项目),向不同行业提供解决方案。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

(全网态势洞知平台上线仪式)

例如,"信译"智能翻译系统可以为用户提供最优质、专业、准确、高效的机器翻译服务,它支持包括英语、日语、韩语、俄语、西班牙语等语种以及泰语、越南语、缅甸语、阿拉伯语等"一带一路"国家语种在内的70多个语种;"信推"智能摘要系统采用深度学习+强化学习技术,融合抽取式和生成式模型,针对长文本完成多模态自动摘要生成和关键词提取;"信析"提供多语言词法分析、句法分析、命名实体识别等基础模块,服务于机器翻译、自动摘要、情感分析等自然语言处理中的应用,提升产品性能;"信服"智能分析系统为各个细分领域提供智能对话系统,实现多轮交互对话,节省大量人力成本和时间成本,提升服务质量;"信取"信息获取系统,则提供跨场景、多语言、多粒度的数据爬取、融合、分类及管理。

全网态势洞知平台则基于多年"五信"产品功能积累和NLP实践经验,运用系统化、模块化、工具化的设计,以组件定制的形式来整合模块功能以对外输出解决方案,如要素提取、文本分类、知识图谱、观点提取、文字识别、机器翻译等,针对不同用户的零散的、多样的、特殊的场景需求,进行多维度、多功能的产品方案定制,推进人机协同优化效率,最终形成面向多行业领域的产品矩阵。

目前,中科凡语已经服务于国际国内20余家知名企业,80余家B端G端重要客户,同时还承担了多项国家和政府重大需求项目,例如为"一带一路"沿线国家提供翻译、信息整合及分析服务等。

在具体案例上,中科凡语服务一家国际知名航空公司,完成每天约10万条飞行维修日志的实时翻译、译后信息处理;服务某全球生物制药集团和某国内三甲医院,帮助推进医疗Al,在电子病历结构化处理、医疗文本分析、智能辅助诊疗、智能分诊问诊等方面提供机器翻译系统、提升协同效率,等等。

就在去年11月12日,中国外文局翻译院与中科凡语签署协议,共建智能翻译实验室、开展翻译领域技术赋能模式研发合作,共建共享语料库、术语库、人才库、翻译院官网及中国外文界多语种终身学习平台"三库一网一平台"。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

无论是To B还是To G,中科凡语势头都非常强势,不断向高端和权威推进。从NLP的行业发展来看,这是落地场景的不断拓展、商业机遇的不断迸发,技术在源源不断推向市场、获得应用反馈并迭代提升。

出机杼:不断扩展融入新的发展元素拉升行业发展天花板

在完成技术、人才、市场的充分准备之外,还有更重要的是深层次布局。不仅要在企业核心产品上自出机杼,更要在对下一代行业技术风向能够未雨绸缪。对NLP而言,就是在不断挖掘NLP技术价值潜力的同时,不满足于市面既有的创新、业务框架,不断融入新的发展元素拉升发展天花板。

中科凡语在NLP领域的自出机杼,表现在两个方面。

一是摆脱To B、To G的行业固有业务框架,而通过更广泛的资源配置惠及更广泛群体。

这尤其表现在To B、To G的众多商业合作项目之外,中科凡语所投入建立的To C项目上——"飞译"。该平台与"信译"产品技术能力相结合,将原本面向B端客户的翻译学习方案和辅助翻译技术通过平台化的方式惠及更广泛的人群,解决翻译等领域的大众痛点问题。目前,该平台已可实现70多种语言翻译,30多个语种的图像翻译,显著提升了翻译效率,且该平台已完成国产化适配,技术上自主可控。通过平台形式,让NLP产业层面的资源配置效率提升,也让更多的群体享受到技术所带来的应用红利。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

(飞译CAT平台上线仪式)

据了解,飞译平台已推出了具有实用性和针对性的四个版本,即高校版、医疗版、通用版和个人版,实现了对不同人群、不同领域、不同需求的全方位覆盖,这背后既需要To B领域的积淀,也需要团队以平台化的方式将原本束之高阁的技术、方法不断向C端用户开放,提供更好的体验,凸显了中科凡语一定程度上的互联网能力印记。

显然,飞译平台将帮助中科凡语在C端市场拓展业务规模,不断拉升企业发展的天花板。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

二是不断拥抱NLP的技术未来,为一切变化和趋势做最充分的准备。

NLP的技术不会有终点,在效率之外,超越人类的理解能力也早晚会实现,但在这之前,作为技术方面的行业领导者,中科凡语还必须进行更前沿的技术和应用探索。

2020年11月,凡语AI研究院成立,共有高级发展顾问、教授级专家委员、博士青年委员等60多人加入,它成为中科凡语不断探索更前沿的算法、突破现有算法模型的抓手。典型如当下大热的多模态大模型,中科凡语的研发团队很早之前便已经参与研发,在推进跨模态语义关联以及实现更完善的算法模型方面积累了丰富的经验。

海边溺水,救援机器人“生死时速”;机器学习论文撰写清单;Kaggle数据科学新手教程;约克大学『计算机视觉』课程资料;前沿论文 | ShowMeAI资讯日报

(凡语AI研究院成立揭牌)

技术上突破新的基础模型,业态上向新语言、新场景落地,开拓NLP应用的版图,AI研究......这些都在成为中科凡语在NLP前沿发展领域的重要支撑,乃至在此基础上可能向行业反向输出、引领NLP的趋势,做行业的领导者而不是跟随者。

深挖洞,广积粮,高筑墙,出机杼,中科凡语在这场NLP蓝海抢滩中已经做好了关于技术、人才、产品和市场的完善布局。这个过程与NLP行业日新月异的快速发展息息相关,而中科凡语对行业的吸引力也变得越来越强,体系化的职能架构越来越清晰,无论是作为职业选择还是作为投资对象,都表现出一个趋近成熟的科技企业特质。

未来,NLP的每一次创新突破、场景落地,来自中科凡语的表现都值得期待。

*本文图片均来源于网络

深挖智能这口井,同好添加vx:zenghy2017

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

智能相对论(微信ID:aixdlun):

•AI产业新媒体;

•今日头条青云计划获奖者TOP10;

•澎湃新闻科技榜单月度top5;

•文章长期"霸占"钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

Original: https://blog.csdn.net/sinat_32970179/article/details/123855263
Author: 智能相对论
Title: 在AI创新赛道啃下最硬的骨头:中科凡语抢滩NLP蓝海