【NLP公开数据集】 CoNLL-2003数据集

人工智能99

每种语言都包含:训练集、开发集、测试集、无标签数据;

1.训练集:用于模型学习训练

2.开发集:用于模型学习过程中调参

3.测试集:用于结果的测试

注意:其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】,其他数据集都比较小

具体的数据详细信息如下:

(1)个数据集中的文章、句子、词语数量

文章数句子数词语数训练集94614987203621开发集216346651362测试集231368446435

(2)各数据集中的实体数量分布情况

地名人名组织名其他实体训练集7140660063213438开发集183718421341922测试集166816171661702

数据样例如下(假设实体没有循环和交叉):

词       词性   词块   实体
U.N.     NNP   I-NP  I-ORG
official NN    I-NP  O
Ekeus    NNP   I-NP  I-PER
heads    VBZ   I-VP  O
for      IN    I-PP  O
Baghdad  NNP   I-NP  I-LOC
. . O O

具体的数据详细信息如下:

(1)个数据集中的文章、句子、词语数量

文章数句子数词语数训练集55312705206931开发集201306851362测试集155316051943

(2)各数据集中的实体数量分布情况

地名人名组织名其他实体训练集4363277324272288开发集1181140112411010测试集10351195773670

参考资料:

Original: https://blog.csdn.net/Elvira521yan/article/details/118028020
Author: Elvira521yan
Title: 【NLP公开数据集】 CoNLL-2003数据集



相关阅读1

Title: 微信小程序语音识别、语音合成(微信同声传译)使用代码实例

最近在开发一款"单词大作战"的微信小程序,想增加语音识别、语音合成这2个功能。(让用户能听到单词的读音,并对比自己读音是否标准正确)。

查了一下资料,大概有几种方式:用百度翻译(需要配置后台来转发)、讯飞(听说效果最好,但好像要收费并要配置后台来转发 )。还有用微信同声传译插件。

微信同声传译插件使用最方便,目前功能还是尽善尽美,但一直在升级,是个人开发者不错的选择。用微信扫描下面小程序可以体验语音合成和语音识别的功能:

【NLP公开数据集】 CoNLL-2003数据集

官方的开发文档: https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99&token=251348119&lang=zh_CN

使用步骤:

1、 在微信公众平台配置,找到设置–第三方设置–插件管理–点击添加插件,
搜索微信同声传译并添加

2、 在项目根目录app.json文件中配置

 "plugins": {
    "WechatSI": {
      "version": "0.3.4",
      "provider": "wx069ba97219f66d99"
    }
  },

语音合成:

在pages的js中加入插件初始化代码

const innerAudioContext = wx.createInnerAudioContext();
innerAudioContext.autoplay = true;
const plugin = requirePlugin('WechatSI');

由于语音合成原理是微信同声传译是在同声传译后台生产录音,下载播放录音。可以在页面加载阶段生产录音,在使用的地方播放录音,就不会有延迟。

//在全局定义变量
var remoteAudio = null;

//在开始阶段加载
 plugin.textToSpeech({
     lang: "en_US",
     tts: true,
     content: word,
     success: function(res) {
         console.log("succ tts", res.filename)
        // this.playAudio(res.filename);
        remoteAudio = res.filename;

     },
     fail: function(res) {
         console.log("fail tts", res)
     }
 })
  },

//在实际需要使用语音合成地方
innerAudioContext.stop();
console.log("remoteAudio: " + remoteAudio);
innerAudioContext.src = remoteAudio;
innerAudioContext.play();
innerAudioContext.onError((e) => {
  console.log(e.errMsg)
  console.log(e.errCode)
  })

语音识别:

在pages的js中加入插件初始化代码

//引入插件:微信同声传译
const plugin = requirePlugin('WechatSI');
//获取全局唯一的语音识别管理器recordRecoManager
const manager = plugin.getRecordRecognitionManager();
// 设置采集声音参数
const options = {
  sampleRate: 44100,
  numberOfChannels: 1,
  encodeBitRate: 192000,
  format: 'aac'
}

onload()中加入初始化代码

//识别语音
this.initRecord();

在需要加入语音识别地方加入下面代码:

 //语音  --按住说话
  touchStart: function(e) {
    wx.vibrateShort() //按键震动效果(15ms)
    manager.start(options)
    this.setData({
      recordState: true, //录音状态为真
      tips: '松开结束',
    })

  },
  //语音  --松开结束
  touchEnd: function(e) {
    // 语音结束识别
    manager.stop();
    this.setData({
      recordState: false,
    })

  },
  //识别语音 -- 初始化
  initRecord: function() {
    const that = this;
    // 有新的识别内容返回,则会调用此事件
    manager.onRecognize = function(res) {
      console.log(res)
    }
    // 正常开始录音识别时会调用此事件
    manager.onStart = function(res) {
      console.log("成功开始录音识别", res)
    }
    // 识别错误事件
    manager.onError = function(res) {
      console.error("error msg:", res.retcode, res.msg)
    }
    //识别结束事件
    manager.onStop = function(res) {
      console.log('..............结束录音')
      console.log('录音总时长 -->' + res.duration + 'ms');
      console.log('语音内容 --> ' + res.result);
      if (res.result == '') {
        wx.showModal({
          title: '提示',
          content: '听不清楚,请重新说一遍!',
          showCancel: false,
          success: function(res) {}
        })
        return;
      }
      //下面有些代码有一些业务代码,要根据自己实际进行替换
      if(res.result == this.myword){
        that.setData({
          content: that.myword + '读音正确' //去掉自动添加的句号
        })
          next();
      }else{
        that.setData({
          recordState: false, //录音状态为真
          content: that.myword +'读音不准',
        })
        plugin.textToSpeech({
          lang: "en_US",
          tts: true,
          content: that.myword,
          success: function(res) {
              console.log("succ tts", res.filename)
          },
          fail: function(res) {
              console.log("fail tts", res)
          }
      })
      }
    }
  },

Original: https://blog.csdn.net/linweidong/article/details/115876413
Author: linweidong
Title: 微信小程序语音识别、语音合成(微信同声传译)使用代码实例

相关阅读2

Title: 免屏实现精准较时设定,WT588F02B-8S(C006_03)电子语音药盒解决方案

电子药盒是一种具备定时提醒服药功能的贴心家居用品,每天的服药时间是预先设定好的,到了设定的时间提醒声音就会响起,服药者因此就可以准时服药。这很适合那些需要每天服药、服用保健品的人士(尤其是老年人士)使用。许多需要每天服药的人士,尤其是老者,经常会因为一些原因忘记服药,或错过正确的服药时间。这种遗忘可能引发不好的后果,是应该极力避免的,而电子药盒就是要起到这个作用。

其次,WT588F02B电子药盒中带有光波通讯功能,即通过手机APP,对准产品,即可将APP中设置的数据直接下发给产品。这样一些繁琐的操作,例如现在时间校准、服药定时设置等这些操作复杂而繁琐的功能,只需要在手机中APP设置好,即可以下发给产品,产品即可配置好相应的功能。

市面上普通的电子药盒,要么是要用数码管显示,要么是要用LCD屏来显示。目的就是为了设置时,能够通过数码管/LCD屏。但WT588F02B方案,即不需要数码管,也无需LCD屏。只需通过APP即可设置。操作上大大简化客户操作,成本上减少LCD和LED数码管的成本,研发上简单快捷。

APP界面图如下:(APP部门可以提供技术支持,帮助客户进行修改个性化界面)

【NLP公开数据集】 CoNLL-2003数据集

下面我们以应用实例:WT588F02B电子药盒设计方案直观的呈现:

WT588F02B电子药盒方案设计实例

1.电子药盒 方案概述

2.器件选型

部位

型号

特性概述

主控

WT588F02KD

16位DSP、32MHz、183K RAM、可重复擦写、...

时钟部分

WT5T01

-5~+20ppm、31.25ms

a.设计原理图

b.

【NLP公开数据集】 CoNLL-2003数据集

3.应用框架图

【NLP公开数据集】 CoNLL-2003数据集

4.WT588F02B基本功能和特点

1.16位DSP语音芯片、32Mhz内部振荡;

2.工作电压2.0~5.5V;建议电压:2.2~4.0V(由于串口使用TTL电平通信)

3.16bit的PWM输出,可直接驱动8R 0.5W喇叭;

4.支持6K~32Khz的WAV文件;

5.客户可以通过配套下载测试板在线更换芯片内部语音内容;

6.带语音提示功能;

7.支持32768段地址,有更多需求可以扩展;

8.芯片内部有183K byte 的存储空间(不包括主控程序)。

9.芯片主控程序和内置存储数据均可擦除再烧写。

10.读取当前时钟信息: 年、月、日、时、分、秒、周

11.设置当前时间信息: 年、月、日、时、分、秒

12.设置报警信息:列表 20组报警

13.放置用户数据(读写):256个字节 放在FLASH里面

14.低电压检测功能,当电压低于3.3V时,不播放语音,并将低电压标志位置

唯创知音作为一家专注于语音技术研究的高新技术企业,始终坚持以"服务好工程师"为目标,以行业语音交互器件标准化为方向,致力于让复杂变简单,提供快捷的语音、智能物联网应用解决方案。WT588F02KD应用设计方案,在智能闹钟、智能水杯、雾化器等消费电子行业领域内已有成熟的应用案例。消费类电子产品应用是公司重要的发展领域,未来,唯创知音将在更多行业推出标准化语音芯片,进一步提升工程师的设计体验,为消费类电子行业标准化赋能。

Original: https://blog.csdn.net/Waytronic_/article/details/121283565
Author: 唯创知音
Title: 免屏实现精准较时设定,WT588F02B-8S(C006_03)电子语音药盒解决方案

相关阅读3

Title: 【论文写作】使用overleaf撰写你的会议论文

@

前言

一直想写一篇关于Latex使用的博客,今天决定把它写下来了。之前写了一篇《【论文写作】Latex在线创作工具overleaf及账号注册办法》,本文也是使用overleaf。

overleaf详细使用

通畅而言,使用overleaf撰写自己的论文,是从模板开始的,这里不细说怎么构造一个模板文件。因为大多数期刊或者会议都提供了latex模板文件,有的直接分享了overleaf模板项目,例如TACL期刊(https://www.overleaf.com/project/5b43a7865f51ce16d2593cac),有的则提供了文件,例如AAAI会议(https://www.aaai.org/Publications/Templates/AuthorKit22.zip)。

点击分享的链接并登陆账号,然后再返回overleaf主菜单,找到 Shared with you菜单栏,然后选择对应的项目,点击右边的Cpoy按钮(如下图所示),复制为自己的项目,即可开始论文写作。
【NLP公开数据集】 CoNLL-2003数据集

处理文件压缩包

首先,确保自己从期刊或者会议官网获得的模板是.zip格式的压缩包,且压缩包内只有latex文件。有的模板压缩包文件把word模板和latex模板放在一个压缩包(例如AAAI会议),此时,需要我们手动把仅包含latex模板的文件夹重新打包为.zip文件,然后上传到overleaf即可。

overleaf常见功能

我们打开一个latex项目后,在overleaf中显示如下,左边是菜单栏、项目目录以及.tex文件的目录索引。
【NLP公开数据集】 CoNLL-2003数据集其中,点击菜单按钮 Menu,可以看到如下功能选项,下拉会有更多的功能,这里不详细介绍了,但是,需要注意的是 Settings菜单,可以选择不同的编译器以及编译器版本。不少会议会指定使用的编译器以及版本,所以最好在写作之前根据要求检查一遍(例如AAAI会议就指定使用pdfLaTex编译器):
【NLP公开数据集】 CoNLL-2003数据集

一个Latex项目的构成

通常来说,一个Latex项目包括:

  • 图片文件夹(建议创建一个文件夹用于存放图片,这样图片文件和其他文件有明显的区分度),通常建议大家创建一个命名为 figure的文件夹,把图片都存放到这个位置。
  • 参考文献格式文件 .bst,这个文件我们通常不能做任何修改,因为它通常由会议或者期刊确定好的。
  • 样式文件 .tsy,这个文件也不能做任何修改,但是我们需要详细阅读,因为它可能重新定义了各类排版命令,并且指定了排版的字体、边距等等。
  • 参考文献信息存放文件 .bib,这个文件通常存放我们要引用的文献信息,需要注意的是,文献信息是latex专用格式,通常可以从期刊网站、google等地方直接得到,复制粘贴到该文件里面即可。
  • 论文主内容文件 .tex,这个文件存放我们撰写的论文内容,编译器编译后会根据该文件生成pdf文件。

.tex文件的基本架构

通常来说,一个.tex文件会呈现如下形式:

% 定义文档
\documentclass[letterpaper]{article}
% 导入各种各样的包
\usepackage{aaai22}  % DO NOT CHANGE THIS
\usepackage{times}  % DO NOT CHANGE THIS

% 定义文章标题
\title{Writing title here}

% 定义文章作者
\author{
    Author1\textsuperscript{\rm 1}\thanks{这里写通信作者相关信息}\\

}

% 定义作者的通讯地址、邮箱等
\affiliations{
    \textsuperscript{\rm 1}Association for the Advancement of Artificial Intelligence\\
    publications22@aaai.org
}

% 全文开始标志
\begin{document}
% 生成标题
\maketitle

% 摘要
\begin{abstract}
This is a paer about ...

\end{abstract}

% 章内容
\section{第1章}

\section{第2章}
...

% 指定使用的.bib文件名
\bibliography{aaai22}

% 文章结束标志
\end{document}
...

常用的tex命令

\usepackage

这是一个导入包的命令,,例如: \usepackage{hyperref}则会导入超链接包hyperref,如果没有导入该包,则生成的文档,点击文献引用或者图表引用或者网址链接,都不会跳转。

\title

\author

\textsuperscript

\thanks

\affiliations

\iffalse与\fi

\begin与\end

\begin{document}

\begin{abstract}

\begin{itemize}

\begin{table}

\begin{figure}

\begin{equation}

\section与\subsection

\paragraph

\appendix

\textbf与\textit

\small

\ref

\cite、\citep、...

\url

\label

Latex常用包

待更新

Latex常用符号

待更新

论文排版辅助工具(持续更新)

  • Paper X-Ray: 这是一款用于评估自己论文排版得分的免费网站。得分50分以下说明排版得继续优化。如下图所示为AAAI2020接收论文《A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data》的得分,这说明该篇论文排版很好!

【NLP公开数据集】 CoNLL-2003数据集

  • review.nlpedia: 论文自动评估网站
  • manchester: 这是一款提供各部分论文写作格式的网站
  • 设计师配色网站:这是一款提供好看的配色网站,在模型绘图或者画数据分析图时可以选取这里面的配色体系,非常好看!

Original: https://www.cnblogs.com/chenyirong/p/16342329.html
Author: 华工陈艺荣
Title: 【论文写作】使用overleaf撰写你的会议论文