2023-03-13人工智能99

每种语言都包含：训练集、开发集、测试集、无标签数据；

1.训练集：用于模型学习训练

2.开发集：用于模型学习过程中调参

3.测试集：用于结果的测试

注意：其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】，其他数据集都比较小

具体的数据详细信息如下：

（1）个数据集中的文章、句子、词语数量

文章数句子数词语数训练集94614987203621开发集216346651362测试集231368446435

（2）各数据集中的实体数量分布情况

地名人名组织名其他实体训练集7140660063213438开发集183718421341922测试集166816171661702

数据样例如下（假设实体没有循环和交叉）：

&#x8BCD;       &#x8BCD;&#x6027;   &#x8BCD;&#x5757;   &#x5B9E;&#x4F53;
U.N.     NNP   I-NP  I-ORG
official NN    I-NP  O
Ekeus    NNP   I-NP  I-PER
heads    VBZ   I-VP  O
for      IN    I-PP  O
Baghdad  NNP   I-NP  I-LOC
. . O O

具体的数据详细信息如下：

（1）个数据集中的文章、句子、词语数量

文章数句子数词语数训练集55312705206931开发集201306851362测试集155316051943

（2）各数据集中的实体数量分布情况

地名人名组织名其他实体训练集4363277324272288开发集1181140112411010测试集10351195773670

参考资料：

Original: https://blog.csdn.net/Elvira521yan/article/details/118028020
Author: Elvira521yan
Title: 【NLP公开数据集】 CoNLL-2003数据集

Title: 微信小程序语音识别、语音合成（微信同声传译）使用代码实例

最近在开发一款"单词大作战"的微信小程序，想增加语音识别、语音合成这2个功能。（让用户能听到单词的读音，并对比自己读音是否标准正确）。

查了一下资料，大概有几种方式：用百度翻译（需要配置后台来转发）、讯飞（听说效果最好，但好像要收费并要配置后台来转发）。还有用微信同声传译插件。

微信同声传译插件使用最方便，目前功能还是尽善尽美，但一直在升级，是个人开发者不错的选择。用微信扫描下面小程序可以体验语音合成和语音识别的功能：

【NLP公开数据集】 CoNLL-2003数据集

官方的开发文档： https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99&token=251348119&lang=zh_CN

使用步骤：

1、在微信公众平台配置，找到设置–第三方设置–插件管理–点击添加插件，
搜索微信同声传译并添加

2、在项目根目录app.json文件中配置

 "plugins": {
    "WechatSI": {
      "version": "0.3.4",
      "provider": "wx069ba97219f66d99"
    }
  },

语音合成：

在pages的js中加入插件初始化代码

const innerAudioContext = wx.createInnerAudioContext();
innerAudioContext.autoplay = true;
const plugin = requirePlugin('WechatSI');

由于语音合成原理是微信同声传译是在同声传译后台生产录音，下载播放录音。可以在页面加载阶段生产录音，在使用的地方播放录音，就不会有延迟。

//&#x5728;&#x5168;&#x5C40;&#x5B9A;&#x4E49;&#x53D8;&#x91CF;
var remoteAudio = null;

//&#x5728;&#x5F00;&#x59CB;&#x9636;&#x6BB5;&#x52A0;&#x8F7D;
 plugin.textToSpeech({
     lang: "en_US",
     tts: true,
     content: word,
     success: function(res) {
         console.log("succ tts", res.filename)
        // this.playAudio(res.filename);
        remoteAudio = res.filename;

     },
     fail: function(res) {
         console.log("fail tts", res)
     }
 })
  },

//&#x5728;&#x5B9E;&#x9645;&#x9700;&#x8981;&#x4F7F;&#x7528;&#x8BED;&#x97F3;&#x5408;&#x6210;&#x5730;&#x65B9;
innerAudioContext.stop();
console.log("remoteAudio: " + remoteAudio);
innerAudioContext.src = remoteAudio;
innerAudioContext.play();
innerAudioContext.onError((e) => {
  console.log(e.errMsg)
  console.log(e.errCode)
  })

语音识别：

在pages的js中加入插件初始化代码

//&#x5F15;&#x5165;&#x63D2;&#x4EF6;&#xFF1A;&#x5FAE;&#x4FE1;&#x540C;&#x58F0;&#x4F20;&#x8BD1;
const plugin = requirePlugin('WechatSI');
//&#x83B7;&#x53D6;&#x5168;&#x5C40;&#x552F;&#x4E00;&#x7684;&#x8BED;&#x97F3;&#x8BC6;&#x522B;&#x7BA1;&#x7406;&#x5668;recordRecoManager
const manager = plugin.getRecordRecognitionManager();
// &#x8BBE;&#x7F6E;&#x91C7;&#x96C6;&#x58F0;&#x97F3;&#x53C2;&#x6570;
const options = {
  sampleRate: 44100,
  numberOfChannels: 1,
  encodeBitRate: 192000,
  format: 'aac'
}

在 onload()中加入初始化代码

//&#x8BC6;&#x522B;&#x8BED;&#x97F3;
this.initRecord();

在需要加入语音识别地方加入下面代码：

 //&#x8BED;&#x97F3;  --&#x6309;&#x4F4F;&#x8BF4;&#x8BDD;
  touchStart: function(e) {
    wx.vibrateShort() //&#x6309;&#x952E;&#x9707;&#x52A8;&#x6548;&#x679C;&#xFF08;15ms&#xFF09;
    manager.start(options)
    this.setData({
      recordState: true, //&#x5F55;&#x97F3;&#x72B6;&#x6001;&#x4E3A;&#x771F;
      tips: '&#x677E;&#x5F00;&#x7ED3;&#x675F;',
    })

  },
  //&#x8BED;&#x97F3;  --&#x677E;&#x5F00;&#x7ED3;&#x675F;
  touchEnd: function(e) {
    // &#x8BED;&#x97F3;&#x7ED3;&#x675F;&#x8BC6;&#x522B;
    manager.stop();
    this.setData({
      recordState: false,
    })

  },
  //&#x8BC6;&#x522B;&#x8BED;&#x97F3; -- &#x521D;&#x59CB;&#x5316;
  initRecord: function() {
    const that = this;
    // &#x6709;&#x65B0;&#x7684;&#x8BC6;&#x522B;&#x5185;&#x5BB9;&#x8FD4;&#x56DE;&#xFF0C;&#x5219;&#x4F1A;&#x8C03;&#x7528;&#x6B64;&#x4E8B;&#x4EF6;
    manager.onRecognize = function(res) {
      console.log(res)
    }
    // &#x6B63;&#x5E38;&#x5F00;&#x59CB;&#x5F55;&#x97F3;&#x8BC6;&#x522B;&#x65F6;&#x4F1A;&#x8C03;&#x7528;&#x6B64;&#x4E8B;&#x4EF6;
    manager.onStart = function(res) {
      console.log("&#x6210;&#x529F;&#x5F00;&#x59CB;&#x5F55;&#x97F3;&#x8BC6;&#x522B;", res)
    }
    // &#x8BC6;&#x522B;&#x9519;&#x8BEF;&#x4E8B;&#x4EF6;
    manager.onError = function(res) {
      console.error("error msg:", res.retcode, res.msg)
    }
    //&#x8BC6;&#x522B;&#x7ED3;&#x675F;&#x4E8B;&#x4EF6;
    manager.onStop = function(res) {
      console.log('..............&#x7ED3;&#x675F;&#x5F55;&#x97F3;')
      console.log('&#x5F55;&#x97F3;&#x603B;&#x65F6;&#x957F; -->' + res.duration + 'ms');
      console.log('&#x8BED;&#x97F3;&#x5185;&#x5BB9; --> ' + res.result);
      if (res.result == '') {
        wx.showModal({
          title: '&#x63D0;&#x793A;',
          content: '&#x542C;&#x4E0D;&#x6E05;&#x695A;&#xFF0C;&#x8BF7;&#x91CD;&#x65B0;&#x8BF4;&#x4E00;&#x904D;&#xFF01;',
          showCancel: false,
          success: function(res) {}
        })
        return;
      }
      //&#x4E0B;&#x9762;&#x6709;&#x4E9B;&#x4EE3;&#x7801;&#x6709;&#x4E00;&#x4E9B;&#x4E1A;&#x52A1;&#x4EE3;&#x7801;&#xFF0C;&#x8981;&#x6839;&#x636E;&#x81EA;&#x5DF1;&#x5B9E;&#x9645;&#x8FDB;&#x884C;&#x66FF;&#x6362;
      if(res.result == this.myword){
        that.setData({
          content: that.myword + '&#x8BFB;&#x97F3;&#x6B63;&#x786E;' //&#x53BB;&#x6389;&#x81EA;&#x52A8;&#x6DFB;&#x52A0;&#x7684;&#x53E5;&#x53F7;
        })
          next();
      }else{
        that.setData({
          recordState: false, //&#x5F55;&#x97F3;&#x72B6;&#x6001;&#x4E3A;&#x771F;
          content: that.myword +'&#x8BFB;&#x97F3;&#x4E0D;&#x51C6;',
        })
        plugin.textToSpeech({
          lang: "en_US",
          tts: true,
          content: that.myword,
          success: function(res) {
              console.log("succ tts", res.filename)
          },
          fail: function(res) {
              console.log("fail tts", res)
          }
      })
      }
    }
  },

Original: https://blog.csdn.net/linweidong/article/details/115876413
Author: linweidong
Title: 微信小程序语音识别、语音合成（微信同声传译）使用代码实例

Title: 免屏实现精准较时设定，WT588F02B-8S（C006_03）电子语音药盒解决方案

电子药盒是一种具备定时提醒服药功能的贴心家居用品，每天的服药时间是预先设定好的，到了设定的时间提醒声音就会响起，服药者因此就可以准时服药。这很适合那些需要每天服药、服用保健品的人士（尤其是老年人士）使用。许多需要每天服药的人士，尤其是老者，经常会因为一些原因忘记服药，或错过正确的服药时间。这种遗忘可能引发不好的后果，是应该极力避免的，而电子药盒就是要起到这个作用。

其次，WT588F02B电子药盒中带有光波通讯功能，即通过手机APP，对准产品，即可将APP中设置的数据直接下发给产品。这样一些繁琐的操作，例如现在时间校准、服药定时设置等这些操作复杂而繁琐的功能，只需要在手机中APP设置好，即可以下发给产品，产品即可配置好相应的功能。

市面上普通的电子药盒，要么是要用数码管显示，要么是要用LCD屏来显示。目的就是为了设置时，能够通过数码管/LCD屏。但WT588F02B方案，即不需要数码管，也无需LCD屏。只需通过APP即可设置。操作上大大简化客户操作，成本上减少LCD和LED数码管的成本，研发上简单快捷。

APP界面图如下：（APP部门可以提供技术支持，帮助客户进行修改个性化界面）

【NLP公开数据集】 CoNLL-2003数据集

下面我们以应用实例：WT588F02B电子药盒设计方案直观的呈现：

WT588F02B电子药盒方案设计实例

1.电子药盒 方案概述

2.器件选型

部位

型号

特性概述

主控

WT588F02KD

16位DSP、32MHz、183K RAM、可重复擦写、...

时钟部分

WT5T01

-5~+20ppm、31.25ms

a.设计原理图

【NLP公开数据集】 CoNLL-2003数据集

3.应用框架图

【NLP公开数据集】 CoNLL-2003数据集

4.WT588F02B基本功能和特点

1.16位DSP语音芯片、32Mhz内部振荡；

2.工作电压2.0~5.5V；建议电压：2.2~4.0V（由于串口使用TTL电平通信）

3.16bit的PWM输出，可直接驱动8R 0.5W喇叭；

4.支持6K~32Khz的WAV文件；

5.客户可以通过配套下载测试板在线更换芯片内部语音内容；

6.带语音提示功能；

7.支持32768段地址，有更多需求可以扩展；

8.芯片内部有183K byte 的存储空间（不包括主控程序）。

9.芯片主控程序和内置存储数据均可擦除再烧写。

10.读取当前时钟信息：年、月、日、时、分、秒、周

11.设置当前时间信息：年、月、日、时、分、秒

12.设置报警信息：列表 20组报警

13.放置用户数据（读写）：256个字节放在FLASH里面

14.低电压检测功能，当电压低于3.3V时，不播放语音，并将低电压标志位置

唯创知音作为一家专注于语音技术研究的高新技术企业，始终坚持以"服务好工程师"为目标，以行业语音交互器件标准化为方向，致力于让复杂变简单，提供快捷的语音、智能物联网应用解决方案。WT588F02KD应用设计方案，在智能闹钟、智能水杯、雾化器等消费电子行业领域内已有成熟的应用案例。消费类电子产品应用是公司重要的发展领域，未来，唯创知音将在更多行业推出标准化语音芯片，进一步提升工程师的设计体验，为消费类电子行业标准化赋能。

Original: https://blog.csdn.net/Waytronic_/article/details/121283565
Author: 唯创知音
Title: 免屏实现精准较时设定，WT588F02B-8S（C006_03）电子语音药盒解决方案

Title: 【论文写作】使用overleaf撰写你的会议论文

前言
overleaf详细使用
处理share链接
处理文件压缩包
overleaf常见功能
一个Latex项目的构成
.tex文件的基本架构
常用的tex命令
\usepackage
\title
\author
\textsuperscript
\thanks
\affiliations
\iffalse与\fi
\begin与\end
- \begin{document}
- \begin{abstract}
- \begin{itemize}
- \begin{table}
- \begin{figure}
- \begin{equation}
\section与\subsection
\paragraph
\appendix
\textbf与\textit
\small
\ref
\cite、\citep、...
\footnote
\url
\label
Latex常用包
Latex常用符号
论文排版辅助工具(持续更新)

前言

一直想写一篇关于Latex使用的博客，今天决定把它写下来了。之前写了一篇《【论文写作】Latex在线创作工具overleaf及账号注册办法》，本文也是使用overleaf。

overleaf详细使用

通畅而言，使用overleaf撰写自己的论文，是从模板开始的，这里不细说怎么构造一个模板文件。因为大多数期刊或者会议都提供了latex模板文件，有的直接分享了overleaf模板项目，例如TACL期刊（https://www.overleaf.com/project/5b43a7865f51ce16d2593cac），有的则提供了文件，例如AAAI会议（https://www.aaai.org/Publications/Templates/AuthorKit22.zip）。

点击分享的链接并登陆账号，然后再返回overleaf主菜单，找到 Shared with you菜单栏，然后选择对应的项目，点击右边的Cpoy按钮(如下图所示)，复制为自己的项目，即可开始论文写作。
【NLP公开数据集】 CoNLL-2003数据集

处理文件压缩包

首先，确保自己从期刊或者会议官网获得的模板是.zip格式的压缩包，且压缩包内只有latex文件。有的模板压缩包文件把word模板和latex模板放在一个压缩包（例如AAAI会议），此时，需要我们手动把仅包含latex模板的文件夹重新打包为.zip文件，然后上传到overleaf即可。

overleaf常见功能

我们打开一个latex项目后，在overleaf中显示如下，左边是菜单栏、项目目录以及.tex文件的目录索引。
【NLP公开数据集】 CoNLL-2003数据集其中，点击菜单按钮 Menu，可以看到如下功能选项，下拉会有更多的功能，这里不详细介绍了，但是，需要注意的是 Settings菜单，可以选择不同的编译器以及编译器版本。不少会议会指定使用的编译器以及版本，所以最好在写作之前根据要求检查一遍（例如AAAI会议就指定使用pdfLaTex编译器）：
【NLP公开数据集】 CoNLL-2003数据集

一个Latex项目的构成

通常来说，一个Latex项目包括：

图片文件夹（建议创建一个文件夹用于存放图片，这样图片文件和其他文件有明显的区分度），通常建议大家创建一个命名为 figure的文件夹，把图片都存放到这个位置。
参考文献格式文件 .bst，这个文件我们通常不能做任何修改，因为它通常由会议或者期刊确定好的。
样式文件 .tsy，这个文件也不能做任何修改，但是我们需要详细阅读，因为它可能重新定义了各类排版命令，并且指定了排版的字体、边距等等。
参考文献信息存放文件 .bib，这个文件通常存放我们要引用的文献信息，需要注意的是，文献信息是latex专用格式，通常可以从期刊网站、google等地方直接得到，复制粘贴到该文件里面即可。
论文主内容文件 .tex，这个文件存放我们撰写的论文内容，编译器编译后会根据该文件生成pdf文件。

.tex文件的基本架构

通常来说，一个.tex文件会呈现如下形式：

% 定义文档
\documentclass[letterpaper]{article}
% 导入各种各样的包
\usepackage{aaai22}  % DO NOT CHANGE THIS
\usepackage{times}  % DO NOT CHANGE THIS

% 定义文章标题
\title{Writing title here}

% 定义文章作者
\author{
    Author1\textsuperscript{\rm 1}\thanks{这里写通信作者相关信息}\\

}

% 定义作者的通讯地址、邮箱等
\affiliations{
    \textsuperscript{\rm 1}Association for the Advancement of Artificial Intelligence\\
    publications22@aaai.org
}

% 全文开始标志
\begin{document}
% 生成标题
\maketitle

% 摘要
\begin{abstract}
This is a paer about ...

\end{abstract}

% 章内容
\section{第1章}

\section{第2章}
...

% 指定使用的.bib文件名
\bibliography{aaai22}

% 文章结束标志
\end{document}
...

常用的tex命令

\usepackage

这是一个导入包的命令,，例如： \usepackage{hyperref}则会导入超链接包hyperref，如果没有导入该包，则生成的文档，点击文献引用或者图表引用或者网址链接，都不会跳转。

\title

\author

\textsuperscript

\thanks

\affiliations

\iffalse与\fi

\begin与\end

\begin{document}

\begin{abstract}

\begin{itemize}

\begin{table}

\begin{figure}

\begin{equation}

\section与\subsection

\paragraph

\appendix

\textbf与\textit

\small

\ref

\cite、\citep、...

\url

\label

Latex常用包

待更新

Latex常用符号

待更新

论文排版辅助工具(持续更新)

Paper X-Ray: 这是一款用于评估自己论文排版得分的免费网站。得分50分以下说明排版得继续优化。如下图所示为AAAI2020接收论文《A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data》的得分，这说明该篇论文排版很好！

【NLP公开数据集】 CoNLL-2003数据集

review.nlpedia: 论文自动评估网站
manchester: 这是一款提供各部分论文写作格式的网站
设计师配色网站:这是一款提供好看的配色网站，在模型绘图或者画数据分析图时可以选取这里面的配色体系，非常好看！

Original: https://www.cnblogs.com/chenyirong/p/16342329.html
Author: 华工陈艺荣
Title: 【论文写作】使用overleaf撰写你的会议论文

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

相关阅读1

Title: 微信小程序语音识别、语音合成（微信同声传译）使用代码实例

相关阅读2

Title: 免屏实现精准较时设定，WT588F02B-8S（C006_03）电子语音药盒解决方案

相关阅读3

Title: 【论文写作】使用overleaf撰写你的会议论文

前言

overleaf详细使用

处理文件压缩包

overleaf常见功能

一个Latex项目的构成

.tex文件的基本架构

常用的tex命令

\usepackage

\title

\author

\textsuperscript

\thanks

\affiliations

\iffalse与\fi

\begin与\end

\begin{document}

\begin{abstract}

\begin{itemize}

\begin{table}

\begin{figure}

\begin{equation}

\section与\subsection

\paragraph

\appendix

\textbf与\textit

\small

\ref

\cite、\citep、...

\url

\label

Latex常用包

Latex常用符号

论文排版辅助工具(持续更新)