All Projects → nl8590687 → Asrt_speechrecognition

nl8590687 / Asrt_speechrecognition

Licence: gpl-3.0
A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Asrt speechrecognition

Tensorflow Ctc Speech Recognition
Application of Connectionist Temporal Classification (CTC) for Speech Recognition (Tensorflow 1.0 but compatible with 2.0).
Stars: ✭ 127 (-97.43%)
Mutual labels:  speech-recognition, speech-to-text, ctc
Tensorflowasr
⚡️ TensorFlowASR: Almost State-of-the-art Automatic Speech Recognition in Tensorflow 2. Supported languages that can use characters or subwords
Stars: ✭ 400 (-91.91%)
Mutual labels:  speech-recognition, speech-to-text, ctc
Automatic speech recognition
End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow
Stars: ✭ 2,751 (-44.35%)
Mutual labels:  cnn, speech-recognition, chinese-speech-recognition
Eesen
The official repository of the Eesen project
Stars: ✭ 738 (-85.07%)
Mutual labels:  speech-recognition, speech-to-text, ctc
Tensorflow end2end speech recognition
End-to-End speech recognition implementation base on TensorFlow (CTC, Attention, and MTL training)
Stars: ✭ 305 (-93.83%)
Mutual labels:  speech-recognition, speech-to-text, ctc
Rnn ctc
Recurrent Neural Network and Long Short Term Memory (LSTM) with Connectionist Temporal Classification implemented in Theano. Includes a Toy training example.
Stars: ✭ 220 (-95.55%)
Mutual labels:  speech-recognition, speech-to-text, ctc
Chinese-automatic-speech-recognition
Chinese speech recognition
Stars: ✭ 147 (-97.03%)
Mutual labels:  speech-recognition, speech-to-text, chinese-speech-recognition
Cheetah
On-device streaming speech-to-text engine powered by deep learning
Stars: ✭ 383 (-92.25%)
Mutual labels:  speech-recognition, speech-to-text
leon
🧠 Leon is your open-source personal assistant.
Stars: ✭ 8,560 (+73.17%)
Mutual labels:  speech-recognition, speech-to-text
Ctcwordbeamsearch
Connectionist Temporal Classification (CTC) decoder with dictionary and language model for TensorFlow.
Stars: ✭ 398 (-91.95%)
Mutual labels:  speech-recognition, ctc
demo vietasr
Vietnamese Speech Recognition
Stars: ✭ 22 (-99.55%)
Mutual labels:  speech-recognition, speech-to-text
speech-to-text
mixlingual speech recognition system; hybrid (GMM+NNet) model; Kaldi + Keras
Stars: ✭ 61 (-98.77%)
Mutual labels:  speech-recognition, speech-to-text
sova-asr
SOVA ASR (Automatic Speech Recognition)
Stars: ✭ 123 (-97.51%)
Mutual labels:  speech-recognition, speech-to-text
Rhino
On-device speech-to-intent engine powered by deep learning
Stars: ✭ 406 (-91.79%)
Mutual labels:  speech-recognition, speech-to-text
htk
HTK Toolkit with Linux 64 bit and Docker support
Stars: ✭ 14 (-99.72%)
Mutual labels:  speech-recognition, speech-to-text
musicologist
Music advice from a conversational interface powered by Algolia
Stars: ✭ 19 (-99.62%)
Mutual labels:  speech-recognition, speech-to-text
SpeechToText
Speech To Text in Android
Stars: ✭ 53 (-98.93%)
Mutual labels:  speech-recognition, speech-to-text
kim-voice-assistant
Kim,你的私人语音助理。
Stars: ✭ 70 (-98.58%)
Mutual labels:  speech-recognition, speech-to-text
Awesome Kaldi
This is a list of features, scripts, blogs and resources for better using Kaldi ( http://kaldi-asr.org/ )
Stars: ✭ 393 (-92.05%)
Mutual labels:  speech-recognition, speech-to-text
Neural sp
End-to-end ASR/LM implementation with PyTorch
Stars: ✭ 408 (-91.75%)
Mutual labels:  speech-recognition, ctc

ASRT: A Deep-Learning-Based Chinese Speech Recognition System

ASRT是一个基于深度学习的中文语音识别系统,如果您觉得喜欢,请点一个 "Star" 吧~

GPL-3.0 Licensed TensorFlow Version Python Version

ReadMe Language | 中文版 | English |

ASRT项目主页 | 发布版下载 | 查看本项目的Wiki文档 | 实用效果体验Demo | 打赏作者

如果程序运行期间或使用中有什么问题,可以及时在issue中提出来,我将尽快做出答复。本项目作者交流QQ群:894112051

提问前请仔细查看项目文档FAQ常见问题 以及Issues 避免重复提问

以下问题AI柠檬博主和群友可能会拒绝回答,包括但不限于:

  • 询问已经写在 ASRT语音识别项目文档Issues 上解决过的已知重复问题。
  • 找不到重点、不知所云的提问内容,但是不给出任何其他信息。
  • 跟ASRT项目没有直接相关的问题
  • “伸手党”类的问题
请注意,开发者并没有义务回复您的问题,也没用义务免费给你打工,您应该具备基本的提问技巧,并善用搜索引擎,
每个人的时间都是宝贵的。

有关AI柠檬ASRT语音项目的相关信息亦可使用AI柠檬站内搜索引擎进行相关信息的搜索。

ASRT相关资料

ASRT的原理请查看本文:

ASRT训练和部署教程请看:

关于经常被问到的统计语言模型原理的问题,请看:

关于CTC的问题请看:

更多内容请访问作者的博客:AI柠檬博客

或使用AI柠檬站内搜索引擎进行相关信息的搜索

Introduction 简介

本项目使用tensorFlow.keras基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。

This project uses tensorFlow.keras based on deep convolutional neural network and long-short memory neural network, attention mechanism and CTC to implement.

  • 操作步骤

首先通过Git将本项目克隆到您的计算机上,然后下载本项目训练所需要的数据集,下载链接详见文档末尾部分

$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

或者您也可以通过 "Fork" 按钮,将本项目Copy一份副本,然后通过您自己的SSH密钥克隆到本地。

通过git克隆仓库以后,进入项目根目录;并创建一个存储数据的子目录, 例如 dataset/ (可使用软链接代替),然后将下载好的数据集直接解压进去

注意,当前版本中,在配置文件里,默认添加了Thchs30和ST-CMDS两个数据集,如果不需要请自行删除。如果要使用其他数据集需要自行添加数据配置,并提前使用ASRT支持的标准格式整理数据。

$ cd ASRT_SpeechRecognition

$ mkdir dataset

$ tar zxf <数据集压缩文件名> -C dataset/ 

然后需要将datalist目录下的文件全部拷贝到 dataset/ 目录下,也就是将其跟数据集放在一起。

$ cp -rf datalist/* dataset/

目前可用的模型有24、25和251

运行本项目之前,请安装必要的Python3版依赖库

本项目开始训练请执行:

$ python3 train_speech_model.py

本项目开始测试请执行:

$ python3 evaluate_speech_model.py

测试之前,请确保代码中填写的模型文件路径存在。

ASRT API服务器启动请执行:

$ python3 asrserver.py

请注意,开启API服务器之后,需要使用本ASRT项目对应的客户端软件来进行语音识别,详见Wiki文档下载ASRT语音识别客户端Demo

如果要训练和使用非251版模型,请在代码中 import speech_model_zoo 的相应位置做修改。

Model 模型

Speech Model 语音模型

CNN/LSTM/GRU + CTC

其中,输入的音频的最大时间长度为16秒,输出为对应的汉语拼音序列

  • 关于下载已经训练好的模型的问题

已经训练好的模型包含在发布版服务端程序压缩包里面,发布版成品服务端程序可以在此下载:ASRT下载页面

Github本仓库下Releases页面里面还包括各个不同版本的介绍信息,每个版本下方的zip压缩包也是包含已经训练好的模型的发布版服务端程序压缩包。

Language Model 语言模型

基于概率图的最大熵隐马尔可夫模型

输入为汉语拼音序列,输出为对应的汉字文本

About Accuracy 关于准确率

当前,最好的模型在测试集上基本能达到80%的汉语拼音正确率

不过由于目前国际和国内的部分团队能做到98%,所以正确率仍有待于进一步提高

Python Dependency Library

Python的依赖库

  • tensorFlow (1.15 - 2.x)
  • numpy
  • wave
  • matplotlib
  • math
  • scipy
  • requests

不会安装环境的同学请直接运行以下命令(前提是有GPU且已经安装好 CUDA 11.2 和 cudnn 8.1):

$ pip install -r requirements.txt

依赖环境和性能配置要求

Data Sets 数据集

几个最新免费开源的中文语音数据集

特别鸣谢!感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR

License 开源许可协议

GPL v3.0 © nl8590687 作者:AI柠檬

Contributors 贡献者们

贡献者页面

@nl8590687 (repo owner)

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].