主页 - 未厅堂

又叫人声分离/割（speaker diarization）；目的：基于声纹特征的方式将不同说话人的声音分离出来；一、基本思路语音分割：找到音频中发言人变化的点最简单的做法是对语音进行切片；切片操作，早期/主流的是滑窗（1-2s 的窗口）；提取每个语音片段的声纹特征；判断声纹片段是否只包含一个发言者，早期主流的是 BIC；按规则聚类，得到说话人声片段，同时可得到发言人数量提特征，以供聚类（聚类，GMM，SVM；k-means，spectral clustering；RNN）；将聚类结果拼接在一起，即得到每个人的语音片段； 2、3 中使用的特征是 MFCC，再加上简单的能量、过零率及和语音相...

排名不分先后一、世纪晟科技官网：http://www.centrizen.com/zh/ 总部位于广州；核心研发团队来自于中科院、华南理工大学以及多位业内优秀专家教授；业务研究人脸识别方面技术，为安防行业提供芯片级的高性能解决方案；参考资料 [1]. 李稀敏, 远鉴科技, et al. 目前国内做声纹识别相关技术或产品的公司有哪些[EB/OL]. https://www.zhihu.com/question/272131370. 2018-04-14/2018-12-29. [2]. IT资讯. 一篇文章读懂计算机视觉五大关键任务[EB/OL]. https://www.jianshu.com/p/45acc16c6a94. 2017-11-14/201...

论文发表时间：2018年12月论文地址：https://arxiv.org/abs/1812.01187 文章整理对比了CNN分类网络中常用的一些tricks，例如改善模型结构，训练过程的精修，包括修改损失函数、数据预处理等；论文第二部分先给出了一个训练Resnet-50、Inception-V3、MobileNet网络的baseline。因为现在在训练过程中使用低数值精度（lower numerical precision）和larger batch size会更有效，所以第三部分介绍了一些可以在不牺牲模型精度的同时enable这两种做法works的方法。一、标准训练 1. 训练过程 2. 训练结果二、有效的训练策略 1. 大批次 large-batch...

主页

「C++」函数重载

「C++」动态创建对象

「C++」常量

「C++」 C++ 中的 C

人声提取

计算机视觉企业汇总

「AUDIO」语音识别需求汇总

「AUDIO」语音识别企业汇总

「论文解读」Bag of Tricks for Image Classification with Convolutional Neural Networks

「En」语法附录

「En」被动语态

「En」直接引语和间接引语

「En」现在完成时和现在完成进行时

「En」状语从句

「En」强调句、语序、倒装和省略

「En」定语从句

「En」名词从句

「En」助动词和情态动词

「En」动词语气

「En」动词不定式