主页

人声提取

又叫人声分离/割(speaker diarization); 目的:基于声纹特征的方式将不同说话人的声音分离出来; 一、 基本思路 语音分割:找到音频中发言人变化的点 最简单的做法是 对语音进行切片; 切片操作,早期/主流的是滑窗(1-2s 的窗口); 提取每个语音片段的声纹特征; 判断声纹片段是否只包含一个发言者,早期主流的是 BIC; 按规则聚类,得到说话人声片段,同时可得到发言人数量 提特征,以供聚类(聚类,GMM,SVM;k-means,spectral clustering;RNN);将聚类结果拼接在一起,即得到每个人的语音片段; 2、3 中使用的特征是 MFCC,再加上简单的能量、过零率及和语音相...

阅读更多

计算机视觉企业汇总

排名不分先后 一、 世纪晟科技 官网:http://www.centrizen.com/zh/ 总部位于广州;核心研发团队来自于中科院、华南理工大学以及多位业内优秀专家教授; 业务 研究人脸识别方面技术,为安防行业提供芯片级的高性能解决方案; 参考资料 [1]. 李稀敏, 远鉴科技, et al. 目前国内做声纹识别相关技术或产品的公司有哪些[EB/OL]. https://www.zhihu.com/question/272131370. 2018-04-14/2018-12-29. [2]. IT资讯. 一篇文章读懂计算机视觉五大关键任务[EB/OL]. https://www.jianshu.com/p/45acc16c6a94. 2017-11-14/201...

阅读更多

「论文解读」Bag of Tricks for Image Classification with Convolutional Neural Networks

论文发表时间:2018年12月 论文地址:https://arxiv.org/abs/1812.01187 文章整理对比了CNN分类网络中常用的一些tricks,例如改善模型结构,训练过程的精修,包括修改损失函数、数据预处理等; 论文第二部分先给出了一个训练Resnet-50、Inception-V3、MobileNet网络的baseline。 因为现在在训练过程中使用低数值精度(lower numerical precision)和larger batch size会更有效,所以第三部分介绍了一些可以在不牺牲模型精度的同时enable这两种做法works的方法。 一、 标准训练 1. 训练过程 2. 训练结果 二、 有效的训练策略 1. 大批次 large-batch...

阅读更多