基于16位单片机的语音电子门锁系统

作者：张成蒋皓石林嘉宇

时间：2007-04-14

　　1．3 模式匹配
　　目前针对各种特征参数提出的模式匹配方法的研究越来越深入。典型的方法有：矢量量化方法、高斯混合模型方法、隐马尔可夫模型方法、动态时间规整（DTW）方法和人工神经网络方法。
　　这些方法都有各自的优点和缺点。其中DTW算法对于较长语音的识别，模板匹配运算量太大，但对短语音（有效语音长度低于3s）的识别既简单又有效，而且并不比其他方法识别率低，特别适用于短语音、与文本有关的说话人识别系统。本系统采用端点松驰两点的（DTW）算法，端点松驰引起的计算量增加并不大，还可以放松对端点检测的精度要求。

动态时间规整（DTW）算法基于动态规划的思想，解决了说话人不同时期发音长短、语速不一样的匹配问题。DTW算法用于计算两个长度不同的模板之间的相似程度，用失真距离表示。假设测试模板和参考模板分别用T和R表示，按时间顺序含有N帧和M帧的语音参数（本系统为12维LPCC参数），失真距离越小，表示T、R越接近。把测试模板的各个帧号n=1～N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m=1～M在纵轴上标出，如图3所示。通过这些表示帧号的整数坐标画出纵横线即形成网络，网格中的每一个交叉点（n,m）表示测试模板中某一帧与参考模式中某一帧的交会点，对应两个向量的欧氏距离。DTW算法可以归结为寻找一条通过此网格中若干交叉点的路径，使得该路径上节点的距离和（即失真距离）为最小。对于端点松弛的情况，路径搜索原理相同，只是增加了搜索路径。
2 硬件系统
　　语音电子门锁系统的核心是说话人识别模块。包括按键输入、语音信号采集、语音信号处理、FLASH存储扩展、扬声器输出、控制输出以及LCD模组等。说话人识别模型的原理框图如图4所示。其核心为语音信号处理，本系统选用特别适用于数字语音识别领域的凌阳16位单片机SPCE061A，并通过SPCE061A实现对其他各组成部分的编程控制。
　　SPCE061A是凌阳公司开发的一种性价比非常高的16位单片机。在2.6V～3.6V工作电压范围内，工作频率范围为0.32MHz～49.152Mhz，较高的处理速度使其能够非常容易、快速地处理复杂的数字信号；中断系统支持10个中断向量以及14个可来自系统时钟、定时器/计数器、时间基准发生器、外部中断、键唤醒、通用异步串行通信及软件中断的中断源，非常适合实时应用领域；内嵌2K字的SRAM和32K字的FLASH，具有32位可编程的多功能I/O端口；包含有7通道10位通用A/D转换器和内置麦克风放大器与自动增益控制AGC功能的单通道声音A/D转换器，以及具有音频输出功能的双通道10位D/A转换器；SPCE061A采用CMOS制造工艺，同时增加了软件激发的弱振方式、空闲方式和掉电方式，系统处于备用状态下（时钟处于停止状态），耗电仅为2μA3.6V，极大地降低了其功耗；另外，μ’nSPTM的指令系统还提供具有较高运算速度的16位×16位的乘法运算指令和内积运算指令,为其应用增添了DSP功能,在复杂的数字信号处理方面既非常便利,又比专用的DSP芯片便宜得多.
　　说话人识别模块各组成部分完成的功能如下：
　　（1）按键输入部分：共有数字键、训练键、删除键、确认键和取消键等16个按键，用于密码输入和工作模式选择。采用4×4矩阵式键盘输入，只使用具有键唤醒功能IOA的低8位，可以合理利用硬件资源，且编程灵活。
　　（2）语音信号采集部分：通过SPCE061A内置麦克风放大器与自动增益控制AGC功能的单通道声音A/D转换器完成8kHz语音信号采集。
　　（3）FLASH存储扩展部分：用于存储说话人的个性特征参数参考模板。
　　（4）扬声器输出部分：通过SPCE061A具有音频输出功能的双通道10位D/A转换器完成用户训练、识别等各种操作的语音提示。
　　（5）控制输出部分：通过SPCE061A的可编程I/O口控制门锁控制电机。
　　（6）LCD模组部分：用以显示系统的工作状态，该部分根据成本和实际需要可选。

（7）SPCE061A：说话人的语音信号处理以及各部分的编程控制均由SPCE061A完成。
　　说话人识别模块有三种工作模式：训练模式、认证模式和密码模式，这三种模式都可通过工作模式按键选择。
　　（1）训练模式，说话人的声音通过麦克风进入语音信号采集前端电路。第一次语音输入时，由16位单片机SPCE061A对采集的语音信号进行处理，提取说话人的个性特征参数，并存储到外扩的FLASH内，形成说话人特征参数模板。可以进行三次训练，第二语音输入时，提取的个数特征参数与由第一次语音输入形成的特征参数模板进行匹配，在匹配距离小于模板更新阈值时，将说话人特征参数模板更新为两次特征参数的平均值。第三次语音输入时，提取的个性特征参数与由第一、二次语音输入形成的特征参数模板进行匹配，在匹配距离小于模板更新阈值时，将说话人特征参数模板更新为三次特征参数的平均值，形成最后的该说话人的特征参数模板。
　　（2）认证模式，同样通过麦克风录入说话人的声音，再由SPCE061A对采集的语音信号进行处理，将提取的说话人特征参数与存储在外扩FLASH内的特征参数模板进行匹配，匹配距离小于认证阈值时，通过认证；然后再判断匹配距离是否小于认证模式下的模板更新阈值，决定是否对模板进行更新。
　　（3）密码工作模式，在说话人感冒或其他使其声音发生暂时改变的情况下，可以采用长密码方式进行认证，以免因为非常原因被拒之门外。
　　另外，每个用户都有一个短密码（用户可自行修改），无论在训练模式还是认证模式都要输入此密码，以形成或找到与该用户相对应的特征参数模板。系统还设置一个具有长密码的超级管理员用户，可以通过键盘对用户模板进行添加或删除。
3 实验结果
　　对于说话人确认系统，表征其性能的最重要的两个参量是拒识率和误识率。前者是拒绝真实的说话人而造成的错误，后者是接受假冒者而造成的错误，二者与匹配阈值的设定相关。匹配阈值的设定与语音锁系统的应用场合、功能侧重有关，对于家庭、宾馆等门锁用户，要求误识率尽可能低，甚至为零；若用于公司员工考勤等同类功能，就不能有太高的拒识率。表1是对以下每种情况各进行100次实时匹配的结果，其中设定的阈值适合门锁用户。
表1 100次实时匹配结果

发音分类次数	同一个人相同发音	同一个人相似发音	同一个人不同发音	不同人相同发音	不同人相似发音	不同人不同发音
拒绝次数	8	85	100	100	100	100
接受次数	92	15	0	0	0	0

由以上实验结果可知，对于同一个人相同发送的拒识率为8%；对于同一个人相似发音情况，因为系统是对说话的人进行判别，对于这种情况，无论拒绝或接受都是合理的；对于同一个人不同发音和不同人发音的情况，误识率为零。使用录音机进行多次实验，通过认证的次数为零。对于门锁用户，这个结果十分理想的。若用于考勤等同类功能，可通过修改匹配阈值值实现。
　　声纹识别与其他生物识别技术相比，除具有不会遗失和忘记、不需记忆、使用方便等优点外，还具有以下特性：用户接受程度高，由于不涉及隐私问题，用户无任何心理障碍；声音输入设备造价低廉，而其他生特识别技术的输入设备通常造价昂贵。与利用虹膜、指纹和人脸等技术的门锁相比，基于SPCE061A构建的语音电子门锁系统具有成本低、使用方便、保密性好等优点。经大量实验测试表明，该系统性能稳定、识别效果好。下一步将进行小批量的试用，以发现问题并加以完善。但是，在环境噪声或干扰信号高于语音信号时，该系统将无法进行正确的语音识别，在背景噪声处理及其工程实际上还要进一步改进。

上一页 [1] [2]

上一篇：中文全文信息检索系统中索引项技术及分词系统的实现
下一篇：MicroC/OS-II在80C196上的移植实现

论文搜索: 关键字：语音电子门电子门锁电子门锁

最新计算机应用论文: 基于网络信息安全技术管理的计算机应用研究; 浅析人工智能体系建设; 抖音短视频平台视频推荐模式研究; 应用电子技术中可编程控制器的应用探讨; 用友NC信息系统的实施应用实践研究; 基于校园一卡通数据系统的学生行为分析研究; 云环境下基于蚁群算法的动态容错技术研究; 自拍图像中的记忆痕迹; 抖音短视频用户使用动机研究; 基于创新扩散理论的Vlog传播

热门计算机应用论文: 学生成绩管理系统的设计与实现; 浅析计算机病毒及防范的措施; 学籍管理系统软件; 对计算科学与计算机发展的思考; 计算机应用型人才的培养模式研究; 物资管理信息系统开发; 计算机信息管理在第三方物流中的应用; 嵌入式系统数字图像采集接口电路设计; 基于B/S体系结构开发应用系统; 项目管理在软件中的应用

基于16位单片机的语音电子门锁系统论文

基于16位单片机的语音电子门锁系统