关键词:
机器学习
马铁菊头蝠
激进叫声
胁迫叫声
句法结构
摘要:
对动物声学交流系统的比较研究,有助于揭示人类语言的起源与进化过程,而阐明动物交流叫声中句法结构与功能是其中的关键环节。在依靠声信号交流的动物中,一些物种能够依据一定的句法规则,将有限的叫声音节组合出无限丰富的内容。在动物的多种社会交流背景中,激进背景和胁迫背景对于动物之间的资源竞争、社会等级的确立以及生存等方面是至关重要的。然而,目前对动物在激进背景和胁迫背景下交流叫声的句法结构及功能仍不清楚,并且缺乏对大规模的动物交流叫声序列数据进行批量处理和自动定量判别的研究方法。因此,本论文选择交流叫声复杂多样的马铁菊头蝠(Rhinolophus ferrumequinum)为研究对象,明确激进背景和胁迫背景下马铁菊头蝠交流叫声的句法结构与功能,并探究多种机器学习方法在动物交流叫声研究中的应用。针对动物声学研究中普遍遇到的叫声重叠问题,本论文基于深度神经网络中的语音分离技术,构建双向长短时记忆网络模型(BLSTMs),分离蝙蝠重叠的回声定位脉冲和交流叫声。同时,针对不同的叫声重叠方式,选取三种恒频型蝙蝠:马铁菊头蝠、大蹄蝠(Hipposideros armiger)和菲菊头蝠(Rhinolophus pusillus)及三种调频型蝙蝠:东方蝙蝠(Vespertilio sinensis)、南蝠(Ia io)、大趾鼠耳蝠(Myotis macrodactylus),测量7种音节参数,比较模型分离得到的叫声与原始叫声之间的差异,验证BLSTMs模型的叫声分离能力以及在不同物种中的通用性。研究发现,BLSTMs模型能够在不影响叫声质量的前提下,将每一种蝙蝠的回声定位叫声和交流叫声成功分离开。并且,对分离得到的6种蝙蝠回声定位脉冲进行聚类分析,正确分类指数(Corrected rand index)达到82.79%,表明经模型分离得到的叫声可以用于声学分析。对于大规模的马铁菊头蝠交流叫声序列数据,本论文使用PHP和Java Script编程语言、HTML标记语言和层叠样式表(CSS)及My SQL数据库,开发交流叫声序列结构分析程序,并使用该程序分析马铁菊头蝠激进背景下的交流叫声句法结构。研究发现,在激进背景下,马铁菊头蝠发出的叫声序列中音节类型、相邻音节之间的转换类型、序列中不同位置出现的音节类型以及序列类型存在选择倾向性,出现概率最高的音节类型为NB-SFM,转换类型为NB-DFM/NB-DFM,序列中前三个位置出现概率最高的音节类型皆为NB-SFM。另外,马铁菊头蝠在激进背景下发出的最可能序列类型为:NB-SFM/NB-SFM/NB-SFM。结合研究中得到的激进背景下的叫声,录制马铁菊头蝠胁迫背景下的交流叫声,运用逻辑斯谛回归模型(Logistic regression)、支持向量机模型(Support vector machine)和决策树模型(Decision trees),对两种背景下的叫声序列进行分类。并且,使用随机森林模型(Random forest model)对12种特征进行贡献度分析,根据得到的结果结合回放实验进一步比较两种背景下叫声序列的句法结构差异。研究结果表明,三种机器学习模型对两个背景下的叫声序列的分类准确度皆高于95%,并且对分类结果贡献度较高的是音节转换、在序列中出现的位置等与序列结构相关度较高的特征。在对此类特征进一步的比较发现,激进背景和胁迫背景下的叫声序列存在句法结构差异。另外,回放实验的结果表明,马铁菊头蝠对两种背景下的最可能序列的回放做出的行为反应具有显著差异。基于马铁菊头蝠激进背景下得到的句法结构不同的叫声序列,设计回放实验并利用Deep Lab Cut深度学习技术分析马铁菊头蝠对回放刺激的行为反应,探究交流叫声音节类型及叫声序列结构可能具有的功能。结果发现,在音节类型不同的序列刺激的回放实验中,马铁菊头蝠右前臂移动的速度和总距离具有显著差异;在音节排列顺序不同的序列刺激的回放实验中,马铁菊头蝠左耳移动的速度和总距离具有差异;在重复次数不同的叫声序列刺激的回放实验中,马铁菊头蝠的左右前臂、头部、嘴部和左右耳移动的总距离及蝙蝠在回放期间发出的回声定位脉冲数量都存在显著差异。以上研究结果表明:(1)机器学习方法可以作为有效工具应用于蝙蝠叫声音节分离、叫声序列分类、行为标记等研究;(2)马铁菊头蝠交流叫声存在句法结构,在相同行为背景下的叫声序列排列组合方式相对固定,而不同行为背景下的句法结构存在差异;(3)马铁菊头蝠的交流叫声中,不同音节类型含义不同,且音节组成的不同结构的序列含义也不同,推测马铁菊头蝠交流叫声中的句法结构形式属于组合式句法。本论文研究结果能够为大规模动物叫声序列结构研究提供有效的分析工具,对机器学习方法在动物声学研究中的运用具有启发性作用,为阐释动物交流机制及交流信号与行为的形成与演化提