关键词:
韩国语固有名词
统计描述法
统计推断法
音节
语节
摘要:
在语言学研究领域,传统语言学往往以个人内省为主要依据,对语言的词汇、句子、语法等进行考察,并归纳出纷繁复杂的言语现象背后的语言规律。而应用语言学则致力于将语言的内在规律应用于语言教学、统计语言学、计算语言学、认知语言学等领域。其中,统计语言学要求通过实验方法和数学模型对语言进行考察,得出可验证的结论,为语言学研究提供了新的视角和分析方法。在韩国语的词汇体系分类中,通常将固有名词归为名词的一个子类,并列于普通名词和依存名词。固有名词包括人名、地名、组织机构名等,它们不仅蕴含着丰富的社会信息和文化内涵,其使用特点还反映语言的特征。自然语言信息处理中,常见难题主要有未登录词识别和歧义切分,其中未登录词识别对分词的影响尤为重要,然而在未登录词中占比最高的是固有名词。因此,对固有名词的研究不仅对传统语言学的理论补充具有重要意义,也对应用语言学,尤其是对自然语言信息处理技术的发展和完善具有重要的推动作用。
在韩国语语料库研究中,一般侧重于书面语领域,对口语领域的关注相对较少。口语研究中使用的语料分为纯口语语料和准口语语料。纯口语语料只选取大学生之间的对话、教授与学生之间的对话以及教授授课时的内容作为主要语料,形式较为单一,从而使得研究结果存在一定程度的偏颇。准口语语料虽然是由作者创作编写的对话,但其在一定程度上能够反映出现实生活中的口语特点和规律。鉴于纯口语语料收集的局限性,以及准口语语料在反映真实口语特点方面具有优势,可以认为准口语语料在研究韩国语口语方面有不可忽视的价值。通过分析准口语语料,能够获得更为全面的社会各阶层的语言信息,进而深入研究韩国语口语的特征。
目前,韩国语固有名词研究主要聚焦在语义学和形态学方面,特别是对人名、地名、产品名等特定类型的固有名词。其分析方法通常采用定性分析,主要依赖于研究者的主观内省和专业知识,在一定程度上受主观性的影响,限制研究结果的客观性和普遍性。本研究从音节、词义、词源、语节结构等四个维度,采用统计学方法进行定量分析,通过语言学结合定性分析,揭示语言中的数学规律,以挖掘固有名词的语言学特征为目的,尝试将统计语言学的方法应用于语言学领域,为计算语言学和韩国语教育等领域提供参考数据。
本研究利用大型韩国语准口语语料库,采用平均值、标准差、偏态值、峰态值等参数,分析包含固有名词语节和不包含固有名词语节的音节和搭配在信息承载量、离散程度、分布和形态特征上的差异;利用卡方检验进一步检验包含固有名词语节的音节和搭配是否与包含固有名词有显著相关关系;运用区间估计和假设检验,从词义、词源和语节结构检验韩国语听力教材是否真实地反映韩国语口语中固有名词的实际使用情况;通过单/双因素方差分析,从语节结构的角度检验体词类语节结构出现频次是否受到语节结构类型和体词类型的影响,以及不同体词类语节结构在使用上是否存在显著差异。
采用上述研究方法,取得了一些阶段性研究成果。
第一,从音节角度来看,相较于不包含固有名词语节,包含固有名词语节的首音节、尾音节以及相邻语节的音节搭配,使用频次都呈现较为集中趋势,离散程度较大,即类型数量较少且集中在少数音节或搭配上。包含固有名词语节的首音节、尾音节以及相邻语节的音节搭配与包含固有名词高度相关,这一发现可以应用于识别包含固有名词的算法模型中。
第二,从词义、词源和语节结构角度来看,韩国语听力教材未能真实反映韩国语口语中固有名词的使用特征。鉴于此,研究者提出调整韩国语各类固有名词在教材中的分布方案,以更好地反映其在实际口语中的使用特征,进而提高韩国语听力教材的质量。
第三,从语节结构角度来看,通过双因素方差分析发现体词类语节结构出现频次,受语节结构类型和体词类型的影响。在此基础上,对出现频率最高的前20种语节结构进行单因素方差分析。计算结果表明,语节结构在各体词类语节中的使用情况存在显著差异。这种差异可以应用于体词类语节识别算法模型的开发。
本研究创新点在于运用统计学研究方法,对大规模韩国语准口语语料库进行定量分析。第二章和第四章的研究结果可以为自然语言信息处理提供更多的语言学特征和规律,从而提高计算机分词系统的效率和准确率;第三章的研究结果可以应用于韩国语教育,为教材的编写提供理论支持。为全面了解韩国语实词的使用特征,未来的研究应进一步拓展到韩国语其他实词,如普通名词、代词、依存名词、数词、形容词、动词和副词等。此外,还应致力于将本研究成果应用于自然语言信息处理领域,如未登录词识别、命名实体识别、信息检索和机器翻译等。