第四节 相关研究
跨族群信息交流是世界所有多族群国家共同面临的问题,伴随着信息社会的演进历程,国内外多个学科的学者从不同视角相关问题进行过研究,从不同的侧面提出了应对这一问题的策略和方法。尽管所做研究的文化背景不同,需要解决的核心问题和最终达成的目标模式也不尽相同,但是国外相关领域研究所遵循的“平等、开放与包容”的价值观还是值得我国多民族语言信息管理领域借鉴。本节在介绍全球范围内跨族群信息交流相关研究的基础上,介绍我国在多民族语言信息共享相关领域的研究概况。
一 全球跨族群信息交流相关领域介绍
无论从哪个视角研究跨族群信息共享问题,都需要关注与之相关的人员、技术、信息等要素及其互动规律,不同学科研究在关注相关要素的时候,重点关注其中的某个方面。例如,多元文化信息服务(Multicultural Information Services)、社群信息学(Community Informatics,CI)、数字包容(Digital Inclusion,DI)、多语言教育培训(Multilingual Education & Training)等主要关注跨族群信息交流当中人的因素;信息技术在多语言信息交流中的作用是自然语言处理(Natural Language Processing,NLP)或计算语言学(Computing Linguistic)的研究范畴,主要关注跨族群信息交流中的技术中介因素,典型领域包括机器翻译(Machine Translation)、语言网格(Language Grid)、跨语言信息检索(Cross Language Information Retrieval,CLIR)、跨语言辅助阅读(Computer Aided Cross Language Reading)等;多语言文献(Multilingual Literature)、多语言著录(Multilingual Description)、多语言景观(Multiple Language Landscape)等主要关注信息本身的多语言保存问题;语言生态(Language Ecology)、信息生态(Information Ecology)等主要关注上述各类因素之间的相互影响和互动问题。本节对上述领域做以简要介绍并分析其对我国多民族语言信息资源共享问题的启示。
(一)多元文化信息服务
向多元文化人群提供公共文化服务是图书馆的基本职能之一,国际图书馆联合会、联合国教科文组织,澳大利亚、加拿大、美国等发达国家在图书馆多元文化服务领域做了大量探索性工作,我国学者也从多元文化信息服务角度探讨了我国多民族语言信息资源的共享问题。1982年,全球首个多元文化图书馆发展规范《多元文化图书馆服务规范》(Standards for Multicultural Library Services)在澳大利亚维多利亚州州立图书馆诞生。此后,维多利亚州立图书馆主持起草了《多元文化社区:图书馆服务指南》(Multicultural Community:Guidelines for Library Services),明确了图书馆在多元文化社会建设中的重要职能,强调要针对新移民群体、土著居民群体的需求提供专门的信息服务,该指南后来被国际图书馆联合会采纳并作为规范性文件发布。澳大利亚在图书馆多元文化服务当中主要采取了以下措施。第一,重视图书馆的多元文化馆藏建设,除了主流的英语文献之外,有针对性地收集移民群体、土著群体语言文字的信息资源以及涉及其他国家和地区的信息资源。第二,策划和开展与文化多样性相关的各类推广活动,开展诸如语言培训、教育讲座、文化庆典、多语言故事会等形式的活动。第三,重视信息技术的应用,开发数字化的多元文化信息资源,通过信息技术支持跨语言信息共享和交流。2006年8月,国际图书馆联合会(IFLA)通过了《多元文化图书馆宣言》,呼吁国际、国家或者地方各类图书馆应该反映、支持和促进文化多样性,并为促进跨文化服务和积极的公民意识服务,该宣言后来又得到联合国教科文组织的支持并通过。[21]2008年2月,加拿大图书馆协会发布了《关于多样性与包容性的立场声明》,强调公共图书馆的服务人员要与多元文化人群积极沟通,识别和描述多元人群的需求特征,设计和提供针对性的服务,并与社区等机构合作,帮助他们快速融入当地社会。加拿大公共图书馆在多元文化服务主要体现在多语言馆藏资源、多语言网站界面、多元文化用户教育、促进多元文化交流的文化活动等。[22]受到国外相关研究的启发,我国图书馆学界也有一些学者在近年来开展了图书馆多元文化服务的研究,例如王岚霞等人认为国外图书馆多元文化服务的经验主要有:“尊重差异,包容多样,平等服务”的理念;以多语言服务为核心,注重合作与营销;能够结合本地区实际,实现多元文化服务的“本土化”。
上述经验对我国民族地区多元文化服务的启示主要有:确立服务对象及其需求,建立多元文化馆藏;合理布局馆舍,加强少数民族语言文字的信息化建设;提高馆员多元文化素养,做好参考咨询工作;提倡资源共享,馆际合作,推动多元文化资源联合目录建设;等等。[23]由于国情的差别,我国多民族语言信息资源共享与欧美国家的多元文化主义思想有很多共通之处,但是又不完全一样,例如我国多民族语言信息资源共享是同时要兼顾“多元性”和“一体性”两个方面的需求,多元性是在一体性框架内得到保障和实现的。但是,尊重和保护文化多样性的根本立场是一致的。
(二)社群信息学
社群信息学(Community Informatics,CI),是以研究信息化背景下社群内部知识信息形成、流转与共享理论与实践的新兴学科,其发展可以追溯到20世纪80年代美国的社区网络运动,伴随着ICT(Information Communication Technology)在社会弱势群体和欠发达社区的推广和应用逐步发展成熟,2010年以后在北京大学信息管理系、南开大学信息资源管理系等机构的推动下在我国开始兴起,目前主要应用于我国农民工群体信息公平、城市弱势群体信息服务等问题的研究等方面。“社群”(Community)通常是指共同利益、共同历史或经历、共同道德价值观和共同期望的个体,通过血缘、地缘、社会关系、社会网络或特定社会组织联结在一起所形成的集合体。[24]社群可以有多种类型,例如基于共同居住区域所形成的地理社群,基于共同社会处境所形成的职业社群、基于共同年龄特征所形成的老年人社群和基于计算机网络所形成的互联网虚拟社群等,其中地理社群又可以被称为社区,所以很多学者也将“社群信息学”翻译为“社区信息学”。从理论上讲,“社群”可以包括各类占据社会优势地位社群,但是从社会信息伦理的角度而言,社群信息学研究的目的还是要通过信息技术帮助社会弱势群体获得更多的信息资源和社会资源,从而减少社会两极分化的风险,因此绝大多数社群信息学研究所针对的都是处在弱势地位的社群。社群信息学的核心话语体系主要包括:社群、信息与通信技术(ICT)、社会网络、社会资本等,通过研究ICT在社群或者社区的应用状况,分析知识和信息在社群当中的流转规律,采取措施帮助弱势群体实现公民权利,获得更多的社会支持,最终实现信息化背景下各类社群之间的沟通理解、良性互动和数字公平(Digital Equity)。汉语当中的“民族”是一种特殊类型的社群,西方社群信息学理论对于我国多民族语言信息资源共享问题具有非常重要的借鉴价值。按照马克思主义的观点,“民族是人们在历史上形成的有共同语言、共同地域、共同经济生活以及表现在共同文化上的共同心理素质的稳定的共同体”[25]。因此,民族地区信息化建设必须考虑到信息通信技术在各民族人口当中的应用,尤其是要通过技术手段落实国家的民族政策,保障少数民族人口的应有权利。多民族混合居住是我国绝大多数民族地区人口分布的普遍特征,针对多民族混合型社区,则要采用多种措施,为多民族人口之间的沟通交流提供支持,促进信息和知识在不同民族之间的传播和共享。社群信息学视角之下,负责为社会提供公共文化服务的政府组织、公共图书馆、档案馆、博物馆、文化馆等机构应该建立新的服务理念,实现社会职能的战略延伸,使公共文化服务机构成为辐射整个区域,为区域内各民族人口信息共享交流提供支持和服务的重要场所。
(三)数字包容
数字包容(Digital Inclusion)或者电子包容(Electronic Inclusion)是与数字鸿沟(Digital Divide)相对应的学术概念,与社群信息学也有较为紧密的联系。“数字鸿沟”通常用来描述社会群体由于信息技术应用水平差异而导致的生存发展状态的巨大变化,属于电子政务建设需要关注的重点问题。数字包容是解决数字鸿沟问题的一种策略,它强调在社会弱势群体当中推广信息技术,将其纳入社会信息化体系当中。数字欧洲咨询组(E-Europe Advisory Group)将数字包容定义为:在知识和经济社会中,个人和团体通过基于ICT的信息获取和有效参与,消除和打破信息获取障碍,从而可以按照自身能力和意愿去获取社会利益。[26]数字包容的概念非常广泛,除了针对最常见的由于信息技术应用能力差异性造成的社会分化趋势之外,还包括由于其他原因所导致的社会群体信息技术应用水平差异,例如老年人口的信息技术应用能力相对青年人群要弱化一些,生活在乡村的人口信息技术应用的基础条件就要比生活在城市的人口差一些。2002年6月欧盟提出的数字包容行动计划包括多个方面,例如Accessibility(无障碍访问)、Aging(老年人服务)、Competence(公民数字能力)、Social and Cultural Inclusion(社会文化包容)、Geographical Inclusion(跨地域包容)、Inclusive Government(包容性政府)。与社群信息学一样,数字包容关注的重点也是在社会信息化进程中处于相对弱势的群体,尤其是一些由于经济能力、技术能力和文化水平等方面的限制而被排除在信息化大潮之外的社会群体。数字包容的目的是通过教育、技术和管理措施的综合应用,使社会绝大多数成员可以享受信息化社会所带来的诸多便利,可以通过互联网等现代信息技术手段进行沟通交流,参与社会活动。数字包容的最高目标是建立全民信息社会,因此也有学者将数字包容翻译为“数字全纳”。数字包容的核心目标是通过信息技术增强社会凝聚力,防止社会成员由于经济、技术、文化、地理等方面的差异而走向分化甚至分裂。从这个意义上来说,多民族语言信息资源跨语种共享可以认为是“数字包容”的一种类型,主要通过现代信息技术在多语言信息资源管理领域的应用,降低语言文字差异性给沟通交流带来的障碍,增进不同民族人口之间的相互理解,增强中华民族的凝聚力和向心力,最终实现多民族语言信息资源在信息化条件下“多样性”和“一体性”的统一。
(四)多语言教育
由于本土语言资源的丰富性、历史上的殖民统治或者人口迁移等原因,世界上绝大多数国家都是多语言国家,多语言社会(Multilingual Society)是世界各国社会生活的现实状态而不是人为建构的结果,这种趋势在全球化推动下尤为明显。多语言社会环境下的教育旨在通过教育制度的科学设计,促进多语言社会的和谐发展,避免语言文化冲突。具体而言,多语言教育是指国家或地区的教育系统当中正式采用两种或者两种以上的语言作为教学语言,旨在培养可以在社会生活中使用两种或者两种以上语言进行交际的多语人口。多语言教育是全球化时代教育发展的主流方向,也是应对语言多样性挑战最根本的解决方案。2003年,联合国教科文组织发布了《多语世界中的教育》,制定了全球多语言教育中的基本原则,主要包括:第一,作为提高教育质量,帮助学习者和教师建立知识和经验的手段和方法,联合国教科文组织支持母语教学;第二,作为促进社会和性别平等的手段,作为语言多样化的关键组成部分,联合国教科文组织主持双语教育和多语教育;第三,作为跨文化教育的基本部分,联合国教科文组织支持语言教育,鼓励不同语言人口之间的理解,保证对基本权利的尊重。[27]对于我国这样的多民族国家而言,比较符合实际的少数民族多语教育是“民汉为主,外语为辅”的三语教育模式,[28]以少数民族语言作为文化传承的载体,以国家通用语言文字作为不同民族之间交流的中介和知识文化学习的工具,以外语为了解世界动态、参与国家交流的工具。此外,各民族之间还可以相互学习对方的语言文字,通过掌握多种语言增强沟通交流的能力。对多民族语言信息资源跨语种共享问题而言,多语言教育的核心任务是推广作为多民族共同语言的国家通用语言文字,使民族地区绝大多数人口可以同时掌握当地通用的少数民族语言和国家通用语言文字,从提升人的语言文字能力的角度降低跨语种信息资源共享的难度。
(五)机器翻译技术
利用技术手段辅助语言翻译,降低跨语言信息交流的难度,是人类长久以来的梦想。据研究,早在古希腊就有人提出利用机械装置进行语言翻译的设想,此后数千年一直有人在围绕这一目标进行多方面的尝试和努力。因此,这一领域最为典型的应用被称为机器翻译(Machine Translation),而目前提到这一术语的时候,通常是指计算机或者由计算机网络所联结起来的计算机集群。计算机在跨语言信息共享当中的应用不仅仅局限于机器翻译,除此之外,语音识别(Sound Recognition)、自动文摘(Automatically Abstracting)、自动分类(Automatically Classification)等方面也有大量的应用,这一领域在计算机学科称为“自然语言处理”(Natural Language Processing,NLP),在语言学科称为“计算语言学”(Computing Linguistics),两者研究范畴大体接近,研究思路和视角稍有不同。现代意义的自然语言处理起源于20世纪30年代,其代表是法国工程师阿尔楚尼(A.Artsouni)提出的“机械脑”(Machine Brain)和苏联发明家洛扬斯基(Petr Smirnov Troyanskii)有关的翻译机的设计思想。[29]20世纪50年代,处于冷战时期的美国需要大量翻译俄文资料,美国军方急需开发出用于实现俄文和英文互译的计算机软件程序,从而推动了基于计算机的机器翻译的发展。机器翻译主要研究如何通过计算机程序,将一种自然语言的文本转换成为另外一种自然语言完整的、准确的译文。在形式语言理论的指导下,最早的机器翻译系统试图把自然语言总结为若干语言学模型,基于双语词典将语言要素代入语法模型从而实现两种语言的相互翻译,即基于规则的机器翻译。实践证明,上述基于规则的机器翻译方法低估了人类自然语言的复杂性,尤其是对语义信息的模糊性、词语在不同情境下的多义性等问题无能为力。20世纪80年代以后,在反思基于规则的机器翻译方法的过程中,人们逐渐形成了基于统计的机器翻译思想,也催生了计算语言学的一个新的分支——语料库语言学。语料库语言学以计算机可读的自然语言文本为基础,通过进行大规模统计分析,建立两种自然语言对照文本之间的统计学模型并应用到翻译当中。到目前为止,国内外科研机构所开发机器翻译系统绝大多数都是采用基于统计的原理开发的,其译文质量也相对基于规则的机器翻译系统更高。21世纪以来,随着语义网(Semantic Web)的发展,基于多语言本体(Multilingual Ontology)的智能机器翻译逐步成为一种新的潮流,这种方法基于对语言要素之间关系的逻辑推理,从而使翻译具有一定程度的智能化特征。
(六)语言网格
2002年以来,日本京都大学社会信息学系的石田亨(Toru Ishida)教授及其研究团队提出了“语言网格”(Language Grid)理论并进行了大量相关实验。“语言网格”吸收了云计算(Cloud Computing)的思想,将跨语言翻译功能视为社会公共服务,要求政府将分散在各类机构和个人手中的语言资源进行集成,建设为社会成员各种类型跨语言应用提供技术支持的公共基础设施平台。“语言网格”可以将分散的语言资源集成起来,使支持机器翻译的语料库、多语言词表、多语言本体的规模扩大到足以进行相对较高精度翻译的程度,同时也降低了社会组织单独进行跨语言应用系统开发的难度,因而代表了未来跨语言技术支持的潮流和方向。以机器翻译为代表的自然语言处理技术的研究对象主要针对使用人口较多的语言文字,其需求之所以产生就是因为跨语言交流需求超过了人工翻译所能提供的服务,因此国内外绝大多数研究主要针对国与国之间的语言文字互译。如果不考虑语言文字的法律地位和政治象征,从语言信息工程角度来看,任何两种自然语言机器翻译的技术原理和实现方案都是类似的,符合自然语言处理的一般规律。我国多民族语言信息资源跨语种共享问题涉及多种语言文字,尤其对蒙古语、藏语、维吾尔语等少数民族语言文字与国家通用语言文字之间的自动化双向互译需求较为强烈,语言网格的基本原理同样适用于我国多民族语言信息资源共享领域。
(七)跨语言信息检索技术
跨语言信息检索(Cross Language Information Retrival,CLIR)是多语言信息资源管理最为典型的研究领域。一般而言,跨语言信息检索是指用户以自己熟悉的语言文字组成检索式,系统根据不同语种之间的对应关系,检索出符合用户需求多个语种的信息资源。跨语言信息检索的发展历史可以追溯到20世纪60年代美国康奈尔大学的Saltons基于双语受控词表所进行的英语—德语、英语—法语的双语信息检索技术实验。由于受控词表的引入,信息检索从简单的词语匹配提高到了主题匹配层面,检索精度大大提高。但是,由于使用受控词表对文献进行标注必须依靠人工完成,工作效率较低,因而基于自然语言的跨语言检索也是这一领域研究人员关注的重点。自然语言文本跨语言信息检索通常分为提问式翻译(Qurey Translation Approach)、文献翻译(Document Translation Approach)和非翻译(Non-translation Approach)三种方法:提问式翻译是将检索表达式翻译为各目标语言的文本,分别进行对应语言信息资源的检索,再将结果合并提供给用户;文献翻译是先将文献翻译为检索语言的文本,用户借助翻译后的文本进行单一语言信息检索,获得各语种信息;非翻译是计算机对一定数量的双语文档集进行分析,构建潜在语义索引(Latent Semantic Indexing),进而实现跨语言信息检索。[30]由于面向的是自然语言,计算机自动分词、语义消歧等机器翻译面临的问题在跨语言信息检索当中同样必须面对和解决。为了提高多语言信息检索的效率,中间语言法(Interlingual Representation Approach)可以为多语种信息资源提供共同参照的对象而得到应用。中间语言法是将多语种信息资源转换为某一种计算机容易处理的中间语言,以这种语言为中介,可以实现任何两种语言之间的语义对照。近年来,基于多语言本体(Multilingual Ontology)的跨语言信息检索逐渐得到研究人员的关注。信息管理学视角下的本体(Ontology)是描述领域知识的形式化、规范化概念集合,在共享语义表达体系当中,词汇之间建立了明确的逻辑关联,从而避免了自然语言信息处理可能出现的语义缺失、混淆和曲解等问题,提高了信息检索的精确化、智能化程度。跨语言信息检索是我国少数民族语言信息资源跨语种共享系统建设的核心功能,可以根据应用系统的现实需求,选择合适的跨语种信息检索方法和策略,从长远来看基于本体的跨语言信息检索有可能成为一种主流模式。
(八)跨语言辅助阅读技术
跨语言辅助阅读(Computer Aid Cross Language Reading,CACLR)是与跨语言信息检索紧密联系的一个领域,其根本目的在于通过计算机系统帮助用户使用自己熟悉的语言文字阅读其他语种的信息资源。跨语言辅助阅读也涉及跨语言信息检索功能,但是其核心是以用户需求为导向,更加注重用户在阅读其他语种信息资源时的心理体验和心智模式,通过词义对照、主题抽取、阅读建议等为用户检索、阅读和利用不熟悉语言文字信息资源创造数字化的支持环境。与机器翻译技术所追求的高精度互译目标不同,跨语言辅助阅读更加注重对用户需求的满足程度和用户的阅读体验。我国多民族语言信息资源共享当中,同样涉及跨语言辅助阅读问题,尤其是以国家通用语言文字为工具去查找、阅读和理解以少数民族语言文字为记录符号的信息资源。
(九)多语言文献、多语言著录和多语言景观
社群信息学、数字包容、多语言教育主要从人的视角探讨促进多语言信息资源共享的理论和政策,机器翻译、语言网格、跨语言信息检索、跨语言辅助阅读主要从技术的视角探讨促进多语言信息资源共享的中介手段,除此之外,还可以通过对信息资源本身的多语言化保存和管理来促进信息资源共享,可以采取的措施主要包括多语言文献、多语言著录和多语言景观等。
多语言文献(Multilingual Literature)是指在区域信息资源管理过程中,需要根据当地的语言状况,尽可能选择采用多个语言文字版本对照保存的情况。多语言文献在我国民族地区信息资源管理过程中最典型的应用是双语文献,例如民族地区来源机构生成少数民族语言文字信息资源的同时,为了扩大其传播和利用的范围,可以根据实际情况将该信息资源的国家通用语言文字版本一起保存。同样,民族地区文化机构在出版一些宣传国家大政方针的文献时,为了保证传播的效果,也可以专门编译和出版少数民族语言文字版本。多语言文献必须以同时存在同一内容两种以上语言文字版本为前提,因而对翻译工作的质量和水平有着较高的要求。如果没有对照版本,也没有足够的翻译人才,可以采取对照程度比较低的多语言著录模式。
多语言著录(Multilingual Descprition)是指同时采用两种或两种以上的语言文字对同一信息资源进行描述和记录,多语言著录的结果是多语言元数据。我国民族地区信息资源管理当中的双语著录主要是采用国家通用语言文字和少数民族语言文字对信息资源进行著录,生成两个版本的元数据。
语言景观(Language Landscape)是指特定公共区域内构成视觉景观的书面语言符号,例如街道标识、店铺标牌、大型户外广告等。[31]多语言景观(Multilingual Landscape)是指多语言地区公共标识同时采用多种语言文字,以便进入公共区域使用不同语言文字的人口都可以理解其含义。多语言景观本质上也是基于信息资源本身的共享策略,在制作公共区域文字标识的时候就要考虑到当地人口语言文字多样性带来的理解障碍,尽可能使绝大多数人口可以理解公共标识的含义。我国民族地区多语言景观通常采用国家通用语言文字和当地通用的某种少数民族语言文字两种文字标识,在有些旅游区为满足国际游客的需求,还会增加英文标识。
(十)语言生态学与信息生态学
生态学(Ecology)是研究有机体之间的关系有机体与周围环境之间关系的科学领域。20世纪后半期以来,基于社会系统与有机体发展和演进规律的相似性,国内外一些学者提出用生态学视角研究社会系统问题的观点,从而产生了一些交叉性的学科领域,例如语言生态学(Language Ecology)、信息生态学(Information Ecology)等。语言生态学旨在探讨语言对人类行为的影响以及语言之间的互动关系,动员全社会保护语言文字多样性,维护语言公平,消灭语言歧视,阻止和减缓语言消亡趋势,保障语言功能和语言的健康进化。[32]信息生态学是用生态学理论和方法研究社会信息系统的构成要素、结构特征、运行机制和演进规律的学科领域,通过研究信息生态位、信息生态链、信息生态群落、信息生态平衡等问题,构建以互利共生为核心理念的和谐信息生态系统。[33]我国多民族语言信息资源共享问题同时涉及语言生态和信息生态问题,需要从生态学视角,对涉及的人、技术和多语种信息资源之间的关系进行统筹规划,构建国家通用语言文字与各少数民族语言文字和谐共存,各族人口可以顺畅地进行思想文化交流的局面。多民族语言信息生态系统相关研究构成多民族语言信息共享空间的理论基础,对于多民族语言信息共享空间建设具有重要的指导意义。
二 我国多民族语言信息共享问题的相关研究概况
多民族语言信息资源跨语种共享是多学科交叉问题,国内学者相关成果主要见诸少数民族语言学、少数民族语言信息技术和少数民族信息管理等多个学科领域的文献中。在少数民族语言学领域,中央民族大学的戴庆厦教授等学者针对国家通用语言文字与少数民族语言文字关系问题进行了系统梳理,有着非常丰富的著述。戴庆厦教授认为中华民族多元一体格局的形成过程同时也是各语言之间“多元一体”关系的形成过程,作为国家通用语言文字的汉语是维系各民族沟通交流的“族际共同语”,而各少数民族语言文字以汉语为中介联结为统一的整体。这种多元一体的语言关系是在历史发展过程中逐渐形成的,也是未来相当长的时期内国家语言关系的基本特征,我国的语言文字工作、语言文字政策都必须从这一点出发。[34]在少数民族双语问题上,戴庆厦教授认为“两全其美”是解决问题的最佳模式,既要保护少数民族母语的使用和发展,也要帮助少数民族更好地学习作为国家通用语言的汉语,要保证少数民族母语与国家通用语言分工互补、和谐发展,正确认识新时期少数民族语言的功能变化,科学地处理好社会语言生活、文化教育中的国家通用语言文字和少数民族母语之间的关系。[35]中国社会科学院民族学与人类学研究所的黄行研究员认为我国民族地区普遍存在着多种语言文字并存的局面,这种情况构成一个复杂的语言关系系统,其复杂性主要体现在少数民族语文和汉语文之间的关系上,最终系统的输出有良性的可持续发展和非良性的不可持续发展两种情况,要实现少数民族社会语言生活的可持续发展,一是要在民族地区推广和普及国家通用语言文字,二是要充分尊重和保障少数民族使用和发展本民族语言文字的权利。[36]
少数民族语言文字信息技术是多民族语言信息资源共享的技术基础,目前国内这一领域研究力量比较集中的机构主要有西北民族大学、中央民族大学、西南民族大学、清华大学、新疆大学、内蒙古大学、西藏大学、延边大学等。2004年,教育部语言文字信息管理司、国家语言文字工作委员会编制下发了《民族语言文字规范标准建设与信息化课题指南》,分批启动了93项目科研项目,内容涉及少数民族语言文字字符集及平台建设、民族语言文字规范标准建设、民族语言文字资源库建设和民族语言保护与应用等。2006年,国家高技术研究发展计划(863计划)信息技术领域“以中文为核心的多语言信息处理技术”重点项目启动,旨在突破多语言语音信息处理、跨语言跨媒体网络搜索等关键技术,研制出若干多语言智能信息处理系统、产品和综合性多语言信息服务应用示范,建立多语言信息处理的基本技术体系,保持我国在中国多民族语言文字信息处理领域的总体领先态势。2013年,国家科技支撑计划“少数民族语言文字信息处理共性关键技术研究与示范应用”项目通过验收,该项目着重研究开发少数民族语言文字信息处理技术,开发与汉语兼容的少数民族语言文字软件体系,规范少数民族语言文字信息处理,通过项目实施,突破了基于云平台的少数民族语言文字资源服务技术、融合自然语言处理的藏语/蒙古语/维吾尔语的短文本语义检索技术、民族语言资源网络实时监测技术、多编码的民族文字输入显示技术等一系列少数民族语言文字信息处理共性关键技术,建立了藏语/汉语远程教育平台、藏文数字图书馆平台、藏维语言资源监测平台、少数民族特需品展示与招商平台等。[37]此外,针对民族地区多语言信息处理问题,国内多家研究机构的专家学者进行了大量探索。例如,西北民族大学中国民族信息技术研究院的于洪志教授研发了藏汉双语信息系统,戴玉刚教授研发了以中文为核心的多语言基础资源库;清华大学的丁晓青教授成功研制出少数民族语言文字识别系统,可以对蒙古文、藏文、哈萨克文、柯尔克孜文、维吾尔文、朝鲜文文档进行计算机智能识别;中央民族大学的赵小兵教授提出了我国多民族语言本体知识库的建设构想;内蒙古大学的塔娜构建了面向跨语言信息检索的蒙汉语义词典;新疆大学的艾斯卡尔·艾木都拉开发了基于维吾尔语和汉语的双语档案信息管理系统等。
少数民族语言信息管理是与多民族语言信息资源共享问题联系最为紧密的学科领域,其中最有代表性的研究主题主要有少数民族数字图书馆、民族信息学、民族档案学等。包和平、刘斌在《中国民族数字图书馆建设研究》一文中提出本着全方位开发利用少数民族文献的原则,建设公益性、多语种、标准化的民族数字图书馆。[38]崔德志在《中国民族数字图书馆建设探讨》一文提出以中国民族图书馆为依托,发挥其馆藏少数民族语言文字文献和少数民族语言专业人才集中的优势,建设中国民族数字图书馆的建设构想。[39]赵生辉研究了少数民族语言电子文件集成管理问题并按照“中华民族多元一体架构”思想构建了民族信息学(Minzu Informatics)理论体系。中国少数民族语言电子文件集成管理就是要在满足电子文件管理的一般性规律的基础上,将中国境内丰富多样、高度分散、技术异构的少数民族语言电子文件看作一个整体进行管理,通过建立一体化的制度体系、技术平台、组织架构、流程规范,平衡少数民族语言电子文件管理中多元化需求和一体化需求,整合电子文件形成机构、档案管理机构、语言文字工作机构和统一协调管理机构的理论,化解各民族地区分散管理所无法有效解决的诸多矛盾,为我国各族人民提供一体化、便捷、高效的电子文件利用服务,满足多层次的利用需求,促进民族团结与社会和谐。[40]民族信息学主要研究社会信息化条件下中国民族地区人口、信息、技术和环境之间的互动关系与演进规律,特别是利用信息技术降低语言文字多样性带来的沟通障碍,促进多民族人口信息共享的理论和方法。[41]郑文、张昌山、华林、陈子丹等人的民族档案学成果中多处提到促进少数民族档案信息资源共享的观点。
此外,一些研究和实践尽管不是针对少数族群语言文字信息资源共享问题提出的,但是其原理和思路对中国多民族语言文字信息共享具有重要的参考价值。例如,北京市人民政府2011年出台的《首都国际语言环境建设工作规划(2011—2015年)》中就将城市的国际语言环境是衡量城市国际化的尺度和标准的重要元素,为在京外国友人营造更为友好、便利的语言环境,将使北京更具亲和力和感染力。[42]四川省成都市提出提高旅游从业人员的多语种服务能力,规范城市和景区的标识系统,设立多语种公共服务热线,完善国际化网络营销平台,逐步推进商务服务英语考核,为国际旅游组织和知名旅游运营商提供国际语言文化服务体系,把成都市建设成为语言无障碍的国际旅游城市。[43]上述探索主要针对城市国际语言信息共享交流问题提出,在实践中探索出的多语言电话系统、多语言标识、跨语言志愿者服务等模式在解决民族语言信息共享问题时同样适用。
国内外相关学科学者在少数族群语言文字信息保护领域所做的研究和实践探索奠定了我国多民族语言信息资源共享问题研究的理论基础,具有重要的学术价值,尤其是社群信息学、数字包容、跨语言信息检索、多语言著录等领域为我国多民族语言信息共享问题研究提供了较为系统的研究思路。然而,受到多种因素的制约,目前这一领域总体上没有引起学界的足够重视,现有的研究主要是从语言学、计算机科学等学科视角出发进行的,从信息资源管理学科视角对多民族语言信息资源共享过程中人、信息、技术和环境之间的互动关系和演进规律关注不够。就信息资源管理类学科而言,目前的研究还处在基础问题探索阶段,现有的研究成果数量少且主题分散,对各类信息资源跨语种共享各类策略之间的依存和替代关系认识不深刻,对涉及的人、信息和技术等要合理组合和优化配置问题的关注相对不足,解决问题思路相对单一,例如在机器翻译技术面临巨大难度的情况下,完全可以用双语教育或双语保存等方式达到同样的效果,而目前这类思考相对较少。此外,目前绝大多数研究关注的是领域的基础问题,能够从多民族语言跨语种共享的现实需求出发,实现理论与实践紧密结合,推动理论成果大范围应用的研究相对较少。因而,基于系统思维和管理实践视角探索“多民族语言信息共享空间”的理论和实践具有极其重要的社会价值。
多民族语言信息共享空间建设是涉及民族学、语言学、教育学、计算语言学、信息管理学甚至建筑空间设计等学科在内的多学科理论和方法的交叉性、综合性、复杂性研究领域,需要研究者具有系统工程思维,要综合应用大量上述学科的知识和技能深入分析现象背后人、信息、技术和环境等各类要素之间相互影响、相互制约的复杂关系,最终提出能够实现全局性优化的整体性解决方案。本书所做研究,正是以上述相关学科理论和技术为基础,从构建多民族语言和谐信息生态的视角出发,对多民族语言信息资源共享问题所做的一种探索和尝试,最终目的是通过信息共享空间建设促进各族人口之间的沟通交流,促进民族团结与融合,实现共同繁荣与进步。