中文信息处理技术
包括汉字和少数民族文字在内的中文信息处理技术,是汉语言学和计算机科学技术的融合,是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科。
随着互联网的发展,中文信息处理技术已渗透到社会生活的各个方面。1994年,微软开始进入中文软件市场,微软的WORD把国产WPS挤出了市场,继而Windows中文版又把国产中文之星挤垮。微软凭借其强大的优势地位,使国产的中文信息处理软件举步维艰。中文版的Windows、Office等占据了大部分的中文软件市场,使中文信息处理逐渐丧失了其特殊地位。
经过二三十年的努力,我国的中文信息处理,包括中文的编码、字型、输入、显示、输出等的基本处理技术已经实用化,目前正在逐渐摆脱“字处理”阶段,处于向更高级阶段快速发展的时期。包括中文的文字识别机和手写文字识别、语音合成、语音识别、语言理解和智能接口等技术的研究已获得进展。中文的全文检索、内容管理、智能搜索、中文和其他文字之间的机器翻译等技术也正在开发、研制,并取得了较大进展,涌现了联想、方正、四通、汉王、华建等公司。
随着中国加入WTO与世界各国交流的逐渐扩大以及网络信息时代的来临, 中文信息处理技术越发显得重要,其自动化水平的提高,将大大促进我国科技、国民经济和社会发展,同时使中华民族的文化在信息时代得到新的发展。未来无疑应当加强中文信息处理技术的研发投入与政策倾斜。
人类功能基因组学研究
20世纪末启动的人类基因组计划被公认为生命科学发展史上的里程碑,其规模和意义超过了曼哈顿原子弹计划和阿波罗登月计划。随着人类基因组、水稻基因组以及其他重要微生物等50多种生物基因组全序列测定工作的完成,国际基因组研究进入到功能基因组学新阶段。
功能基因组学已成为21世纪国际研究的前沿,代表基因分析的新阶段。它是利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究,是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。从1997年迄今已发表的有关功能基因组学的论文数以千计,其中不少发表在《细胞》《自然》《科学》等国际著名刊物上。
目前功能基因组研究的重点集中在四个方面:一是基因测序技术研究。预计今后几年内,测序技术将继续发展,特别是有一些重要的改进将直接用于功能基因组的研究;二是单核苷多态性(SNP)以及在此基础上建立的SNP单体型研究;三是基因组有序表达的规律研究。主要包括基因的深入鉴定、基因表达与转录组研究、蛋白和蛋白质组研究、代谢网络和代谢分子研究、基因表达调控研究等;四是计算生物学和系统生物学研究。
近几年来,在国家“863”计划、国家重大科技专项等的资助下,我国功能基因组学研究取得了一系列进展。中华民族占世界人口的1/5,有丰富的遗传疾病家系资源,这是我国发展功能基因组研究的有利因素。“十五”期间,我国参与国际蛋白质组计划、国际人类基因组单体型图计划,高质量按时完成了项目中所承担的21号染色体区域的任务,建立并完善了中华民族基因组和重要疾病相关基因SNPs及其单倍型的数据库的建设,在国际一流杂志上发表了一批高水平学术论文,申报了一批国家专利,收集、保存了一批宝贵的遗传资源,并初步建立了遗传资源收集网络和资源信息库的采集管理系统,组建了一批国家级基地,培养了一支队伍,建立了一批技术平台。但总体而言,我国在功能基因组研究及应用方面的原始创新成果数量较少,还不能为医药生物技术产业的发展提供足够的知识和产品。