1成果简介
我国是一个多民族国家,在信息时代振兴和发展我国少数民族文化,必须解决少数民族文字文档计算机自动识别的难题。由清华大学电子工程系丁晓青教授主持研制,清华大学与西北民族大学、新疆大学、内蒙古大学、内蒙古师范大学合作,在国内外首次研制成功统一平台少数民族文字(蒙藏维哈柯朝)文档识别系统,能将蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文,及国际关注的阿拉伯文等多种民族文字、多种字体的印刷扫描文档图像,转换为可检索的文字代码信息,成为计算机可以处理的电子文档。系统扩展性强,人机界面友好,其主要技术指标达到世界领先水平。主要技术特点如下:
(1)、明高性能的蒙、藏、维、哈、柯、阿文字符识别方法。提出自适应字符基元分别识别策略,以及识别基元选取、非线性归一化、高效统计特征提取、统计识别与局部结构鉴别分析结合以及多层递进的分类器架构等整套字符识别方法,蒙、藏、维、哈、柯、阿文单字识别率均达99%以上;
(2)、首创基于基线的蒙、藏、维、哈、柯、阿文(混排汉英)文档切分识别方法。提出利用多种信息寻找候选切分点、结合识别可信度反馈和前后字形约束关系综合寻求全局最优的文档切分方法;提出结合字符文种辨识、不同文种字符识别可信度和民族语言规则的方法,解决混排汉英文档切分识别问题。经测试,对实际蒙、藏、维、哈、柯、阿文(混排汉英)文档的识别率均达96%以上。
2应用说明
目前,系统已在西藏、新疆、内蒙古、甘肃、四川、青海、云南、北京等地区推广应用。国务院资讯办下属西藏信息中心用该系统自动识别录入大量资料,制作网上发布的藏文信息。阿拉伯文识别软件在世界范围内销售,具有国际竞争优势。系统有助于中华民族的团结与和谐信息化发展,有利于国际信息交流,具有重要历史意义和显著社会效益。
3合作方式
技术授权,产品销售。
4联系方式
清华大学科技处 张虎 联系电话:010-62782239-319 手机:13911625927
联系单位:张家港市科学技术局 邮编:215600
联 系 人:许 洁 邮箱:kj.xj@zjg.gov.cn
联系电话:0512-58286127 传真:0512-58286122
|