在路上

 找回密码
 立即注册
在路上 站点首页 学习 查看内容

Android OCR之tesseract

2016-8-16 12:47| 发布者: zhangjf| 查看: 683| 评论: 0

摘要: Android OCR之tesseract 1. 开源工具简介 tesseract是非常有名的开源OCR工具,但是要将它配置到android开发环境中可能要费点功夫,别担心,github上面有好人帮助我们封装了Android开发环境的tesseract配置,这就是 ...
Android OCR之tesseract
1. 开源工具简介

tesseract是非常有名的开源OCR工具,但是要将它配置到android开发环境中可能要费点功夫,别担心,github上面有好人帮助我们封装了Android开发环境的tesseract配置,这就是Android平台上OCR开源项目tess-two。

2. 环境配置

利用tess-two配置OCR环境非常简单。

首先,设置工程的ndk路径。

其次,在模块中添加依赖:compile 'com.rmtheis:tess-two:6.0.0'。

3. 数据准备

要进行OCR还要获取训练数据tessdata,下载该训练数据,到时候将训练数据弄到自己的Android设备上就行了。

注意:不要把所有训练数据都弄到Android设备上,因为训练数据比较大,需要用到什么语言的数据就只把这些语言对应的数据弄到Android设备上。

比如,我一般识别只用到识别英文与简体中文,因此只需要将eng.traineddata,chi_sim.traineddata弄到Android设备上就行了。

4. 开始Android OCR之旅

相关常量设置:

  1. //训练数据路径,必须包含tesseract文件夹
  2. static final String TESSBASE_PATH = "/storage/emulated/0/Download/tesseract/";
  3. //识别语言英文
  4. static final String DEFAULT_LANGUAGE = "eng";
  5. //识别语言简体中文
  6. static final String CHINESE_LANGUAGE = "chi_sim";
复制代码

英文识别:

  1. public void EnglishOCR(){
  2. //设置图片可以缓存
  3. english.setDrawingCacheEnabled(true);
  4. //获取缓存的bitmap
  5. final Bitmap bmp = english.getDrawingCache();
  6. final TessBaseAPI baseApi = new TessBaseAPI();
  7. //初始化OCR的训练数据路径与语言
  8. baseApi.init(TESSBASE_PATH, DEFAULT_LANGUAGE);
  9. //设置识别模式
  10. baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_SINGLE_LINE);
  11. //设置要识别的图片
  12. baseApi.setImage(bmp);
  13. english.setImageBitmap(bmp);
  14. englishtext.setText(baseApi.getUTF8Text());
  15. baseApi.clear();
  16. baseApi.end();
  17. }
复制代码

简体中文识别与英文识别类似。

5. 程序界面

程序源代码下载:https://github.com/lavor-zl/FunctionsDemo

欢迎关注我的微信公众号:Android技术漫谈

最新评论

小黑屋|在路上 ( 蜀ICP备15035742号-1 

;

GMT+8, 2025-5-6 16:07

Copyright 2015-2025 djqfx

返回顶部