将tesseract-ocr安装到Ubuntu上
我們要安裝下列的套件。
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
sudo apt-get install libleptonica-dev
接下来,下载tesseract-ocr。
sudo apt-get install tesseract-ocr
下一步,在下载列表中,
https://code.google.com/p/tesseract-ocr/downloads/list
我们来下载日语和英语的训练数据。
tesseract-ocr-3.02.eng.tar.gz
tesseract-ocr-3.02.jpn.tar.gz
解压下载的文件,并将jpn.traineddata和eng.traineddata移动到/usr/local/share/tessdata/tessdata。
然后,设置TESSDATA_PREFIX变量。
export TESSDATA_PREFIX=/usr/local/share/tessdata
最后,让我们执行吧。
tesseract t.png out -l jpn
使用上述命令将t.png文件加载并以-l选项处理为日语,最终输出为out.txt。