习琴 發表於 2019-12-30 15:53:00

Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

<p>&nbsp;<img src="https://img2018.cnblogs.com/blog/298108/201912/298108-20191225163314466-317946843.jpg" alt="" width="1000"></p>
<p>&nbsp;OCR(Optical character recognition) —— 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向</p>
<p>截止笔者发文(2019.12.25),tesseract-ocr 最新发布的稳定版本是<em>4.1.0</em>. 而tesseract-ocr依赖于<em>leptonica——</em>最新稳定版本是<em>1.78.0</em></p>
<p><strong><span style="font-size: 18px">安装说明</span></strong></p>
<ul>
<li><span style="font-size: 18px"><strong><em>Windows</em></strong></span>(<em>下载下来一路无脑,点下一步就好</em>)</li>
</ul>
<p><em><strong>(1)</strong>详情请移步至如下链接,下载安装:</em></p>
<p>https://github.com/UB-Mannheim/tesseract/wiki</p>
<p>(2)<em>配置环境变量(跟JAVA一样)及添加</em><strong><em>TESSDATA_PREFIX</em></strong>请参见:</p>
<p>https://www.cnblogs.com/jianqingwang/p/6978724.html</p>
<p>注意需要下载<em>训练集</em>—traineddata:</p>
<p>https://github.com/tesseract-ocr/tessdata</p>
<p>中文请选如下4个:</p>
<p>chi_sim.traineddata (简体— 对于<em>宋体,</em>像素&gt;=&nbsp;<em>300dpi</em>:识别率高达<em>%100</em>,同时对<em><strong>英文</strong></em>及<strong>阿拉伯数字</strong>识别率高达<em>百分之90以上</em>)<br>chi_sim_vert.traineddata (简体,竖排)<br>chi_tra.traineddata (繁体)<br>chi_tra_vert.traineddata(繁体,竖排)【CoderBaby】</p>
<p>&nbsp;</p>
<ul>
<li><strong><em><span style="font-size: 18px">CentOS&nbsp;6</span> (这个网上的安装方案很少,真正可行的基本没有)</em></strong></li>







































</ul>
<p><strong><em>(1)下载Leptonica 和 Teseract 源码</em></strong></p>
<p>wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz<br>wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz</p>
<p><strong><em>(2)配置、编译和安装</em></strong></p>
<p><code><span style="font-size: 16px"><strong>leptonica</strong></span></code></p>
<p><code>&nbsp;</code></p>
<p><span style="font-size: 14px"> $ tar xzvf leptonica-1.78.0.tar.gz </span><br><span style="font-size: 14px"> $ cd leptonica-1.78.0   </span><br><span style="font-size: 14px"> $ ./configure</span><br><span style="font-size: 14px"> $ make</span><br><span style="font-size: 14px"> $ sudo make install</span></p>
<p><code>
<br><span style="font-size: 16px"><strong>Tesseract-OCR</strong></span>
</code></p>
<p> $ tar xzf tesseract-ocr-4.1.0.tar.gz<br> $ cd tesseract-4.1.0<br> $ ./autogen.sh<br> $ ./configure<br> $ make<br> $ sudo make install<br> $ sudo ldconfig</p>
<p><code>*****************************************************************************</code></p>
<p><span style="color: rgba(51, 153, 102, 1)"><strong><code><span style="font-family: 宋体; font-size: 14px">在安装Tesseract-OCR过程中一步一错,具体错误和解决办法如下:</span></code></strong></span></p>
<p>&nbsp;安装:</p>
<p>(1)<strong>yum install tesseract</strong></p>
<p>【Error】download出错,镜像163(可能网易的没有)下载失败</p>
<p>【Solution】更换阿里镜像</p>
<p>&nbsp;切换到yum repo配置目录:&nbsp;<span style="color: rgba(51, 153, 102, 1)"><em>cd /etc/yum.repos.d</em></span></p>
<p>&nbsp;备份基础repo: <span style="color: rgba(51, 153, 102, 1)"><em>sudo mv CentOS-Base.repo CentOS-Base.repo.backup</em></span></p>
<p><em style="color: rgba(51, 153, 102, 1)"><br></em>(2)<strong>下载tesseract key校验出错</strong></p>
<p>&nbsp;【Error】GPG key retrieval failed: Could not open/read file:///etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-6</p>
<p>【Solution1】不检查key了——<span style="color: rgba(51, 153, 102, 1)"><strong><em> 绕过方案</em></strong></span></p>
<p>编辑epel.repo: <span style="color: rgba(51, 153, 102, 1)"><em>vim /etc/yum.repos.d/epel.repo&nbsp;</em></span></p>
<p><span style="color: rgba(51, 153, 102, 1)"><span style="color: rgba(0, 0, 0, 1)">改参数: <span style="color: rgba(51, 153, 102, 1)"><em>gpgcheck=1</em></span> 改为&nbsp;<span style="color: rgba(51, 153, 102, 1)"><em>gpgcheck=1</em></span></span></span></p>
<p><span style="color: rgba(0, 0, 0, 1)">【Solution1】导入key ——&nbsp;<strong><span style="color: rgba(51, 153, 102, 1)"><em>真正解决方案</em></span><br></strong></span></p>
<pre><code>cd /etc/pki/rpm-gpg<br>use&nbsp;<code>rpm --import http://download.fedoraproject.org/pub/epel/RPM-GPG-KEY-EPEL-6</code>&nbsp;<br><br><strong>或者(从epel下载安装RPM package)<br></strong>yum -y install http://mirror.pnl.gov/epel/6/i386/epel-release-6-8.noarch.rpm<br><br><strong>或者<br></strong><span style="color: rgba(0, 0, 0, 1)">手动将key拷贝到正确目录</span></code></pre>
<p><span style="color: rgba(0, 0, 0, 1)">详情请参考:&nbsp;https://unix.stackexchange.com/questions/132757/how-to-automatically-accept-epel-gpg-key</span></p>
<p>*****************************************************************************</p>
<p><strong>(<strong>3</strong>)下载语言包,并且拷贝到testdata</strong></p>
<pre><code>$ wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz      
$ tar xzf tesseract-ocr-3.02.eng.tar.gz      
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata<br><br><em><span style="font-family: 宋体"><br><span style="font-size: 14px"><strong>注:</strong>如果没有C编译器,先安装gcc,具体请移步参考</span></span>—— https://linuxhostsupport.com/blog/how-to-install-gcc-on-centos-7/<br>如果安装失败,需要配置软件源<br><br></em></code><span style="font-size: 18px"><strong>使用方法</strong></span></pre>
<p>参数的使用有两种:</p>
<ul class="org-ul">
<li>
<p>使用 -c 选项来设定单项参数的值,比如:</p>
<div class="org-src-container">
<pre class="src src-sh">tesseract paper.png paper -l chi_sim -c language_model_ngram_on=1<br><em>其中,<span style="color: rgba(51, 153, 102, 1)">parer.png</span>是源文件(图片,文件完整路径名请自行添加),<span style="color: rgba(51, 153, 102, 1)">paper</span>是输出文件名(默认为txt文件); <span style="color: rgba(153, 204, 0, 1)">-l</span> 指定训练集(chi_sim —— 简体中文)</em></pre>
</div>
<p>允许使用多个 -c 选项来设置多个参数的值。</p>
</li>
<li>将多项参数设置写入文件,然后在识别时使用该文件,比如:</li>
</ul>
<div class="org-src-container">
<pre class="src src-sh">  tesseract paper.png paper -l chi_sim tess.conf</pre>
<hr>
<pre class="src src-sh"><code class="bash plain"><strong>(4)<span style="font-size: 14px">更简便的方法是使用yum方式安装 (会根据CentOS版本选择对应的Tesseract)</span></strong><br>yum&nbsp;</code><code class="bash functions">install</code>&nbsp;<code class="bash plain">epel-release (一定要先装,不然安装tesseract会报错:No package tesseract available.)<br></code><code class="bash plain">yum&nbsp;</code><code class="bash functions">install</code>&nbsp;<code class="bash plain">tesseract</code></pre>
<div class="line number3 index2 alt2"><code class="bash plain">&nbsp;中文包</code></div>
<div class="line number4 index3 alt1"><code class="bash plain">&nbsp;yum&nbsp;</code><code class="bash functions">install</code>&nbsp;<code class="bash plain">tesseract-langpack-chi_sim.noarch</code></div>
<div class="line number5 index4 alt2"><code class="bash plain">&nbsp;训练文件位于</code></div>
<div class="line number6 index5 alt1"><code class="bash plain">&nbsp;/usr/share/tesseract/tessdata/</code></div>
<div class="line number6 index5 alt1">&nbsp;</div>
</div>
<p>参考:</p>
<p>1)<em>https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6</em></p>
<p>2)<em>http://www.zmonster.me/2015/04/17/tesseract-install-usage.html&nbsp;</em></p>
<p>&nbsp;</p>
<p>&nbsp;本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。</p>
<p>************************************************************************</p>
<p><strong><em>精力有限,想法太多,专注做好一件事就行</em></strong></p>
<ul>
<li><em><em>我只是一个程序猿。</em>5年内把代码写好,技术博客字字推敲,坚持零拷贝和原创</em></li>
<li><em>写博客的意义在于<em>打磨文笔,</em>训练逻辑条理性,加深对知识的系统性理解;如果恰好又对别人有点帮助,那真是一件令人开心的事</em></li>
</ul>
<p>************************************************************************</p>
<p>&nbsp;</p><br><br>
来源:https://www.cnblogs.com/NaughtyCat/p/how-to-install-tesseract-ocr-on-windows-and-centos.html
頁: [1]
查看完整版本: Tesseract-OCR 4.1.0 安装和使用— windows及CentOS