Extract Text能够提取不同类型文档的文本内容。它基于微软索引服务器中的技术,该服务器使用称为iFilter的东西来索引文件中的文本。
【功能特点】
从PDF文档中提取文本
从PDF文件中提取文本所需的PDF过滤器DLL包含在Adobe Reader 7.0.5到9.x中。从Adobe Reader 10(也称为Adobe Reader x)的发布开始,该DLL不再是Adobe Reader安装的一部分。
从Office文档中提取文本
Microsoft提供了一个筛选器包,使您能够从以下文件格式提取文本:.docx、.docm、.pptx、.pptm、.xlsx、.xlsm、.xlsb、.zip、.one、.vdx、.vsd、.vss、.vst、.vdx、.vsx和.vtx。
【使用说明】
这个程序使用起来很简单。它是一个命令行实用程序,只接受两个参数。它必须知道要从中提取文本的文档的文件名。它还需要保存提取文本的新文件的文件名。