软件说明
PDFlib pCOS 4 –PDF 信息检索工具
什么是PDFlib pCOS?
PDFlib pCOS提供了一个简单而优雅的工具,用于从PDF文档中检索不属于页面内容的任何信息。例如,可以使用pCOS轻松查询PDF元数据,交互式元素(链接,表单字段等)或页面尺寸。
使用pCOS,您可以提取各种有趣的项目和创建输出为不同的目的。通过单次调用处理多个PDF文档,您可以轻松创建文档信息条目,页面格式,字体或任何其他属性的摘要。结合表格输出,这提供了一个强大的PDF管理工具。
在PDF工作流程中,PDF信息检索工具PDFlib pCOS有许多应用场景,但您也可以使用PDFlib pCOS作为学习或调试PDF的工具。以下是一些典型情况:
检查传入文档的预定义条件
识别大集合中的问题文件
创建文档管理的元数据摘要
质量保证在出版文件之前
文档检索和存储库工作流
总结书签
提取PDF文档的组件,例如ICC配置文件
检查PDF的安全问题(JavaScript等)
pCOS检索界面包含在其他PDFlib GmbH产品中:如果您使用PDFlib + PDI,PDFlib个性化服务器,TET或PLOP / PLOP DS,您还可以访问pCOS界面。如果您需要访问页面上的文本或图像,请使用我们的产品PDFlib TET进行PDF内容提取。
pCOS Cookbook
pCOS Cookbook是一个编程示例的集合,演示了pCOS用于各种PDF检索任务的用法。
PDFlib pCOS特性
支持的输入
PDFlib pCOS支持所有风格的PDF输入:
所有PDF版本到Acrobat XI,包括ISO 32000
加密文档(可能需要密码)
如果可能,损坏的PDF输入文档将被修复
信息检索
PDFlib pCOS提供了一个简单的查询界面。使用PDFlib pCOS,您可以提取各种有趣的项目,如:
文档信息字段和XMP元数据
一般信息:线性化和标记的PDF状态,加密详细信息和权限设置,页数和字体数
具有名称,嵌入状态等的字体
图像数据,如位深度,颜色空间,压缩,XMP
颜色空间详细信息
目标URL和Web链接的坐标
书签和相应的页码,例如。创建一个目录
表单字段数据:完整字段名称,内容,位置等。
页面大小,CropBox,页面旋转
ISO标准的状态:PDF / X,PDF / A,PDF / UA,PDF / E和PDF / VT
地理空间参考信息
列出或解压缩文件附件
图层名称,页面标签,文章线程
注释详细信息
列出所有评论以及评论者姓名
数字签名详细信息:签名字段的名称,签名/未签名,签名者姓名,签名日期和原因
从PDF / X或PDF / A文档提取ICC输出意图概要文件
PDFlib个性化服务器的块属性
文档,页面,注释或字段级别的JavaScript
从ZUGFeRD文档检索XML发票数据
PDF包/投资组合的属性
输出格式
PDFlib pCOS可以创建不同用途的输出:
纯文本输出
以UTF-8或UTF-16格式输出的Unicode文本
使用电子表格/数据库处理的表格输出
二进制数据,例如ICC配置文件或文件附件
自定义后处理的用户定义输出格式
pCOS路径 – PDF对象的简单语法
而不是被复杂的树结构所困扰。对于书签或表单字段,可以使用简单的pCOS路径语法轻松访问PDF对象。它提供方便的快捷方式,用于访问常用的PDF对象,如页面,字体,书签,表单字段等。
pCOS 4中的增强
pCOS编程接口8包括用于检索PDF信息的附加便利特征,包括以下:
– 在页面或注释中标识具有透明对象的页面
– 加密文件附件
– 识别PDF / A,PDF / E,PDF / UA,PDF / X和PDF / VT的所有风格
通用Unicode字符串转换器方法pCOS_convert_to_unicode()
更新语言绑定:
– Perl 5.8 – 5.18
– PHP 5.3,5.4和5.5
– 面向对象的接口为Python 2.6,2.7,3.2和3.3
接受各种不合格的PDF结构
损坏的PDF文档的增强修复模式
各种错误修复
pCOS库或命令行工具?
pCOS可用作各种开发环境的编程库(组件),也可作为批处理操作的命令行工具。两者都提供类似的功能,但适合于不同的部署任务。
使用pCOS编程库…
…用于集成到桌面或服务器应用程序中。使用带有所有支持的语言绑定的库的示例包括在pCOS包中。
pCOS命令行工具适用…
…用于批处理PDF文档。它不需要任何编程,但提供了强大的命令行选项,可用于将其集成到复杂的工作流程。 pCOS命令行工具扩展了库的功能:
简单检索常见的PDF元素,例如书签,注释,元数据,表单字段等。
扩展模式,用于查询更复杂的对象和自定义输出格式
提取数据项,例如文件附件,ICC配置文件等。
以逗号分隔值或用户定义的格式发出信息,以便导入到电子表格或数据库中
用于转储复合PDF对象(如字典和数组)的递归功能
支持的开发环境
PDFlib pCOS无处不在 – 它几乎在所有计算平台上运行。我们为所有常见的Windows,OS X / macOS,Linux和Unix提供32位和64位软件包。
pCOS内核采用高度优化的C和C ++代码,以实现最高性能和较小的开销。通过简单的API(应用程序编程接口),可以从各种开发环境访问pCOS功能:
COM用于VB,ASP等
C和C ++
Java,包括servlet和JSP
.NET用于C#,VB.NET,ASP.NET等。
Perl
PHP
Python