C# 提取PDF中的表格详情

程序员文章站 2022-06-15 19:09:59

目录1、简单介绍2、环境配置3、代码示例1、简单介绍本文介绍在c#程序中（附vb.net代码）提取pdf中的表格的方法，调用spire.pdf for .net提供的提取表格的类以及方法等来获...

1、简单介绍

本文介绍在c#程序中（附vb.net代码）提取pdf中的表格的方法，调用spire.pdf for .net提供的提取表格的类以及方法等来获取表格单元格中的文本内容；代码内容中涉及到的主要类及方法归纳如下表，供参考：

类型	描述
pdfdocument class	represents a pdf document model.
pdfdocument.loadfromfile(string filename) method	loads a pdf document.
pdftableextractor class	represents the pdf table extractor.
pdftable class	defines a pdf table.
pdftableextractor. extracttable(int pageindex) method	extracts table from page.
pdftable.gettext(int rowindex,int columnindex) method	gets text in cell.
file.writealltext() method	saves extracted text in table to a .txt file.

2、环境配置

visual studio 2017
.net framework 4.6.1
pdf测试文档
库：spire.pdf for .net 7.10.4

引用dll文件的2种方法：

方法1 ：通过 nuget 安装。

【步骤】

鼠标右键点击“引用”，“管理nuget程序包”，

C# 提取PDF中的表格详情

点击“浏览”，在搜索框中输入，点击“安装”，

C# 提取PDF中的表格详情

或者使用pm控制台安装:

pm>install-package spire.pdf -version 7.10.4

方法2 ：手动添加引用。

【步骤】

鼠标右键点击“引用”，“添加引用”，

C# 提取PDF中的表格详情

点击“浏览”，“浏览”，将本地路径下的dll文件（需提前下载到本地，并解压）添加到引用列表

C# 提取PDF中的表格详情

点击ok,完成引用：

C# 提取PDF中的表格详情

3、代码示例

using spire.pdf;
using spire.pdf.utilities;
using system.io;
using system.text;

namespace extracttable
{
    class program
    {
        static void main(string[] args)
        {
            //加载pdf文档
            pdfdocument pdf = new pdfdocument();
            pdf.loadfromfile("sample.pdf");
            stringbuilder builder = new stringbuilder();

            //抽取表格
            pdftableextractor extractor = new pdftableextractor(pdf);
            pdftable[] tablelists = null;
            for (int pageindex = 0; pageindex < pdf.pages.count; pageindex++)
            {
                tablelists = extractor.extracttable(pageindex);
                if (tablelists != null && tablelists.length > 0)
                {
                    foreach (pdftable table in tablelists)
                    {
                        int row = table.getrowcount();
                        int column = table.getcolumncount();
                        for (int i = 0; i < row; i++)
                        {
                            for (int j = 0; j < column; j++)
                            {
                                string text = table.gettext(i, j);
                                builder.append(text + " ");
                            }
                            builder.append("\r\n");
                        }
                    }
                }
            }

            //保存提取的表格内容到txt文档
            file.writealltext("extractedtable.txt", builder.tostring());
        }
    }
}

vb.net

imports spire.pdf
imports spire.pdf.utilities
imports system.io
imports system.text

namespace extracttable
    class program
        private shared sub main(args as string())
            '加载pdf文档
            dim pdf as new pdfdocument()
            pdf.loadfromfile("sample.pdf")
            dim builder as new stringbuilder()

            '抽取表格
            dim extractor as new pdftableextractor(pdf)
            dim tablelists as pdftable() = nothing
            for pageindex as integer = 0 to pdf.pages.count - 1
                tablelists = extractor.extracttable(pageindex)
                if tablelists isnot nothing andalso tablelists.length > 0 then
                    for each table as pdftable in tablelists
                        dim row as integer = table.getrowcount()
                        dim column as integer = table.getcolumncount()
                        for i as integer = 0 to row - 1
                            for j as integer = 0 to column - 1
                                dim text as string = table.gettext(i, j)
                                builder.append(text & convert.tostring(" "))
                            next
                            builder.append(vbcr & vblf)
                        next
                    next
                end if
            next

            '保存提取的表格内容到txt文档
            file.writealltext("extractedtable.txt", builder.tostring())
        end sub
    end class
end namespace

表格内容提取结果：

C# 提取PDF中的表格详情

其他注意事项：

代码中的pdf文件以及生成的.txt文件路径为 f:\vs2017project\extracttable\bin\debug\sample.pdf 和 f:\vs2017project\ extracttable\bin\debug\extractedtable.txt。文件路径也可以自定义为其他路径。
注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。

到此这篇关于c# 提取pdf中的表格详情的文章就介绍到这了,更多相关c# 提取pdf中的表格内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

C# 提取PDF中的表格详情

目录

1、简单介绍

2、环境配置

3、代码示例

C#提取网页中超链接link和text部分的方法

C# 获取PDF中的数字签名证书

python 三种方法提取pdf中的图片

C# 正则表达式提取字符串中括号里的值

Python将EXCEL表格中的多个sheet中的一列提取合并，并去重后统计记录的个数

C# 对Excel表格中的数据进行排序

C# 在PDF中添加不同类型的注释（5种）

C# 得到EXCEL表格中的有效行数和列数

pdf如何提取图片?迅捷PDF转换器提取PDF中的图片的操作流程

C# 实现从PDF文档的指定区域内提取文本