15158846557 在线咨询 在线咨询
15158846557 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 数据抽取纯文本抽出通用程序库

数据抽取纯文本抽出通用程序库

时间:2022-02-18 23:06:01 | 来源:信息时代

时间:2022-02-18 23:06:01 来源:信息时代

DMCTextFilter是HYFsoft开发的纯文本抽出通用程序库,本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

DMCTextFilter采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBMAIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KSX1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定UserPassword的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。

本产品通过解析文件内部的信息,自动识别生成文件的应用程序名和其版本号,不依赖于文件的扩展名,能够正确识别文件格式和相应的版本信息。可以识别的文件格式如下:支持MicrosoftOffice、RTF、PDF、Visio、OutlookEML和MSG、Lotus1-2-3、HTML、AutoCADDXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、MacWrite、Works、CorelPresentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式

即使系统中没有安装作成文件的应用程序,可以从指定的文件或插入到文件中的OLE中抽出文本数据。

从指定的文件中,抽出文件属性信息。

从文件中,抽出指定页中文本数据。

从设有打开文档口令密码的PDF文件中抽出文本数据。

从指定的文件、或是嵌入到文件中的OLE对象中向流里抽取文本数据。

本产品支持以下语言:英语,中文简体,中文繁体,日本语,韩国语

抽出文本时,可以指定以下的字符集合作为文本文件的字符集(也可指定任意特殊字符集,但需要另行定制开发):GBK,GB18030,Big5,ISO-8859-1,KSX1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。

关键词:程序,文本,通用

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭