![]() |
![]() |
![]() |
|
Как прочитать текст файла PDF? | ☑ | ||
---|---|---|---|---|
0
AleshaPypok
14.07.25
✎
14:33
|
Добрый день! Файл хранится в базе, как можно прочитать его содержимое?
|
|||
1
mikecool
14.07.25
✎
14:36
|
а текст есть?
|
|||
2
Homer
14.07.25
✎
14:36
|
программа cuneiform
|
|||
3
AleshaPypok
14.07.25
✎
14:36
|
(1) Текст в PDF файле есть
|
|||
4
AleshaPypok
14.07.25
✎
14:37
|
(2) а средствами 1С?
|
|||
5
Fish
гуру
14.07.25
✎
14:37
|
(2) А она умеет напрямую из ПДФ или надо сначала в картинку преобразовать?
|
|||
6
Fish
гуру
14.07.25
✎
14:41
|
(3) ИзвлечениеТекста (TextExtraction)
|
|||
7
AleshaPypok
14.07.25
✎
14:44
|
(6) А как получить путь к файлу? Подскажите пожалуйста
|
|||
8
Fish
гуру
14.07.25
✎
14:44
|
Ну началось.
|
|||
9
Волшебник
14.07.25
✎
14:46
|
(6) Только предварительно нужно установить какой-нибудь PDF IFilter
|
|||
10
Fish
гуру
14.07.25
✎
14:46
|
(7) Если у тебя файл хранится в базе, то нужно сначала его куда-то записать. Вот куда ты его запишешь, это и будет путь к файлу.
|
|||
11
Волшебник
14.07.25
✎
14:52
|
консольная утилита PDFtoText
https://www.xpdfreader.com/pdftotext-man.html пример подключения: https://infostart.ru/1c/tools/1119432/ |
|||
12
AleshaPypok
14.07.25
✎
15:10
|
(10) ИмяФайла = ПолучитьИмяВременногоФайла("pdf");
ДДФайла = РаботаСФайлами.ДвоичныеДанныеФайла(ФайлЗаявки); ДДФайла.Записать(ИмяФайла); Объект= новый ИзвлечениеТекста(ИмяФайла); ТекстФ=Объект.ПолучитьТекст(); ТекстФ = Неопределено |
|||
13
maxab72
14.07.25
✎
15:12
|
(12) а в файле точно текст, а не отсканированная картинка?
|
|||
14
Волшебник
14.07.25
✎
15:13
|
ИзвлечениеТекста
Для извлечения текста из файлов используется интерфейс IFilter. Он является расширяемым. Можно установить дополнительные модули, чтобы появилась возможность извлекать текст из еще одного типа файлов. По умолчанию текст извлекается из файлов следующих типов (имеющих расширение): ASCX, ASP, ASPX, CSS, HHC, HTA, HTM, HTML, HHT, HTW, HTX, ODC, STM, DOC, DOT, POT, PPS, PPT, XLB, XLC, XLS, XLT, TXT, EML.
Для обработки PDF-файлов нужен PDF IFilter |
|||
15
AleshaPypok
14.07.25
✎
15:15
|
(13) Точно текст, файл формируется в 1С
|
|||
16
Волшебник
14.07.25
✎
15:17
|
(15) Формируйте ещё дополнительно текстовый файл и кладите рядом.
|
|||
17
Fish
гуру
14.07.25
✎
15:32
|
(14) Да, про PDF IFilter забыл.
|
|||
18
Garykom
гуру
14.07.25
✎
15:36
|
Как бы PDF это фактически текстовый файл...
С разными кодировками |
|||
19
Fish
гуру
14.07.25
✎
15:42
|
(18) Если только это не скан в виде картинки, сохраненный в формате ПДФ.
|
|||
20
Волшебник
14.07.25
✎
15:43
|
(19) Такой PDF можно закинуть в нейронку и вежливо попросить выдать текст.
|
|||
21
Fish
гуру
14.07.25
✎
15:46
|
(20) Ну если допускается закидывание файлов во внешний интернет, то можно любой онлайн-сервис OCR использовать.
|
|||
22
AleshaPypok
14.07.25
✎
15:53
|
(21) (20) (18) а как-то с помощью ДокументPDF.Прочитать() можно?
|
|||
23
Волшебник
14.07.25
✎
18:42
|
(22) текст нельзя
|
|||
24
Timon1405
14.07.25
✎
17:24
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |