|   |   | 
| 
 | Программный синтаксической анализ текста | ☑ | ||
|---|---|---|---|---|
| 0
    
        mzelensky 04.03.13✎ 13:40 | 
        На выходных видел передачку посвященную ГУГЛУ (Канал "Наука 2.0" - не сочтите за рекламу, просто не хочется быть безосновательным). Там рассказывалось про механизмы рекламы и затронулиодин интересный момент - гугловская система анализирует потоки входящий и исходящих писем (текст писем) и в зависимости от содержания подбрасывает их источнику определенную рекламу. 
  Например в письме я пишу, что хочу в близжайшее время поехать в отпуск. Система анализирует мое письмо и подкидывает мне рекламу всяческих туров, путевок и т.д. Так вот что стало интересно мне - каким образом система производит анализ текста, т.е. как она понимает о чем идет речь в тексте?! Конечно самое банальное это проверка определенных (заранее подготовленных) ключевых слов и словосочетаний...но что-то мне одсказывает, что ГУГ не так прост...Так как это можно реализовать?! | |||
| 1
    
        Ursus maritimus 04.03.13✎ 13:42 | 
        Т.е. ты хочешь самостоятельно реализовать то, что в гугле реализуют много лет много разработчиков?
  Имхо, начни со строительства небольшого датацентра. | |||
| 2
    
        mzelensky 04.03.13✎ 13:45 | 
        (1) я где-то написал, что хочу это реализовать???
  В принципе конечно хочу, но сейчас вопрос не в этом, а в самом ПРИНЦИПЕ! | |||
| 3
    
        mzelensky 04.03.13✎ 13:45 | ||||
| 4
    
        MSII 04.03.13✎ 13:46 | 
        Да никак. ИИ нужен.     | |||
| 5
    
        mzelensky 04.03.13✎ 13:48 | 
        (4) Что значит НИКАК?! как-то же делают!     | |||
| 6
    
        Базис naïve 04.03.13✎ 13:50 | 
        На форуме был автобот, если не путаю название. Вот он на простые вопросы давал ответы. Поищи его тексты, посмотри - на что он одинаково отвечал, затем понимай и кодь его логику.     | |||
| 7
    
        MSII 04.03.13✎ 13:51 | 
        (5) Так и делают, как у тебя написано - анализируя вхождения известны подстрок.     | |||
| 8
    
        badboychik 04.03.13✎ 13:51 | 
        базы из пары сотен слов мне кажется хватит чтобы тупо по вхождению определять любую тематику объявлений     | |||
| 9
    
        MSII 04.03.13✎ 13:52 | 
        А контекст не анализируется. Например, глядя на эту ветку, гуглоробот сделает вывод, что ТС собирается в отпуск.     | |||
| 10
    
        mzelensky 04.03.13✎ 13:53 | 
        (8) ну не совсем, особенно когда текст довольно длинный и в нем человек пишет не по конкретно одной тематики, а скажем так...ОБЩАЕТСЯ, т.е. рассказывает обо всем по чуть-чуть.     | |||
| 11
    
        mzelensky 04.03.13✎ 13:54 | 
        (9) вот это и интересно - идет анализ СМЫСЛОВОЙ нагрузки или нет. Мне кажется такой анализ должен быть обязательно.     | |||
| 12
    
        Defender aka LINN 04.03.13✎ 13:55 | 
        (10) Заведи почту в гугле и смотре, какую рекламу он тебе подсовывать будет     | |||
| 13
    
        MSII 04.03.13✎ 13:57 | 
        (11) Шутишь? "Здравствуй, мама! Приснилось мне намедни, что собираюсь я поехать в отпуск. Жаль, что это только сон, а в действительности денег у меня нет, загранпаспорта нет да и вообще, сидеть мне еще на нарах минимум 7 лет, даже с учетом возможного условно-досрочного". Без ИИ точный анализ такого текста не взлетит.     | |||
| 14
    
        mzelensky 04.03.13✎ 13:58 | 
        (13) что ты понимаешь под "ИИ" ??? Терминаторов ??? 
  Есть куча программок, которые играют в шахматы, например - это ИИ??? | |||
| 15
    
        mzelensky 04.03.13✎ 13:59 | 
        (12) что толку мне смотреть на рекламу...     | |||
| 16
    
        MSII 04.03.13✎ 14:00 | 
        (14) Нет, это не ИИ.
  ИИ должен уметь анализировать сообщение с учетом контекста. | |||
| 17
    
        badboychik 04.03.13✎ 14:02 | 
        (13) а что гугл предложит по этому отрывку по твоему? Чифир и сонник?     | |||
| 18
    
        cincout 04.03.13✎ 14:03 | 
        (13) думаю по ключевому слову "нары" может предложить каталог мыльной продукции     | |||
| 19
    
        mzelensky 04.03.13✎ 14:05 | 
        (16) Программы умеющие это работали еще в 80-х годах. Еще тогда программа могла общаться с человеком (типа чата) в течении получаса и при этом не выдавать себя (т.е. создавалось впечатление ,что общаешься с реальным человеком).     | |||
| 20
    
        badboychik 04.03.13✎ 14:13 | 
        есть такой алгоритм - Байеса. Который в спам-фильтрах стоит, анализирует статистические параметры текста, если каких то слов из списка больше некоторого порога, то письмо считается спамом. Так и тут. Анализирует не только письма но и страницы по которым переходишь в поиске, набирает статистику и выдает более подходящие рекламы     | |||
| 21
    
        Defender aka LINN 04.03.13✎ 14:13 | 
        (15) Получишь ответ на свой вопрос     | |||
| 22
    
        MSII 04.03.13✎ 14:18 | 
        (19) Это не то, это бот обыкновенный, контекст он не анализирует. В общем, как человек он текст не обработает.     | |||
| 23
    
        3V 04.03.13✎ 14:19 | 
        +(20) http://msdn.microsoft.com/ru-ru/library/ms174806.aspx
  ну воть типа для начала курения темы ТС | |||
| 24
    
        mzelensky 04.03.13✎ 14:23 | 
        (21) Мой вопрос не в конечно результате (т.е какую рекламу они мне подсунут в итге), а в самом процессе (т.е. как они определяют, какую именно рекламу подсунуть)     | |||
| 25
    
        mzelensky 04.03.13✎ 14:24 | 
        (19) да что ты говоришь :) А как же он тогда без проблем общается на протяжении 30-60 минут? Думаешь там обычные "Если ИначеЕсли Иначе " ???     | |||
| 26
    
        Бледно Золотистый 04.03.13✎ 14:24 | 
        (19) Может я чего пропустил, но тест Тьюринга вроде еще не прошли.     | |||
| 27
    
        mzelensky 04.03.13✎ 14:26 | 
        (23) Спасибо, почитаем!     | |||
| 28
    
        MSII 04.03.13✎ 14:28 | 
        (24) Как поисковик формирует выдачу для тебя? Вот примерно так же, только вместо страниц - направления твоих интересов. При высокой концентрации в твоем тексте слов и фраз типа "отпуск, Анталия, олинклюзив, бухать с утра до ночи" логично предложить тебе тур. Естественно, математика там чуть сложнее - веса всякие и т.п. Ну по сути именно так.     | |||
| 29
    
        mzelensky 04.03.13✎ 14:30 | 
        (26) Вроде нет. Но есть ОЧЕНЬ продвинутые программы.     | |||
| 30
    
        MSII 04.03.13✎ 14:30 | 
        (25) Ты так думаешь? Да, пожалуй. Нет. Сегодня хорошая погода. Вы абсолютно правы. Привет, как дела?     | |||
| 31
    
        mzelensky 04.03.13✎ 14:32 | 
        http://www.pcweek.ru/themes/detail.php?ID=62564
  Выдержка из статьи: Первоначально Therapist состояла из семи модулей, написанных на Си, Turbo-Prolog и QuickBasic. Позже она была дополнена системой синтеза речи и базой знаний. Программа использует словарь из 70 000 слов и запоминает все, что ей рассказывают, используя эту информацию в следующих диалогах и подстраиваясь под интересы конкретного собеседника. Therapist выигрывала приз Лебнера еще в 1992, 1993 и 1995 гг. Затем она была усилена специализированными модулями, способными поддерживать разговоры на темы “мужчина против женщины” и “либералы против консерваторов”. Вот пример из одного ее победного диалога: Судья: Do you think that American soldiers should go to Bosnia? Therapist: I think that what clinton has done in sending 20,000 peacekeepers to bosnia will ensure a lasting peace. Судья: Do you think most Americans feel the way you do? Therapist: What did you mean when you said do you think that american soldiers should go to bosnia? Did anyone ever tell you that you think too much? Oh, I think most americans feel the way i do? | |||
| 32
    
        Дядя Вова 04.03.13✎ 14:36 | 
        Задрали с рекламой с@#$%!     | |||
| 33
    
        mzelensky 04.03.13✎ 14:37 | 
        (32) это был крик души?     | 
| Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |